经过前面Python基础内容的学习,相信好多小伙伴都感觉一身本事,但是无用武之地吧,哈哈哈。。。,不要着急,如你们的愿,在爬虫阶段,我们就大胆的把基础部分的内容应用一下吧~~~

此时此刻,你准备好了吗?我们要开始爬虫的学习之路喽

初识爬虫

1.爬虫简介

模拟浏览器,发送请求,获取响应

网络爬虫,英文名为Spider,又称为网页蜘蛛,网络机器人,在数据分析应用中,更多的将爬虫称为数据采集程序,是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。

  • 原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做
  • 爬虫也只能获取客户端(浏览器)所展示出来的数据

网络中的数据可以是由web服务器【Nginx/Apache】,数据库服务【MySQL/Redis/MongoDB】,索引库,大数据,视频/图片库,云存储【阿里云的OSS】等提供的,最主要的来源是Web服务器

不过,大家一定要注意哦,可爬取的数据必须是公开的,非盈利的,如:如果侵入人家非公开的网络,人家会通过ip定位到你,属于违法行为的哦,再或者,一些理财的网站,如果爬取数据,肯定是不可以的,如果小伙伴们不听话,非要去爬取,那任何人都是保护不了你的哦,狗头保命~~~

有名的爬虫案件:简历大数据公司“巧达科技”被一锅端、“车来了”涉嫌偷数据被警方立案等

2.爬虫分类

通用爬虫:

通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果

大家要注意哦,通用爬虫虽然简单,方便,但是缺点也是显而易见的,小助手给大家列举了几点,大家可以了解一下:

​ a.通用搜索引擎所返回的结果都是网页,而大多情况下,网页里90%的内容对用户来说都是无用的。

​ b.不同领域、不同背景的用户往往具有不同的检索目的和需求,搜索引擎无法提供针对具体某个用户的搜索结果。

​ c.万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎对这些文件无能为力,不能很好地发现和获取。

​ d.通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询,无法准确理解用户的具体需求。

聚焦爬虫:

聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息, 如12306抢票,或专门抓取某一个(某一类)网站数据

1.根据是否以获取数据为目的,可以分为:

  • 功能性爬虫,给你喜欢的明星投票、点赞
  • 数据增量爬虫,比如招聘信息

2.根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为:

  • 基于url地址变化、内容也随之变化的数据增量爬虫
  • url地址不变、内容变化的数据增量爬虫

看到这里,大家是不是发现通用爬虫简单,但是不实用,聚焦爬虫应用比较广泛,而且实用,但是实现起来难度较大,不过没事的哈,有小助手的帮助,我们都能学会的,奥利给!!!

3.爬虫的作用

爬虫在互联网世界中有很多的作用,比如:

1.数据采集,比如:

  • 抓取微博评论(机器学习舆情监控)
  • 抓取招聘网站的招聘信息(数据分析、挖掘)
  • 新浪滚动新闻
  • 百度新闻网站

2.软件测试

  • 爬虫之自动化测试
    自动化测试所必需的selenium . selenium是一个用于Web应用程序测试的工具,selenium 测试直接运行在浏览器中,就像真正的用户在操作一样。 支持的浏览器包括IE,chrome和Firefox等。其实就是借助于selenium做爬虫的事情。

3.抢票和投票

  • 12306抢票
  • 投票网

4.网络安全

  • 短信轰炸
  • web漏洞扫描

4.技术步骤

第一步:爬取数据,实际上就是根据一个网址向服务器发起网络请求,获取到服务器返回的数据

第二步:解析数据,将服务器返回的数据转换为人容易理解的样式

第三步:筛选数据,从大量的数据中筛选出需要的数据

第四步:存储数据,将筛选出来的有用的数据存储起来,如:数据库,CSV文件,Excel文件,JSON文件等

只要小伙伴们按照这四个步骤操作,实现一个爬虫任务还是很简单的

好了,我们本节课的内容就到此结束啦,通过本节课的学习,我们对爬虫有了大概的认识,并大概了解了爬虫相关的一些相关技术,有了这些概念的加持,对我们学习后面的内容会有很大的帮助。

如果你在学习过程中遇到任何问题,可以关注公众号:Python专栏或答疑Q群:591897914。

期待大家学习完爬虫的全部课程之后,能有一个不错的收获~~~,Good Luck!!!

Python爬虫入门:初识爬虫相关推荐

  1. Python爬虫入门之爬虫解析提取数据的四种方法

    本文主要介绍了Python爬虫入门之爬虫解析提取数据的四种方法,通过具体的内容向大家展现,希望对大家Python爬虫的学习有所帮助. 基础爬虫的固定模式 笔者这里所谈的基础爬虫,指的是不需要处理像异步 ...

  2. python3 [爬虫入门实战]爬虫之scrapy安装与配置教程

    python3 [爬虫入门实战]爬虫之scrapy安装与配置教程 标签: python爬虫scrapy 2017-07-08 15:38 77人阅读 评论(0) 收藏 举报 分类: python3爬虫 ...

  3. python从入门到爬虫_python爬虫从入门到放弃(一)之初识爬虫

    什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...

  4. python 爬虫《百炼成佛》爬虫入门 (爬虫介绍)第一个爬虫程序

    爬虫<百炼成佛> 爬虫是什么? 爬虫:通过编写程序来获取到互联网上的资源百度 爬虫:通过编写程序来获取到互联网上的资源百度 需求:用程序模拟浏览器.输入一个网址.从该网址中获取到资源或者内 ...

  5. 由浅到深玩转Python爬虫(一)初识爬虫

    文章目录 前言 1. Python版本如何选择? 2. IDE如何选择? 3. 初识爬虫 4. 爬虫前景怎么样? 5. 怎么编写爬虫? 6. 来!我们上道具 7. 致谢 前言   由于自身对爬虫技术的 ...

  6. python xpath入门_python爬虫入门实战(三)!xpath 和 csv!

    最近有小伙伴说正则表达式学不懂?那有什么替代方案呢?一起往下看吧! 在前两篇文章我们已经学了一些基本技巧.但是之前都是用正则表达式来解析内容的,可能有小伙伴对正则表达式不理解,于是乎,我找到一个相对好 ...

  7. 20行python代码入门网络爬虫全流程:使用BeautifulSoup抓取当日人民银行外汇数据

    网路爬虫是python最重要的应用之一,甚至有很多地方认为python就是用来做网抓的.这里将用大约20行代码展示一个从人民银行官网抓取当日人民币美元汇率的示例来入门这项技术. 和我们平时手动上网寻找 ...

  8. Python 从入门到爬虫极简教程 1

    Python 爬虫与数据分析 你学的太多,练习太少. -- 古典 抓取数据但不用 Python 不编码是第一选择 八爪鱼采集器 Octoparse 特点: 内嵌浏览器, 可视化定位, 可提取 Java ...

  9. 用python爬虫的基本步骤-Python爬虫入门:爬虫基础了解

    1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...

  10. python爬虫都需要什么手续_Python爬虫入门 | 3 爬虫必备Python知识

    这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...

最新文章

  1. nginc+memcache
  2. Cortex-M3学习笔记(一)
  3. asp.net MVC中form提交和控制器接受form提交过来的数据(转)
  4. orcadcapture安装_OrCAD Capture CIS初学者快速上手指导教程
  5. 自学指南——零基础教你快速学习软件测试?
  6. Android-环境搭建
  7. 未来已来:数字化时代的商业模式创新-读书笔记
  8. 数据报表开发技巧:自动为数据报表添加【小计】、【总计】行
  9. 【无标题】deployment does not have minimum availability
  10. 水平垂直居中的几种方式
  11. 从户外露营到登陆火星,火星玩家电核装备让太空黑科技成为现实
  12. 我的网安之路——2020年总结
  13. 计算机网络工程方向,计算机网络专业发展方向
  14. dubbo源码分析7 之 服务本地暴露
  15. Android登录注册功能封装
  16. 什么是高可用性(High Availability)?
  17. mac机c4d更改语言,Maxon Cinema 4D for Mac 安装设置中文教程
  18. 2020年,校招U3D笔试题(部分附答案)
  19. 三轴陀螺仪与加速度计如何辅助 iPhone 定位的
  20. 二、PHP内核探索:一次请求的开始与结束 - MINIT与RINIT

热门文章

  1. Debian sequeeze编译coreavc 2.0+mplayer
  2. Halcon的一维码和二维码解码步骤和技巧
  3. dnf登录不了服务器未响应,win7dnf辅助登陆没反应的三种解决方法
  4. 从吃喝玩乐到学习,71个良心网站,看完你会回来点收藏
  5. 计算机专业为什么要学线性代数,为什么要学线性代数
  6. [图文]Chrome四步下载斗鱼视频(直播回放)视频
  7. Tushare 基础用法
  8. 三创赛优秀作品_创新藏在每一个细节里———记第三届3S杯全国大学生物联网技术与应用“三创”大赛一等奖获奖作品...
  9. 模拟电子技术基础第五版习题 视频讲解 模拟电子技术基础第五版答案
  10. 终极算法---读书笔记