简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

你可以简单地想象:每个爬虫都是你的「分身」。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样。

你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。

抢票软件,就相当于撒出去无数个分身,每一个分身都帮助你不断刷新 12306 网站的火车余票。一旦发现有票,就马上拍下来,然后对你喊:土豪快来付款。

那么,像这样的爬虫技术一旦被用来作恶有多可怕呢?

正好在上周末,一位黑客盆友御风神秘兮兮地给我发来一份《中国爬虫图鉴》,这哥们在腾讯云鼎实验室主要负责加班,顺便和同事们开发了很多黑科技。比如他们搞了一个威胁情报系统,号称能探测到全世界的「爬虫」都在做什么。

我吹着口哨打开《图鉴》,但一分钟以后,我整个人都不好了。

我看到了另一个「平行世界」:

就在我们身边的网络上,已经密密麻麻爬满了各种网络爬虫,它们善恶不同,各怀心思。而越是每个人切身利益所在的地方,就越是爬满了爬虫。

看到最后,我发现这哪里是《中国爬虫图鉴》,这分明是一份《中国焦虑图鉴》。

/>

我们今天要说的,就和这些 App 有关。

一、爬虫的「骚操作」

爬虫也分善恶。

像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为「善意爬虫」。

但是,像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次。铁总并不觉得很开心。这种就被定义为「恶意爬虫」。(注意,抢票的你觉得开心没用,被扫描的网站觉得不开心,它就是恶意的。)

给你看一张图:

/>

这张图里显示的,就是各行各业被爬「叨扰」的比例。(注意,这张图显示是全世界,不是全中国。)而每一个色块背后,都是一条真实而强大的利益链条。

接下来,中哥就给你科普一下里面的骚操作。

1、排名第一的是出行

出行行业中爬虫的占比最高(20.87%)。在出行的爬虫中,有 89.02% 的流量都是冲着 12306 去的。这不意外,全中国卖火车票的独此一家别无分号。

你还记得当年 12306 上线王珞丹和白百何的「史上最坑图片验证码」么?

/>

这些东西不是为了故意难为老老实实卖票的人的,而恰恰是为了阻止爬虫(也就是抢票软件)的点击。刚才说了,爬虫只会简单地机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外。

你可能会说,不对啊,我现在还可以用抢票软件抢到票啊。

没错。抢票软件也不是吃素的。它们在和铁总搞「对抗」。

有一种东西叫作「打码平台」,你可以了解一下。

打码平台雇用了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。

当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是「锅铲」,那么下次这张图片再出现的时候,系统就直接判断它是「锅铲」。时间一长,12306 系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。

/>

你可能会问:为什么 12306 这么抠呢?它大方地让爬虫随意爬会死吗?

答:会死。

你知道每年过年之前,12306 被点成什么样了吗?公开数据是这么说的:「最高峰时 1 天内页面浏览量达 813.4 亿次,1 小时最高点击量 59.3 亿次,平均每秒 164.8 万次。」这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。

况且这里还没有讨论,被抢票软件把票抢走,对我们父母那样的不会抢票的人来说,是不是公平呢?

铁路被爬虫「点击」成这样已经够惨了,但它还有个难兄难弟,就是航空。

而航空里,被搞得最惨的不是国航,不是海航,也不是东航。而是亚航。

/>

航空类爬虫的分布比例。

很多人可能都没坐过亚洲航空。这是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的旅游胜地,飞机上连矿泉水都得自费买,是屌丝穷 X 度假之首选。

为什么爬虫这么青睐亚航呢?因为它便宜。确切地说,因为它经常放出便宜的票。

本来,亚航的初衷只是随机放出一些便宜的票来吸引游客,但这里面黄牛党是有利可图的。

据我所知,他们是这样玩的:

技术宅黄牛党们利用爬虫,不断刷新亚航的票务接口,一旦出现便宜的票,不管三七二十一先拍下来再说。

亚航有规定,你拍下来半小时(具体时间记不清了)不付款票就自动回到票池,继续卖。但是黄牛党们在爬虫脚本里写好了精确的时间,到了半小时,一毫秒都不多,他又把票拍下来,如此循环。直到有人从黄牛党这里定了这个票,黄牛党就接着利用程序,在亚航系统里放弃这张票,然后 0.00001 秒之后,就帮你用你的名字预定了这张票。

「我是中间商,我就要赚差价!」这波骚操作,堪称完美。

2、排名第二的是社交

社交的爬虫重灾区,就是你们喜闻乐见的微博。

给你看张图:

/>

这是爬虫经常光顾的微博地址。

这里的代码其实指向了微博的一个接口。它可以用来获取某个人的微博列表、微博的状态、索引等等等等。

获得这些,能搞出什么骚操作呢?

你想想看,如果我能随心所欲地指挥一帮机器人,打开某人的微博,然后刷到某一条,然后疯狂关注、点赞或者留言,这不就是标准的僵尸粉上班儿的流程么。。。

其实,僵尸粉都只是爬虫的常规操作,更骚的来了,你都想不到还能这么操作,而且分分钟躺着赚钱:

python爬虫什么意思-通俗的讲,网络爬虫到底是什么?相关推荐

  1. 网易微专业python爬虫工程师一期多久_微专业-Python爬虫工程师 – 3个月成为网络爬虫工程师...

    [2020最新]Python爬虫工程师 – 3个月成为网络爬虫工程师 课程简介 1.平均薪资高 入行爬虫工程师薪资可达15w高级爬虫工程师薪资可达30w

  2. Python爬虫工程师 3个月成为网络爬虫工程师

    攻城狮整理网易云课堂<Python爬虫工程师 3个月成为网络爬虫工程师> 1.平均薪资高 入行爬虫工程师薪资可达15w 高级爬虫工程师薪资可达30w 2.入行门槛低 从事爬虫工程师职位最多 ...

  3. 【爬虫】手把手教你写网络爬虫(2)

    介绍 大家好!回顾上一期,我们在介绍了爬虫的基本概念之后,就利用各种工具横冲直撞的完成了一个小爬虫,目的就是猛.糙.快,方便初学者上手,建立信心.对于有一定基础的读者,请不要着急,以后我们会学习主流的 ...

  4. 【学习教程系列】最通俗的 Python3 网络爬虫入门

    很多朋友学习Python都是先从爬虫开始,其原因不外两方面: 其一Python对爬虫支持度较好,类库众多,其二语法简单,入门容易,所以两者形影相随,不离不弃. 要使用python语言做爬虫,首先需要学 ...

  5. python爬虫安装软件_为编写网络爬虫程序安装Python3.5

    1. 下载Python3.5.1安装包 1.1 进入python官网,点击menu->downloads,网址:Download Python 1.2 根据系统选择32位还是64位,这里下载的可 ...

  6. python 爬虫解决登录验证问题_python网络爬虫的简单实践——解决无验证模拟登陆问题...

    正文开始以前先唠叨几句,一直以来都是自己在网络各大论坛上向大佬们学习东西,如今因为疫情困在家里写毕设,闲余之时也瞎捣鼓了一下,于是想在这里写一点东西,算是自己学习的一个笔记,再一个就是发现网上的教程质 ...

  7. python爬虫哪个选择器好用_Python网络爬虫四大选择器用法原理总结

    前几天小编连续写了四篇关于Python选择器的文章,分别用正则表达式.BeautifulSoup.Xpath.CSS选择器分别抓取京东网的商品信息.今天小编来给大家总结一下这四个选择器,让大家更加深刻 ...

  8. python爬虫程序的流程图_Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)...

    ###1. 项目背景 在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到 ...

  9. python网络爬虫网易云音乐下载_python网络爬虫爬取网易云音乐

    #爬取网易云音乐 url="https://music.163.com/discover/toplist" #歌单连接地址 url2 = 'http://music.163.com ...

  10. Python之父强烈推荐,Python3网络爬虫开发实战,爬虫入门必看书籍,豆瓣评分9.2

    实操性很强的一本工具书,由浅入深,深入浅出.前面从环境配置到爬虫原理.基本库和解析库的使用再到数据存储,一步步把基础打好,然后再分门别类介绍了Ajax.动态页.验证码.App的爬取.识别等,还讲解了代 ...

最新文章

  1. 详解Linux Initrd
  2. TensorFlow莫烦 placehoder (三)
  3. oracle数据库支持2颗cpu,2.3 Oracle数据库中常见的性能问题
  4. img 错误样式css,css设置图片大小_css 控制img图片的大小样式
  5. php nb2br,PHP中基本符号及使用方法
  6. idea修改jdk的版本号
  7. python找到最大最小值、最大最小值的位置、删除最大值最小值
  8. 十二导联动态心电图技术参数
  9. linux降内核版本_linux内核降级
  10. 原子结构示意图全部_原子结构示意图全部-原子结构示意图规律口诀-前20号元素的原子结构示意图...
  11. 帝国 cms 列表 php,常用帝国cms目录结构分享
  12. 《第6章-GCN的性质》学习笔记
  13. jquery在线扫雷
  14. Linux 创建MBR的磁盘的扩展分区、逻辑分区相关问题(parted)
  15. 逻辑回归LogisticRegression
  16. 电子类专业毕业后到底是做什么的??挺有意义的
  17. 黑马程序员_Java_异常
  18. ZigBee 3.0理论教程-通用-1-04:协议与架构-媒体访问控制层(MAC)
  19. webstorm 重新下载破解版插件后打不开了?
  20. 打包bat成exe,双击运行不显示dos窗口,exe不报毒

热门文章

  1. 经纬财富:昭通炒现货白银技巧
  2. HTML实现win10桌面,利用js实现仿win10桌面弹出窗口提示代码
  3. 获取 IE 浏览器版本以及判断是否开启 cookie
  4. EV充电插头相关知识学习了解
  5. 12款在线批量缩短新浪短链接的生成器和接口api
  6. 手机文件上传服务器,如何上传文件到服务器 上传文件到服务器方法
  7. 群晖之邮件服务器搭建
  8. IMAP与POP协议的区别
  9. 常用数组方法汇总(ES3、ES5、ES6、ES7、ES10)
  10. Android学习笔记一