爬虫与反爬虫的攻防博弈

遥想当年，我的第一份实习工作，还就是做的爬虫呢。不知不觉 7 年过去了，如今首例利用爬虫技术非法盗抓数据案都已经被判违法了。

我记得我第一份实习工作，就是做的爬虫，利用爬虫技术，去爬取各种论坛和网站，然后要做到记录到每个论坛帖子的发帖时间，在论坛的板块，页数，发帖时间，发帖 ID ，然后存储起来，可以做到搜索关键字快速定位到哪个论坛的那一页，哪个帖子。而且这个爬虫技术基本上要做到可以适配几乎所有，可以说很多网站和论坛。

随便放一个论坛的首页网址进去，就可以快速爬虫论坛里的所有内容了。当时，感觉还是挺好玩的，当然越小的网站和论坛越容易爬虫，越大的论坛和越大科技公司做的网站等就越难爬，因为他们都做了反爬虫的处理，好像百度贴吧当时就很难爬虫。

如今呢？现在爬虫都犯法了，今天早上醒来，看到大家都在微博转发，尤其是技术圈里的人，都在说这件事。

据海淀法院官网消息，近期，海淀法院审结了一起利用 “爬虫” 技术侵入计算机信息系统抓取数据的刑事案件。该案系全国首例利用 “爬虫” 技术非法入侵其他公司服务器抓取数据，进而实施复制被害单位视频资源的案件。

大概事情是这样的：使用爬虫技术的公司于 2016 年至 2017 年间采用技术手段抓取被害单位北京某网络技术有限公司服务器中存储的视频数据，并由被告人破解北京某网络技术有限公司的防抓取措施，使用 “tt_spider” 文件实施视频数据抓取行为，造成被害单位北京某网络技术有限公司损失技术服务费人民币 2 万元。

经鉴定，“tt_spider” 文件中包含通过分类视频列表、相关视频及评论等接口对被害单位服务器进行数据抓取，并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造 device_id 绕过服务器的身份校验，使用伪造 UA 及 IP 绕过服务器的访问频率限制。

其实小公司，小网站，没有做反爬虫的技术处理，爬虫代码就简单多了，这个没有什么技术含量。而这个案例中被告人使用伪造 device_id 绕过服务器的身份校验，使用伪造 UA 及 IP 绕过服务器的访问频率限制进行爬虫说明是违背了内容提供者意愿的。

说实话，做过爬虫的都知道，常用的反爬虫手段基本上都是这样的，限制 IP 的访问次数，检查判断是否有同一个设备在频繁不断请求（也就是检查 device_id）。

说白了最常见的反爬虫手段有三种：

通过分析用户请求的 Headers 信息进行反爬虫。
通过判断同一个 IP 或者同一个设备，在短时间内是否频繁访问对应网站等进行分析；
通过动态页面增加爬取的难度，达到反爬虫的目的。

对于爬虫者来讲，可以非常方便的获取别人辛辛苦苦收集和整理的信息，内容等，但是大量的爬虫也可能会给内容提供者的网站和服务器造成重大的压力，因为有些暴力爬虫者，不管三七二十一，频繁请求别人的服务器，导致服务器压力过大。

我们一起来看看爬虫和反爬虫的攻与防，以及给别人的服务器带来的压力和损失。

（图片来自网络，侵删）

所以，作为技术人来讲，爬虫要讲究规则和方法的，一定要善用爬虫，慎用爬虫，爬虫虽好，但是一定不要侵权，尤其是盗取别人的原创内容和知识，更不要传播具有版权的内容和产品。

在这起案件中，法官认为：

在信息时代，“爬虫” 技术是一种常见的数据抓取技术，最常用的领域是搜索引擎，该技术的有效使用有利于数据的共享和分析、造就了互联网生态的繁荣，但并不意味该技术的使用没有边界。法官在此提醒互联网行业的从业人员，必须在法律的框架之内合理使用该技术，违反法律规定利用该技术非法获取数据可能构成犯罪。

所以这起案件给我们的提示和警醒就是：

要善用爬虫，不要爬虫具有版权和原创的知识，内容，产品，更不要传播。
要慎用爬虫，不要使用爬虫技术去获取违背内容提供者意愿的信息。
要对用爬虫，不要暴力使用爬虫技术，给别人的服务器造成压力和损害。

尤其是利用爬虫技术获取信息去获利，去商用的人和企业，尤其是同行之间竞争的人，要小心了，一旦被抓到，这个案例就是一个很好的例子。

你们大家认为爬虫违法么？认为如何正确使用爬虫呢？认为爬虫什么不会违法？欢迎大家在文章底下留言，一起交流自己的看法和观点。

爬虫与反爬虫的攻防博弈相关推荐

Python爬虫入门教程 65-100 爬虫与反爬虫的修罗场，点评网站，字体反爬之三
爬虫与反爬虫的修罗场哪种平台最吸引爬虫爱好者,当然是社区类的,那里容易产生原生态,高质量的数据啊, 你看微博,知乎,豆瓣爬的不亦乐乎. 评论也是产生内容的好地方生活类点评网站旅游类点评网站音乐 ...
Python爬虫和反爬虫的斗争
我们常接触的网络爬虫是百度.搜搜.谷歌(Google)等公司的搜索引擎,这些搜索引擎通过互联网上的入口获取网页,实时存储并更新索引.搜索引擎的基础就是网络爬虫,这些网络爬虫通过自动化的方式进行网页 ...
爬虫与反爬虫之间的战争
编者:本文来自携程酒店研发部研发经理崔广宇在第三期[携程技术微分享]上的分享,以下为整理的内容概要.墙裂建议点击视频回放,"现场"围观段子手攻城狮大崔,如何高智商&高情商地 ...
day 15爬虫与反爬虫与反反爬
爬虫与反爬虫与反反爬爬虫的流程: 1.请求网页,获取响应结果 2.解析网页,提取数据 3.数据持久化(写入存放位置) 反爬与反反爬 1.User-Agent:将爬虫伪装成浏览器.例如:豆 ...
Python爬虫从入门到放弃（二十二）之爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普 ...
【Python】爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普 ...
Python之爬虫（二十四）爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普 ...
爬虫与反爬虫技术简介
vivo 互联网安全团队- Xie Peng 互联网的大数据时代的来临,网络爬虫也成了互联网中一个重要行业,它是一种自动获取网页数据信息的爬虫程序,是网站搜索引擎的重要组成部分.通过爬虫,可以获取自己 ...
爬虫，反爬虫和反反爬虫
转自:https://blog.csdn.net/yixuandong9010/article/details/75861233 随之大数据的火热,网络上各种网页抓取/爬虫工具蜂拥而来,因而,网页数据 ...

爬虫与反爬虫的攻防博弈

爬虫与反爬虫的攻防博弈相关推荐

最新文章

热门文章