爬虫与反爬虫的攻防博弈
遥想当年,我的第一份实习工作,还就是做的爬虫呢。不知不觉 7 年过去了,如今首例利用爬虫技术非法盗抓数据案都已经被判违法了。
我记得我第一份实习工作,就是做的爬虫,利用爬虫技术,去爬取各种论坛和网站,然后要做到记录到每个论坛帖子的发帖时间,在论坛的板块,页数,发帖时间,发帖 ID ,然后存储起来,可以做到搜索关键字快速定位到哪个论坛的那一页,哪个帖子。而且这个爬虫技术基本上要做到可以适配几乎所有,可以说很多网站和论坛。
随便放一个论坛的首页网址进去,就可以快速爬虫论坛里的所有内容了。当时,感觉还是挺好玩的,当然越小的网站和论坛越容易爬虫,越大的论坛和越大科技公司做的网站等就越难爬,因为他们都做了反爬虫的处理,好像百度贴吧当时就很难爬虫。
如今呢?现在爬虫都犯法了,今天早上醒来,看到大家都在微博转发,尤其是技术圈里的人,都在说这件事。
据海淀法院官网消息, 近期,海淀法院审结了一起利用 “爬虫” 技术侵入计算机信息系统抓取数据的刑事案件。该案系全国首例利用 “爬虫” 技术非法入侵其他公司服务器抓取数据,进而实施复制被害单位视频资源的案件。
大概事情是这样的:使用爬虫技术的公司于 2016 年至 2017 年间采用技术手段抓取被害单位北京某网络技术有限公司服务器中存储的视频数据,并由被告人破解北京某网络技术有限公司的防抓取措施,使用 “tt_spider” 文件实施视频数据抓取行为,造成被害单位北京某网络技术有限公司损失技术服务费人民币 2 万元。
经鉴定,“tt_spider” 文件中包含通过分类视频列表、相关视频及评论等接口对被害单位服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制。
其实小公司,小网站,没有做反爬虫的技术处理,爬虫代码就简单多了,这个没有什么技术含量。而这个案例中被告人使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制进行爬虫说明是违背了内容提供者意愿的。
说实话,做过爬虫的都知道,常用的反爬虫手段基本上都是这样的,限制 IP 的访问次数,检查判断是否有同一个设备在频繁不断请求(也就是检查 device_id) 。
说白了最常见的反爬虫手段有三种:
通过分析用户请求的 Headers 信息进行反爬虫。
通过判断同一个 IP 或者同一个设备,在短时间内是否频繁访问对应网站等进行分析;
通过动态页面增加爬取的难度,达到反爬虫的目的。
对于爬虫者来讲,可以非常方便的获取别人辛辛苦苦收集和整理的信息,内容等,但是大量的爬虫也可能会给内容提供者的网站和服务器造成重大的压力,因为有些暴力爬虫者,不管三七二十一,频繁请求别人的服务器,导致服务器压力过大。
我们一起来看看爬虫和反爬虫的攻与防,以及给别人的服务器带来的压力和损失。
(图片来自网络,侵删)
所以,作为技术人来讲,爬虫要讲究规则和方法的,一定要善用爬虫,慎用爬虫,爬虫虽好,但是一定不要侵权,尤其是盗取别人的原创内容和知识,更不要传播具有版权的内容和产品。
在这起案件中,法官认为:
在信息时代,“爬虫” 技术是一种常见的数据抓取技术,最常用的领域是搜索引擎,该技术的有效使用有利于数据的共享和分析、造就了互联网生态的繁荣,但并不意味该技术的使用没有边界。法官在此提醒互联网行业的从业人员,必须在法律的框架之内合理使用该技术,违反法律规定利用该技术非法获取数据可能构成犯罪。
所以这起案件给我们的提示和警醒就是:
要善用爬虫,不要爬虫具有版权和原创的知识,内容,产品,更不要传播。
要慎用爬虫,不要使用爬虫技术去获取违背内容提供者意愿的信息。
要对用爬虫,不要暴力使用爬虫技术,给别人的服务器造成压力和损害。
尤其是利用爬虫技术获取信息去获利,去商用的人和企业,尤其是同行之间竞争的人,要小心了,一旦被抓到,这个案例就是一个很好的例子。
你们大家认为爬虫违法么?认为如何正确使用爬虫呢?认为爬虫什么不会违法?欢迎大家在文章底下留言,一起交流自己的看法和观点。
爬虫与反爬虫的攻防博弈相关推荐
- Python爬虫入门教程 65-100 爬虫与反爬虫的修罗场,点评网站,字体反爬之三
爬虫与反爬虫的修罗场 哪种平台最吸引爬虫爱好者,当然是社区类的,那里容易产生原生态,高质量的数据啊, 你看微博,知乎,豆瓣爬的不亦乐乎. 评论也是产生内容的好地方 生活类点评网站 旅游类点评网站 音乐 ...
- Python爬虫和反爬虫的斗争
我们常接触的网络爬虫是百度.搜搜.谷歌(Google)等公司的搜索引擎,这 些搜索引擎通过互联网上的入口获取网页,实时存储并更新索引.搜索引擎的基础 就是网络爬虫,这些网络爬虫通过自动化的方式进行网页 ...
- 爬虫与反爬虫之间的战争
编者:本文来自携程酒店研发部研发经理崔广宇在第三期[携程技术微分享]上的分享,以下为整理的内容概要.墙裂建议点击视频回放,"现场"围观段子手攻城狮大崔,如何高智商&高情商地 ...
- day 15爬虫与反爬虫与反反爬
爬虫与反爬虫与反反爬 爬虫的流程: 1.请求网页,获取响应结果 2.解析网页,提取数据 3.数据持久化(写入存放位置) 反爬与反反爬 1.User-Agent:将爬虫伪装成浏览器.例如:豆 ...
- Python爬虫从入门到放弃(二十二)之 爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念 爬虫:自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 误伤:反爬虫技术将普 ...
- 【Python】爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念 爬虫:自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 误伤:反爬虫技术将普 ...
- Python之爬虫(二十四) 爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念 爬虫:自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 误伤:反爬虫技术将普 ...
- 爬虫与反爬虫技术简介
vivo 互联网安全团队- Xie Peng 互联网的大数据时代的来临,网络爬虫也成了互联网中一个重要行业,它是一种自动获取网页数据信息的爬虫程序,是网站搜索引擎的重要组成部分.通过爬虫,可以获取自己 ...
- 爬虫,反爬虫和反反爬虫
转自:https://blog.csdn.net/yixuandong9010/article/details/75861233 随之大数据的火热,网络上各种网页抓取/爬虫工具蜂拥而来,因而,网页数据 ...
最新文章
- 网页中嵌套网页flush_如何修改网页中的内容?
- java序列化算法透析_Java序列化机制与原理的深入分析
- WPF 表格控件 ReoGrid 的简单使用
- prometheus 笔记
- 初中生学计算机视频,推荐一下适合中学生的在线视频学习网站
- kafka之六:为什么Kafka那么快
- python使用正则化预处理数据
- Qt QString 与 const char* 类型的转换
- 彻底理解文本主题模型LDA(极致原理讲解+实战)
- Intellij IDEA 发布后的项目在哪里
- hdu 3951 博弈
- 跨语言词嵌入模型调研报告
- Linux 内核工作队列之work_struct 学习总结
- Google Earth Engine(GEE)——NASA-USDA增强型SMAP全球土壤水分数据以10公里的空间分辨率提供全球的土壤水分信息
- 软件测试中手机性能测试怎么做,软件测试之手机知与手机性能测试完整版.doc...
- 阿里代码规约:手动创建线程池,效果会更好哦
- python中for循环缩进_跟小白学Python数据分析——For循环
- 咸鱼之王攻略及Mac M1 M2 系统电脑挂机解决无法登录的问题
- CC2530入网流程
- 有道云笔记网页剪chrome登录不上,反复登录问题
热门文章
- 一份让HR都震撼的简历:从中专生逆袭到985硕士,逆天改命!网友:这才是真正的人才!
- Python的安装教程
- PC微信HOOK-PC微信逆向-消息防撤回(版本3.0.0.47)
- Android 屏幕截图黑屏问题解决方法
- 什么从什么写短句_什么在什么,在什么,在什么写句子
- 算盘计算机和电脑作文400,算盘和计算器作文三百字左右
- wps怎么查看字数如何知道一篇wps文档有多少字
- portainer.io管理工具以及中文版本
- mysql数据存固态盘和硬盘区别_想要长期保存数据选择什么硬盘呢?给大家分享一下我的选择经历...
- [转]场面话大全,绝对受用一生