网络爬虫作为一种计算机技术就决定了它的中立性,爬虫本身在法律上并不被禁止,但是如果有一些别有用心的人,去使用爬虫做一些违法的事情,那就违法了。爬虫本无罪,有罪的是贪得无厌、险恶的人心。正如水果刀本身在法律生并不被禁止,但你用来杀人,就等着坐牢吧!

尽管在过去 20 年间已经做出了诸多相关裁决,不过网络爬虫及其使用时法律所允许的内容仍然处于建设当中。如果被抓取的数据用于个人用途,且在合理使用版权法的情况下,通常没有问题。

但是,如果这些数据会被重新发布,并且抓取行为的攻击性过强导致网站宕机,或者其内容受版权保护,抓取行为违反了其服务条款的话,那么则有一些法律判例可以提及。

网络爬虫界有一句流行的话“爬虫玩的好,监狱进的早;爬虫爬得欢,监狱要坐穿;数据玩的溜,牢饭吃个够”,纵观国内外,不少因为网络爬虫引发的案件,两个公司之间打官司,公司员工被抓进去等等,这些案例不胜枚举。

国外案例

发生在美国一个起诉案件,在 F 公司 起诉 R 公司使用爬虫技术抓取了网站客户的联系方式,美国联邦最高法院裁定抓取并转载真实数据(比如电话清单)是允许的。在澳大利亚,发生的一类似案件中,则裁定只有拥有明确作者的数据,才可以受到版权的保护。

另一起发生于美国的美联社起诉融文集团的内容抓取案件中,则裁定对美联社新闻重新聚合为新产品的行为是侵犯版权的。此外,在欧盟发生的一个案件中,最终裁定定期抓取和深度链接是允许的。还有一些案件中,原告控告一些公司抓取强度过大,尝试通过法律手段停止其抓取行为。在 Q 公司 诉讼 W 公司的案件中,裁定除非抓取行为造成了私人财产损失,否则不能被认定为故意侵害,即使爬虫活动导致了部分站点的可用性问题。

这些案件告诉我们,当抓取的数据是现实生活中真实的公共数据(比如,营业地址、电话清单)时,在遵守合理的使用规则的情况下是允许转载的。但是,如果是原创数据(比如,意见和评论或用户隐私数据),通常就会受到版权限制,而不能转载。

无论如何,当你抓取某个网站的数据时,请记住自己是该网站的访客,应当约束自己的抓取行为,否则他们可能会封禁你的 IP,甚至采取更进一步的法律行动。这就要求下载请求的速度需要限定在一个合理值之内,并且还需要设定一个专属的用户代理来标识自己的爬虫。你还应该设法查看网站的服务条款,确保你所获取的数据不是私有或受版权保护的内容。如果你还有疑虑或问题,可以向媒体律师咨询你所在地区的相关判例。

国内案例

国内相关条文与国外存在许多不同,如果您使用爬虫技术窃取个人隐私信息,或者公司的商业机密信息等,则真的会面临牢狱之灾,同时使用爬虫技术攻击他人网站,造成他人网站宕机,从而引起财产受到损失的也会受到相应处罚。

2021 年10 月 15 日,北京市朝阳公安分局对外公开,按照公安部“净网 2021”专项行动整体部署,朝阳警方深入落实打击网络违法犯罪。

在市局网安总队等有关部门的支持下,经过半个多月的缜密侦查,将一个非法获取计算机信息系统数据的犯罪团伙一网打尽,抓获 23 名犯罪嫌疑人。据朝阳警方称,某购物网站工作人员近期报警,其网络购物“直播间”存在异常访问情况,怀疑直播数据被非法窃取。

经审讯,王某漪、杨某宁和杨某等人交代了他们利用“爬虫”软件非法获取网站数据,进行数据处理后倒卖获利 40 余万元的犯罪事实。据悉,王某漪等人此前曾合伙创业,但因经营不善没有赚到钱,心灰意冷之际,他们发现买卖购物网站上的客户信息可以赚大钱,于是便走上了这条违法犯罪的不归路。

2020 年 9 月份,河南商丘市睢阳区人民法院的一份刑事判决书,曝光了这起淘宝爬虫案件的细节,涉及11亿条用户个人信息,数量之大,让人大跌眼镜。淘宝公司报警称,有黑产通过mtop订单评价接口,绕过平台风控批量爬取加密数据,爬取字段量巨大,平均每天爬取数量 500万,爬取内容包括:买家用户昵称,用户评价内容,昵称等敏感字段。

警方将该案立为刑事案件。因涉嫌非法获取计算机信息系统数据、非法控制计算机信息系统罪,2020年8月15日,逯某被商丘市公安局新城分局刑事拘留,2020年9月22日被逮捕。6天后,也就是8月21日,因涉嫌侵犯公民个人信息罪,黎某被抓获,并于2020年8月22日被商丘市公安局新城分局刑事拘留,9月22日被逮捕。

最终,法院判定:被告人黎某犯侵犯公民个人信息罪,判处有期徒刑三年六个月,并处罚金人民币三十五万元;被告人逯某犯侵犯公民个人信息罪,判处有期徒刑三年三个月,并处罚金人民币十万元。

总结

通过上述案例,我们应该牢记一点,一定要遵守爬虫的使用规范、礼仪,切记不要做损害他人利益、抓取个人隐私的事情,否则真的要“牢底坐穿”。同时还要注意国内外对爬虫的限制存在不同,在国内要遵守网络安全法。

论Python爬虫是否合法(一定要看看)相关推荐

  1. 如何合法的利用 Python 爬虫,避免从入职到入狱

    基本约定 在使用 Python 爬虫时,最重要的是遵守法律法规,并且要尊重网站的服务条款和隐私政策. 遵守爬虫协议:很多网站都会有一些特定的爬虫协议,例如爬取频率的限制,允许的爬取内容和限制爬取的内容 ...

  2. 玩转 Python 爬虫,需要先知道这些

    作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...

  3. 爬虫python代码-Python爬虫教程:200行代码实现一个滑动验证码

    Python爬虫教程:教你用200行代码实现一个滑动验证码 做网络爬虫的同学肯定见过各种各样的验证码,比较高级的有滑动.点选等样式,看起来好像挺复杂的,但实际上它们的核心原理还是还是很清晰的,本文章大 ...

  4. 学python爬虫需要什么基础-从零开始教你学爬虫!python爬虫的基本流程!

    世界那么大,谢谢你来看我!!! 网络爬虫是什么? 网络爬虫就是:请求网站并提取数据的自动化程序 网络爬虫能做什么? 网络爬虫被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内 ...

  5. python爬虫教程视频-13天搞定Python分布爬虫

    1. 什么是爬虫? 网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据, 比如:如果响应内容是html,分 ...

  6. python爬虫代码-Python爬虫教程:200行代码实现一个滑动验证码

    Python爬虫教程:教你用200行代码实现一个滑动验证码 做网络爬虫的同学肯定见过各种各样的验证码,比较高级的有滑动.点选等样式,看起来好像挺复杂的,但实际上它们的核心原理还是还是很清晰的,本文章大 ...

  7. Python爬虫之(一):爬虫简介

    什么是爬虫 网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据, 比如:如果响应内容是html,分析dom ...

  8. python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息

    原标题:python爬虫框架scrapy爬取梅花网资讯信息 一.介绍 本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...

  9. 无敌python爬虫教程学习笔记(一)

    python爬虫系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 本文目录 ...

最新文章

  1. Laravel增加自定义助手函数
  2. java获取当前项目相对路径,在JAVA文件中获取该项目的相对路径
  3. 如何修改 asp.net core 5 程序的默认端口号?
  4. 计算机组成原理浮点数左移规则,2020考研计算机组成原理知识点:浮点数的表示和运算...
  5. Google官方 详解 Android 性能优化【史诗巨著之内存篇】
  6. WaitForMultipleObjects、WaitForSingleObject、GetExitCodeThread
  7. 阿里云云计算 19 块存储的使用
  8. 1006 A+B问题
  9. 【OR】YALMIP 整数规划
  10. 基于java在线问卷调查系统
  11. Aggressive cows--二分法思想
  12. Python教程(从不懂到入门)
  13. mstar v56几路hdmi_MSTAR运用及问题汇总_整理
  14. Rollup 插件开发牛刀小试
  15. 十进制转换为二进制(短除法)
  16. Unity 视频播放器插件 AVPro Video -- 360全景视频播放+暴风魔镜sdk
  17. adb 判断imei_adb 获取imei
  18. 常用网站攻击手段及防御方法
  19. 【技术类】ArcGIS里做影像分幅裁剪
  20. canvas初识及其简单使用

热门文章

  1. TensorFlow2使用AutoGraph时出现关于gast的一个warning
  2. Mitmproxy 配置二级代理
  3. 全球及中国多层PCB行业行业投资前景与发展趋势预测分析报告2022-2028
  4. latex 自己定制命令 \newcommand
  5. python计算列表中位数的函数_python的列表List求均值和中位数实例
  6. 数字化转型如何执行?
  7. 广州红海云计算股份有限公司荣登“2020中国人力资源科技影响力品牌50强”榜单
  8. VS使用FFmpeg被声明为已否决的解决方案
  9. 如何在 JavaScript 中清空数组?
  10. yoloV5训练出错:wandb.errors.UsageError: api_key not configured (no-tty). call wandb.login(key=[your_api_