事情经过

昨日,一个自称是某网站站长的人联系上了我,说,“最近,我的网站收到了非常多的爬虫请求,已经严重影响到了我网站的正常业务,后来经查是你的文章公布出的爬虫程序,你已经违法了,请立刻删除你的文章,谢谢!“

我感到了非常不理解,“这和我没关系啊,虽然程序是我做的,但是我的程序只爬取了公开的数据,是合法的啊。有人拿我的程序去运行,可是那不是我运行的啊,这和我没关系啊!”

他说,“我的网站上有明显的反爬措施,可是你的程序绕过了这种反爬措施,就这一点,你就已经违法了!”

我更不明白了,“你的反爬措施都是放在前端上的啊,前端上的内容又不涉及到网站的服务器,绕过前端的措施怎么能算违法呢?那通过浏览器访问,不是也要执行这些前端的内容吗,这也算违法吗?”

他说,“现在已经是2022年了,不是以前了,看看新的法律法规吧!不要老是抱着前些年你学习时候的那一套东西不放了。总之,我已经警告过你了,你好自为之。”

最近两年,我经常听人说,“爬虫学的好,牢饭吃到饱。”,但是作为一个专业的爬虫人士,我从来没把这个话当真,一直认为是他们只是在玩梗。在我的印象里,除了爬取个人信息,哪有违法被抓的啊!

但是听了这位站长的这番话,我也是重视了起来,立刻去搜索了相关的知识,还真的有了不少新发现,原来现在真的和以前不一样了

新的发现

首先,我发现了某个知名爬虫博主的文章,上边写的出于安全考虑,他不会再给提供验证码的破解方法。我感觉到了非常的震惊,因为我清楚的记得,该博主几年前的书里还完整的给出了验证码的绕过方法,现在居然已经不提供了吗?真的有这么严重了吗?

然后,我就搜索了验证码违法的相关内容,结果还真的有了发现

当然,因为绕过验证码被抓的,还有很多,比如说

从这些案例中,我们可以发现,对于反爬措施的绕过,以及验证码的绕过,现在是可以算作破坏计算机信息系统的,那位站长并没有骗我

在了解过后,我也是第一时间和他道了歉。他也很大度,表示我知错能改,还是好的,就不再追究我的责任了。在这里呢,为了避免再给他带来不必要的麻烦,我就不提及网站名了,但是呢,我也是公开再次向他表示歉意,对不起!

相关规定

为了避免自己以后再犯这样的错误,我也是继续查阅了很多资料,研究了一下,现在2022年,到底爬虫还有哪些行为是不合法的,总结下来大致如下

1,爬取用户信息,个人隐私数据,是违法的

2,不正当竞争,利用他人网站数据盈利,是违法的

3,爬取版权作品,付费内容,是违法的

4,爬取非公开内容,权限内容,是违法的

5,爬取速度较快,干扰了对方网站的正常业务,是违法的

6,绕过明显的反爬措施,是违法的

7,对方网站声明了不允许爬取,但是你仍然要爬取,是违法的

关于robots.txt,我也有了新的认识,该文件属于行业规定,并不能完全作为法律依据。以前我一直认为robots.txt允许了可以爬,就是可以随便爬,没有robots.txt就默认对方全都允许了,可以随便爬,这不对,非常的不对

事实上是,如果对方在robots.txt上写了不允许爬,你爬取了就属于违法,如果他写了你可以爬,那么你爬了也可能违法,如果他没给robots.txt,那一样不代表你可以爬。总而言之,无论robots.txt有或者没有,上边写了你能爬还是不能爬,你爬取了一样都可能违法

思想感受

其实啊,查阅完了所有内容,最后总结起来的话就是,没有反爬的公开内容,在对方没有声明不允许爬的情况下爬的很慢,是合法的,除此以外都是有问题的

可能有很多小伙伴会感觉很绝望,那要是都这么做的话,以后我还赚什么钱啊?我怎么吃饭啊?确实是这样,只爬取没有反爬的公开内容确实很难能够让你赚到钱,但是问题在于现在就是这样的

那可能也有人会想,没事,你太多虑了,只要我不把事情搞大,谁会管我啊。这样想,其实也是不对的,俗话说,常在河边走,哪有不掉进河的说法啊。所以我的建议就是,如果你有能力的话,最好就转去做别的,别指望靠爬虫赚钱了


本次的事情我也是非常的重视,由于规定随时都会发生变化,所以未来我也会在我的github项目上继续更新,看看在新的规定下,有哪些爬虫行为是不可以的,该项目的github链接

因为制作爬虫程序,我收到了警告相关推荐

  1. 使用Python制作爬虫程序总结

    一.引言 1.什么是网络爬虫? 网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.如果把互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它 ...

  2. 写了篇爬虫文章,收到律师函,怎么办

    大家好,我是早起. 从写公众号开始,不论是私信还是交流群,常常都会有粉丝会问出类似下面的问题 xx网站能不能爬? 爬xx数据有没有风险? 其实我并不是爬虫从业人员,充其量算爬虫爱好者,去年也转载过一篇 ...

  3. python爬虫流程-Python爬虫程序架构和运行流程原理解析

    1 前言 Python开发网络爬虫获取网页数据的基本流程为: 发起请求 通过URL向服务器发起request请求,请求可以包含额外的header信息. 获取响应内容 服务器正常响应,将会收到一个res ...

  4. 一篇文章教会大家制作小程序,利用小程序创业。

    最近我的头条号每天都会收到很多私信,想和我们学习小程序制作,学习小程序创业,我也在我头条号的付费专栏里专门制作了一期关于小程序制作和创业的课程,已经有不少人通过专栏的学习正在利用小程序创业. 最近有个 ...

  5. Scrapy:运行爬虫程序的方式

    Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 在创建了爬虫程序后,就可以运行爬虫程序了.Scrapy中介绍了几种运行爬虫程序的方式,列举如下: -命令行工具之s ...

  6. 安全狗导致网站程序池被禁用_如何在Microsoft Office程序中禁用安全警告消息栏...

    安全狗导致网站程序池被禁用 Macros in Microsoft Office programs allow you to automate repetitive tasks, but some m ...

  7. 【爬虫知识】2022年python最新前沿技术?通过pyscript写爬虫程序

    引言 昨天,有一个粉丝和我说,"仙草哥哥,你现在写的这些文章使用的技术都太旧了.现在的最前沿,最热门的python技术是pyscript,你应该使用一下这个!" 我很好奇,&quo ...

  8. python爬虫程序下载_Python爬虫之多线程下载程序类电子书

    近段时间,笔者发现一个神奇的网站:http://www.allitebooks.com/ ,该网站提供了大量免费的编程方面的电子书,是技术爱好者们的福音.其页面如下: ![](https://imag ...

  9. 电商API接口爬虫程序,如何取有用数据

    API是应用程序的开发接口,在开发程序的时候,我们有些功能可能不需要从到到位去研发,我们可以拿现有的开发出来的功能模块来使用,而这个功能模块,就叫做库(libary).比如说:要实现数据传输的安全,这 ...

  10. Python3网络爬虫(十一):爬虫黑科技之让你的爬虫程序更像人类用户的行为(代理IP池等)

    转载请注明作者和出处:http://blog.csdn.net/c406495762 运行平台: Windows Python版本: Python3.x IDE: Sublime text3 前言 黑 ...

最新文章

  1. 提取IPv6地址的编码信息
  2. Multiple markers at this line
  3. html 自定义标签解析,Java解析Html自定义标签的属性
  4. python实现50行代码_50行代码实现python计算器主要功能
  5. net空间一次购买终身使用_官方解答关于 Internet Download Manager IDM 终身许可证和1年许可证的相关说明!...
  6. Python3网络爬虫开发实战分析Ajax爬取今日头条街拍美图
  7. 服务器是多用户服务的计算机,Win10权限管理与多用户远程登录(多方案)
  8. 【ShaderToy】跳动的心
  9. mysql 5.7 编译_MySQL5.7.20编译安装
  10. android 启动第三方APP的方式
  11. python一次性导入依赖包_python如何导入依赖包
  12. short转换byte
  13. 计算机的语言栏怎么更改,语言栏不见了怎么调出来,笔者教你win7电脑语言栏不见了的解决方法...
  14. win10系统暴雪战网连不上服务器,win10系统暴雪战网无法登陆的解决方法
  15. GlobalMapper导出S57水深数据
  16. Sass和Scss的区别
  17. pmp-相关方权利/利益方格
  18. ThinkPHP 5.0 rewrite规则
  19. 一位15年资深HR直言:裁掉35岁以上老程序员,早已是公开秘密
  20. X Window 程式设计入门--第三章 绘图(Graphic)

热门文章

  1. 漫威系列电影、电视剧的推荐观看顺序是怎样的?
  2. oracle 富文本类型,将BLOB类型值在富文本显示和将富文本内容以BLOB类型存储到数据库...
  3. 第26章 站在巨人肩膀上——游戏引擎技术导论
  4. Java TIF、JPG、PNG等图片转换
  5. HTML YouTube 视频
  6. 太原理工软件学院c语言2020,庆祝软件学院成立十周年创意设计之logo投稿入围展示...
  7. PDF页面旋转怎么操作
  8. 甘肃SEO优化:关键词选择 是否“咨询”过关键词规划师以及seo优化技术大牛是怎么练成的
  9. OpenGL 编程指南 ( 原书第 9 版 ) --- 第二章
  10. 王道考研数据结构之------循环单链表