爬虫在互联网时代并不稀奇,面对海量数据,人工获取信息的效率低、时效性差,为了提升体验很多公司都会开发爬虫系统。但是,爬虫写得好,牢饭吃得早。

来自 2018 年的公开案例:

某公司 2017 年转型做互联网科技公司,主营业务是“助贷”,需要经常访问政府居住证网站,查询房产地址、房屋编码和学区房的使用情况。公司产品组经讨论后建议用爬虫自动查询相关数据。

2017年12月,CTO 安排新入职的程序员负责这个项目,要求他研发一个自动定时抓取的爬虫。

2018年1月,项目经理给程序员一个抓取数据的程序源代码,程序员开始修改。

2018年3月,爬虫上线,可以从公安局居住证系统查询到房产地址、房屋编码等对应的资料。

2018年4月27日10:43-12:00左右,居住证系统出现宕机现象,未定位到请求IP来源,怀疑是人为攻击。

2018年5月2日10:00-12:00左右,系统再次遭遇攻击,这次管理人员成功截取了IP地址并报案。

2018年5月17日晚上11点,CTO、程序员得知网警锁定服务器 IP,程序员怀疑是居住证系统加了验证码但爬虫未更新,导致爬虫被判断为攻击行为。

2018年8月,CTO、程序员被捕,后续 CTO 被判处有期徒刑三年,程序员被判处有期徒刑一年六个月。

我也曾在某金融公司开发过爬虫,帮助用户从银行、基金公司、邮箱等多个渠道爬取信用卡、基金交易记录,然后形成账单和分析数据供用户参考。近几年看了不少因为开发爬虫被判刑的案例,独自庆幸及早抽身,已离开爬虫团队数年。

2019 年 9 月,江苏淮安于某伙同王某合谋开发爬虫网站,爬取个人借贷信息、身份证照片信息等达 84 万余次,分别被判处有期徒刑四年、有期徒刑一年六个月,并处罚金。

2021 年 5 月,上海某信息科技公司员工刘某等 12 人因爬取各类网站、社保、公积金、手机App等网络上的个人数据信息 308万余条用于开展“征信业务”,其中 8 人被判处有期徒刑三年,缓刑三年至有期徒刑一年,缓刑一年不等,各并处罚金3万元至1万元不等。该团伙中的戴某等其余4人还在审理中。

2021 年 6 月,河南商丘两人通过开发爬虫软件爬取淘宝客户数字 ID、手机号等信息共计 11.8 亿条用于开展淘宝推广赚佣金,一审均被判处有期徒刑三年以上。

本文第一个案例中,CTO 辩解说爬取的是公开信息且没有个人信息、没有出售或交换、没有通过数据牟利,而且爬虫是公司管理层决定开发、由技术部程序员实施开发,是公司工作任务。程序员辩解说项目经理给的源代码不知道是谁开发的,修改爬虫程序是工作任务仅用于公司业务,本人并未牟利,而且开发完成后就没有继续修改了,攻击行为猜测是没有处理验证码导致的。但法院最终判决为 CTO 被判处有期徒刑三年,程序员被判处有期徒刑一年六个月,其他人员无责。

并不是所有的爬虫都违法,被爬信息完全公开,内容中不涉及个人信息、版权内容及数据资产的,爬虫频率适当不会影响被爬网站正常响应的,一般来说,都是合法合规的爬虫行为。同时也要注意,爬虫合规也不代表业务合规,如果业务违规一样会追究责任。

爬虫一般都伪造 UA,可能会成为起诉证据,在今日头条爬虫案件当中,检察院和法院,就以伪造UA作为定罪证据。部分情况下,爬虫使用代理也可能会涉嫌非法绕过防护。爬到的数据也要定期清理,以免被抓时公安固定证据,发现还有别的案件来个并案处理、数罪并罚。

比较严重的情况,最高法、最高检在《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》中有明确解释,简单来说就是:

  • 未经授权获取对方数据,可能会涉嫌“非法获取计算机信息系统数据”,也规定了“后果特别严重”的认定;
  • 造成对方系统不可用,可能涉嫌破坏计算机信息系统罪,而且可能被认定“后果特别严重”;

最高法、最高检的规定看起来更像是黑客犯罪,但是,由于专业背景和立场不同,公检法对技术的理解与程序员未必一致,仍然有部分地区法院以此作为罪名判决。爬虫出了问题,对方网站肯定是受害者,总要有个被告来负责,你说会是谁呢?

如果必须要做爬虫,记得找法务同学正规审批,做好风险隔离。要是没有法务参与,早点 run 吧!

爬虫写得好,牢饭吃得早 - 程序之心

爬虫写得好,牢饭吃得早相关推荐

  1. 查看网站的爬虫协议,简单介绍爬虫协议robots.txt,避免爬虫爬的好,牢饭吃得早(保姆级图文)

    目录 什么是爬虫协议 查询方法 解读协议内容 总结 欢迎关注 『Python』 系列,持续更新中 欢迎关注 『Python』 系列,持续更新中 什么是爬虫协议 正经正规网站一般都会有设置爬虫协议,规定 ...

  2. python学得好 牢饭吃的早_关于学习python的几个好习惯?

    慕仰1329654 随着Python在国内的发展,特别是在自动化运维领域,运维开发者99%使用Python开发自动化运维平台:在软件行业里面使用Python编程语言的公司会越来越多,那么在学习Pyth ...

  3. python学的好,牢饭吃的早欸嘿

    如果把python比作动物,那它一定是头倔驴 0.0 使用python IDLE编辑器:pyhton的综合开发环境和学习环境 IDLE的两个模式:交互模式和编辑器模式 首先在python官网下载 py ...

  4. 爬虫写得好,‘劳烦’吃得饱

    前言 提起"爬虫",总有一丝神秘色彩,大家都调侃"爬虫写得好,'劳烦'吃得饱". 虽然是"高危职业",但在大数据横行的年代,爬虫与反爬虫的需 ...

  5. python使用爬虫写一个自己的翻译器(带图像界面)

    python使用爬虫写一个自己的翻译器(带图像界面)   大家好,我叫亓官劼(qí guān jié ),在CSDN中记录学习的点滴历程,时光荏苒,未来可期,加油~博客地址为:亓官劼的博客,B站昵称为 ...

  6. 用爬虫写一个,小说下载程序

    用爬虫写一个,小说下载程序 环境:python 3.7.3 没啥难度和技术含量,随便写写.本来程序有部分可用format进行优化,但又想了想小说名可能还会 有一些奇奇怪怪的符号,就没弄了. impor ...

  7. 利用爬虫写一个智能垃圾桶

    利用python爬虫写一个智能垃圾分类 网站 怎么查 获取需要的值 修改地址 问题 感谢 网站 其实垃圾分类网上很多了,利用各种方法的API(有付费的也有免费的)但是我最近看到一个网站https:// ...

  8. 爬虫写得好,牢饭吃到饱?

    先说一条新闻,一家专注大数据的数据服务提供商公司巧达科技,因为大量使用爬虫访问其他公司接口获取数据,整个公司被抓,最后不光管理者,干活的程序员也被抓了. 很多学python的同学都接触过爬虫,即便是没 ...

  9. 第七十二期:爬虫爬的好,牢饭吃到饱?

    前几天分享的一篇<只因写了一段爬虫,公司200多人被抓!>相信大家看了后都会发问,我只是个写爬虫的,跟我有什么关系?到底什么样的爬虫才不犯法?今天这篇会解答你所有的疑问. 作者:技术领导力 ...

最新文章

  1. 【错误记录】Android Studio 创建 Flutter 应用被卡住 ( 更新 Flutter 插件 | 命令行创建 | 断网 )
  2. 想和高手侃侃而谈C++引用?看这一篇就够了【C++引用】
  3. eclipse中导入spring-boot框架的jar包方法
  4. 现代软件工程系列 学生读后感 梦断代码 布鲁克斯法则
  5. oracle 修改sgamaxsize_Oracle修改表空间大小
  6. json数据格式分析
  7. android自定义ClockView
  8. 周鸿祎创业史细说漫谈话神秘
  9. 为什么红黑树查询快_为什么要有红黑树?什么是红黑树?画了20张图,看完这篇你就明白了...
  10. 黑马前端基础-HTML-SE
  11. 安装打印机驱动时报错 -536870329 或 1FFFFDB9
  12. 老子道德经原文加讲解
  13. kettle启动 carte服务部署
  14. 欠定方程组的最小范数解
  15. torch实现ESIM算法
  16. mysql mmm优缺点_mysql之MMM总结
  17. 爱的乐章,Hibernate之三部曲
  18. Python 第三方库大全看这一篇就够了(1000+工具包)
  19. SGI(Silicon Graphics )
  20. 阿里云 mysql教程_mysql数据库菜鸟教程

热门文章

  1. hadoop安全模式解除方法和为什么会安全模式
  2. 【论文解读】Cross-domain Correspondence Learning for Exemplar-based Image Translation
  3. linux下检查是否安装过某软件包(gcc,pcre-devel,zlib-devel,openssl-devel)
  4. vulkan同步机制之——Fence Barriers
  5. sqlserver位数不够左边补0
  6. 诺基亚发布NetAct云网络管理系统,为5G网络演进铺路
  7. 科普计算机软硬件知识,科普显卡基础知识 让你更加了解显卡
  8. NginX and Riak
  9. 计算机异常断电后无法启动,电脑突然断电后开不了机怎么办【解决方法】
  10. python最简单的爬取邮箱地址_python爬取邮箱的实例代码