来交代一下,你抓了多少数据,在哪抓的,干什么用了,看够在里面待几年......

从去年开始我看到好几起因为抓取数据而遭遇诉讼,有的锒铛入狱,有的被处罚金,从案件的模糊描述来看,我看得后背发凉,似乎每个爬虫选手都有被KO的风险。这几个月也停止了几个抓取工作,把有关的法律和新闻认真看了几遍,写了如下文章。

PS:这里讨论的是网络爬虫技术本身,爬虫技术的手法可以用来抓群数据,还可以做其它事情,比如登录社交账号自动发帖,比如刷搜索排名等等。

网络爬虫的定罪依据

《刑法》第 285 条,非法获取计算机信息系统数据罪。获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,处三年以下有期徒刑或者拘役,并处或者单处罚金;最高处七年有期徒刑并处罚金。

《刑法》第285条是对爬取数据的主要定罪依据,有兴趣可以去查下中华人民共和国刑法。

定罪案例

从已有案例来看有以下几种情况:

1、数据拥有者有证据能够举证你的数据是抓取来的。如下,今日头条对起诉上海晟品法院宣判结果。

图片文字来自中国判决文书网

从文书描述来看,修改UA、修改device id、绕开网站访问频率控制这是写爬虫的基本,这些手法反而成为了获罪的依据。

2、抓取用户社交数据,尤其是用户隐私相关。

图片文字来自新浪网

3、用爬虫技术扰乱对方网站经营规则,且牟利。比如这个:

图片文字来自中国永嘉公号

图上描述做搜索引擎排名的技术,其实就是利用爬虫技术规模化的访问网页。

在我们通常的认知里,因为互联网推崇分享精神,所以认为只要是网络公开数据就可以抓取,但是通过上面的案例来看,有几个禁忌,抓取的数据最好不要直接商用,涉及社交信息/用户信息要谨慎。

老板交代你抓取敏感任务时,让老板先看下刑法第285条。这不代表个人行为就没事,只是还没入他们的法眼。

在数据抓取这方面,美国也有一个判决案例,美国一家小公司向法院起诉Linkedin,理由是Linkedin通过技术手段阻止他抓取Linkedin上的数据,而且法院判定这家公司胜诉,裁定Linkedin不准屏蔽这家公司的抓取行为。

目前我国法律是偏向数据拥有者的,如果数据拥有者有证据向法院起诉的话,抓取数据的一方多半会败诉。

另外在抓取过程中,如果破解/反编译对方客户端、软件,破解加密算法,比如你抓某APP数据,去反编译他的客户端,这绝对是犯法,这是破坏计算机信息系统罪。

最后,爬虫有风险,开爬要谨慎。

作者: 猿人学python,写Python十年有余,喜欢研究通过爬虫技术来挣钱,现为某科技公司合伙人。

声明:本文为作者投稿,版权归其个人所有。


 热 文 推 荐 

☞ 拼多多:“优惠券Bug属网络诈骗”;抖音多闪上架 App Store;任正非不知谁是接班人 | 极客头条

JavaScript 能写一切?Python 不服:盘它!

惊慌 Android!使用 3D 打印的头像可破解多款手机

区块链,会越来越无聊!

女程序员:我负责赚钱养家,老公负责貌美如花

任正非:人工智能就是计算机和统计学

K8S的SDN容器网络解决方案【机制篇】

☞ 心疼!能为程序员男友做些什么吗?

print_r('点个好看吧!');
var_dump('点个好看吧!');
NSLog(@"点个好看吧!");
System.out.println("点个好看吧!");
console.log("点个好看吧!");
print("点个好看吧!");
printf("点个好看吧!");
cout << "点个好看吧!" << endl;
Console.WriteLine("点个好看吧!");
fmt.Println("点个好看吧!");
Response.Write("点个好看吧!");
alert("点个好看吧!")
echo "点个好看吧!"

点击“阅读原文”,打开 CSDN App 阅读更贴心!

喜欢就点击“好看”吧

不要在爬虫犯罪的边缘疯狂试探!相关推荐

  1. 在网吧敲代码是种什么体验?网友神评论:在挨打的边缘疯狂试探

    网吧,学生党眼中放飞自我的圣地,家长眼中乌烟瘴气的毒瘤,一直为社会大众所不齿,但是它也逐渐演变成了我们日常生活必不可少的一部分.做为程序员的你,有没有曾经去网吧敲代码的经历呢? 今天,程序君就带大家领 ...

  2. 在2147483647的边缘疯狂试探

    2147483648的缘起 最近其实一直都在是摸鱼的状态,编程也很少了.其实自己真的想有一段时间啥都别顾及的只是敲代码就行了的时光.说我怠惰也好,现在感觉就是我干什么都有一种没有用的感觉. 这次碰到的 ...

  3. 公司的hr是怎么在被解雇的边缘疯狂试探的

    最近看到一个HR吐槽"高级前端招了快一个月了,实在招不到,在被解雇的边缘试探--" 也许你听着有点不可思议,不是说前端很卷,人太多了吗?其实现在前端的人才环境是:初级前端.API工 ...

  4. 在bug的边缘疯狂试探之mybatis

    最近在项目中遇到了这么个情况,数据库字段类型的设计同我后台的数据类型不一致,但是数据库中的数值都是整数类型--那为什么不用整型呢?这下就把我瞬间整懵了: 这是数据库中的部分数据: 这是数据库中的字段类 ...

  5. 华为和小米:在智能电视市场的边缘疯狂试探

    文 | 陈选滨 来源丨智能相对论(ID:aixdlun) 从2019跨向2020,是电视重新确立家居场景定位,意图以"智能化"表现重新夺取市场的一年. 暂且不说消费端的用户持以什么 ...

  6. 全球首款iOS模拟器出炉!在违法的边缘疯狂试探

    对于许多智能手机用户,特别是手游玩家来说,在手机屏幕的方寸之间进行操作显然并非特别方便,而且在多年之前,由于手机配置不足,也导致了用PC来玩手游的需求不断涌现.彼时,BlueStacks及夜神等一众A ...

  7. 在死亡边缘疯狂试探:“黑暗旅游”,你敢尝试吗?

    不知道大家有没有发现,现在想要在"朋友圈摄影大赛"里吸引眼球越来越难了!关于旅游的鄙视链,绝对让你体会到装逼对"社畜"有多残酷. 东拼西凑出个年假,p图定位加滤 ...

  8. 快速乘-在乘法溢出的边缘疯狂试探

    (有任何问题欢迎留言或私聊 && 欢迎交流讨论哦 闲话:  问题引入:对于两个1e18大小的数字,要求其乘积,或者mod一个1e18的数.  如果你有大数模板或者有时间手敲一个那就请忽 ...

  9. 学Java的四天(在入土的边缘疯狂试探。。。)

    嘛,今天终于出太阳了,感觉人生又有了希望,而今天学的是判断之类的东西,还好我在这种方面很少栽跟头,就好像我的人生前途光明??? 今天的内容如下: /**     字符串:String(不是基础数据类型 ...

最新文章

  1. 我的微型计算机,我的OC(超频)18年追忆!
  2. hibernate的HQL查询语言总结
  3. 计算机组装与维护补考论文,计算机组装与维护期末论文
  4. 怎样用matlab模型建立,怎样在matlab里建立一个BP神经网络模型?
  5. Golang实现一个密码生成器
  6. border,padding,margin盒模型理解
  7. linux 日志面试题,Linux运维 | 面试题
  8. MATLAB solve函数计算得到lambertw函数,用vpa转换即可
  9. 如何在Mac上用Script启动quicktime录制?
  10. 【操作系统】—线程概念和多线程模型
  11. 深入理解Dalvik字节码指令及Smali文件
  12. 使用 Chrome 浏览器截取网页长图
  13. 热传导方程有限差分法实现matlab,热传导方程有限差分法的MATLAB实现-史策
  14. 批量将 xlsx 文件 转换 为 csv文件
  15. Quartus II 的下载及安装
  16. 三行代码按键消抖 独立按键 矩阵按键 长按 短按 双击
  17. Python代码太长换行
  18. [电路]2-独立源和受控源
  19. 交通诱导屏坏点统计表2013-02-03.csv
  20. 企业ERP实施的能力成熟度分析(转)

热门文章

  1. spss回归分析_SPSS之回归分析
  2. np.argmin和argmax
  3. LSTM及其改进用于视觉任务中
  4. vue html属性绑定,2、Vue元素属性的绑定以及HTML的绑定
  5. python二级考试真题_2020年海南二级建造师考试《建筑工程》真题及答案_二级建造师...
  6. Flutter实战一Flutter聊天应用(五)
  7. 中国特种可注射仿制药市场趋势报告、技术动态创新及市场预测
  8. 中国水密门市场趋势报告、技术动态创新及市场预测
  9. 2021年中国一次性血压传感器市场趋势报告、技术动态创新及2027年市场预测
  10. 计算机应用基础网上作业题第二章,计算机应用基础网上作业题.doc