点击“技术领导力”关注∆  每天早上8:30推送

作者| Mr.K    编辑| Emma

近日江苏淮安警方依法打击了 7 家涉嫌侵犯公民个人信息犯罪的公司,涉嫌非法缓存公民个人信息 1 亿多条。

其中,拉卡拉支付旗下的考拉征信涉嫌非法提供身份证返照查询 9800 多万次,获利 3800 万元。

警方已将考拉征信服务有限公司及北京黑格公司的法定代表人、董事长、销售、技术等 20 余名涉案人员抓获。

01

“爬虫”软件“爬出”的犯罪链条

警方发现,涉案的广州诺涵公司虽然披着科技公司的外衣,其实从事的是网络放贷、软暴力催收、贩卖公民个人信息等违法犯罪行为。


在他们贩卖的公民个人信息里,甚至还出现了公民身份证照片信息,这样极度隐私的个人信息他们从哪儿获取的呢?

警方发现,在广州诺涵科技公司,公民个人信息被称为“流量”,公司自己开发有“乐花管家”等多个小贷平台,在自身购买公民个人信息用于推销贷款、软暴力催收的同时,也和其他公司相互交换公民个人信息,还开发有爬虫云等软件,通过技术手段爬取其他小贷公司的公民个人信息,用于公司放贷和非法出售牟利。

锁定相关犯罪证据后,淮安警方在长沙、深圳分别将湖南九象公司的法定代表人和技术主管抓获。


审讯得知,九象公司黑爬虫网站的“身份核验返照”业务端口来自北京黑格科技有限公司,而黑格公司是从北京考拉征信服务有限公司等四家公司购买的查询接口。


随即,警方将北京黑格公司和考拉征信服务有限公司的法定代表人、董事长、销售、技术等 20 余名涉案人员抓获,并于今年 4 月在北京将他们上游公司的 5 名涉案人员抓获。


经查,北京考拉征信服务有限公司从上游公司获取接口后又违规将查询接口出卖,并非法缓存公民个人身份信息,供下游公司查询牟利,从而造成公民身份信息包括身份证照片的大量泄露。


违规缓存相当于把公民个人信息复制了一份,存在那边,下游公司再向它通过数据接口调取数据的时候,它就不需要再向上游调取,也是节省了开支,这个是违法的。

经查,2015 年 3 月以来,北京考拉公司非法提供查询返照 9800 余万次,获利 3800 余万元,在公司服务器中查获并收缴被非法获取、存储的公民姓名、身份证号、相片近 1 亿条。

02

我只是个写爬虫的,跟我有什么关系?

许多程序员都有这样的想法,技术是无罪的,我只是个打工的程序员,公司干违法的业务,跟我没关系。。。只能说,程序猿们真是图羊图森破了。

我们先来看几个真实的法院判决案例:

案例一:数据拥有者有证据能够举证你的数据是抓取来的。如下,今日头条对起诉上海晟品法院宣判结果。

(图片文字来自中国判决文书网)

从文书描述来看,修改UA、修改device id、绕开网站访问频率控制这是写爬虫的基本,这些技术手法反而成了获罪的依据。

案例二:抓取用户社交数据,尤其是用户隐私相关。

(图片文字来自新浪网)

案例三:用爬虫技术扰乱对方网站经营规则,且牟利。比如这个:

(图片文字来自中国永嘉公号)

图上描述做搜索引擎排名的技术,其实就是利用爬虫技术规模化的访问网页。

在我们通常的认知里,因为互联网推崇分享精神,所以认为只要是网络公开数据就可以抓取,但是通过上面的案例来看,有几个禁忌,抓取的数据最好不要直接商用,涉及社交信息/用户信息要谨慎。

老板交代你抓取敏感任务时,让老板先看下刑法第285条。公司从事违法业务,不代表个人行为就没事,只是还没入有关部门的法眼。

03

程序员如何避免,面向监狱编程?

爬哪些数据会触犯法律?

第一、著作权法保护的所有作品数据

比如一些网站发表的内容,如文章、评论等都是有著作权的,如果只是单纯的通过浏览器查看是不会触犯法律的。

但是,对于有著作权的作品,如果未经著作权人许可,以盈利为目的,对其作品用任何手段进行复制是犯法的。

如果是使用了爬虫技术手段爬取数据之后将其保存下来或者传播,并且进行盈利,这种都是属于犯罪的。

第二、网站用户的个人信息或者隐私信息

网站上的个人用户的个人信息,即使是用户自己放到一些网站上进行公开或者部分公开,如微博、微信等,不代表这些数据就可以被其他人随便获取,这个要特别注意。

所以,如果爬取的数据涉及到个人信息或隐私信息,都是违法的!

还有些爬虫企图绕过权限校验等,爬取用户未公开的信息,如个人私密相册照片等,都是属于侵犯用户的个人隐私的,不要觉得自己技术玩得溜,这些可都是违法行为。

第三、反不正当竞争法中明确保护的数据

许多网站中的数据系由用户生成,且该等数据和内容系原告网站的主要竞争力来源。如“XX点评”、“X团”上面的店铺评价、评论等信息,“X程网”上面的关于酒店的评价评论等信息等。

那么,未经允许,爬取其他网站的核心数据,很明显并没有遵守《反不正当竞争法》中规定的自愿、平等、公平、诚实信用的原则。

在“XX点评”诉“X度”不正当竞争案件、以及“X浪微博”诉“X脉脉”不正当竞争等案件中,法院都认定被告未经许可抓取、使用原告网站中的数据的行为,违反了诚实信用原则及公认的道德,损害了互联网的市场竞争秩序,损害了原告的竞争优势,从而构成不正当竞争。

因此,如果抓取XX点评、X博、X瓣电影、X乎等UGC模式的网站上用户发布的信息,并在自己的产品或者服务中发布、使用该等信息,则有较大的风险构成不正当竞争。

怎么爬数据算犯法?

如果是爬取公开的数据,通常不会被认为是侵权。Google、百度等搜索引擎都是这么爬取的。

那么,到底怎么爬数据是有可能触犯法律的呢,主要考虑是否涉及以下两种行为:

没有遵守网站Robots协议

Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。

通过技术手段,绕过防护措施,抓取数据 

由于爬虫的批量访问会给网站带来巨大的压力和负担,因此许多网站经营者会采取技术手段,以阻止爬虫批量获取自己网站信息。

所以,很多爬虫工具为了爬取数据,会想办法通过各种手段绕过防护措施,但是,这种行为也是会触犯法律的。

抓回来的数据怎么用会犯法?

很多公司开发的爬虫遵守了Robots协议,也没有爬取不该爬取的数据,难道这样获取到的数据就可以随便使用了吗?其实也不是,如果使用不当,也会触犯法律的。

比如通过爬虫抓取到的数据进行盈利、损害他人利益、造假、诽谤等都是可能触犯法律的。

此外,未经被收集者同意,即使是将合法收集的公民个人信息向他人提供的,也属于刑法第二百五十三条之一规定的“提供公民个人信息”,可能构成犯罪。

04

我们如何防止个人信息被泄露?

在科技飞速发展的今天,人们开始追求各种方便快捷的方式生活,但是,在方便快捷的背后,个人信息安全也不能忽视。浏览器、社交平台等等都有可能出现隐私泄露。

个人隐私泄露有着很严重的安全隐患!如何防止个人信息泄露?快来看防范小妙招:

  1. 尽量不使用公共场所的 WiFi。
  2. 尽量访问具备安全协议的网址。建议尽量登录网址前缀中带有“https:”字样的网站,具备这种安全协议的网址的安全性较高。
  3. 不同软件尽量不要使用同一组账号密码。
  4. 妥善处置快递单等包含个人信息的单据。对于含有姓名、电话、住址等信息的单据凭证要及时销毁,不经意扔掉也可能导致个人信息泄露。
  5. 身份证、户口本等有个人信息的证件,一定要保存好。
  6. 手机、电脑等都需要安装安全软件,每天至少进行一次对木马程序的扫描,尤其在使用重要账号密码前。每周定期进行一次病毒查杀,并及时更新安全软件。
  7. 不少人热衷于晒地点、晒自拍照,还有家长喜欢晒孩子照片等。这种手机签到可能被别有用心的人盯上。可参考《21岁日本女星惨遭猥亵,只因自拍瞳孔倒影暴露住址?| 一张照片是怎么出卖你的!》
  8. 一方面暴露了个人隐私,比如姓名、工作单位、家庭住址等,另一方面可能招致犯罪,在网上使用手机签到时,需要谨慎。

如果觉得文章对你有帮助,请转发朋友圈、点在看,让更多人获益,感谢您的支持!

大家在看:

1.WPS求伯君:永远去做余生中最重要的事
2.中台架构50篇资料精选,阿里/腾讯/京东
3.从月薪3K的中专生,到身家千万的CTO!
4.程序员频繁被抓,如何避免面向监狱编程
5.“技术的价值是啥?”“哄业务方开心啊!”
6.日本女星遭猥亵,因自拍瞳孔倒影暴露住址
7.媳妇沉迷赌博输了套房,我一怒之下...

-End-


想看更多独家精彩推文?

关注“技术领导力”公众号

想加入社区,跟100位互联网大咖学习?

添加群助理Emma,注明“加群”

技术领导力社群

好看就点在看

大数据公司又被查,爬虫程序员在内20余人被抓!相关推荐

  1. 大数据时代,为什么很多JAVA程序员会转型做JAVA大数据

    分享之前推荐一个大数据交流学习群:722680258零基础进阶高级,需要学习大数据欢迎加入 JAVA的精密,强大,拥有其它语言不可替代的性能和可维护性,早已经是成为最受欢迎的编程语言之一,很多人想进入 ...

  2. 关于大数据技术的演讲_好程序员大数据培训分享大数据的两大核心技术

    好程序员大数据培训分享大数据两大核心技术,今天小编给大家先分享一下大数据的两大核心技术,知己知彼才能百战不殆,学习大数据技术也是一样的道理,要先有一个清晰的了解,才能确保自己全身心的投入学习. Had ...

  3. 大数据工程师是不是青春饭,程序员30岁以后的路怎么走

    IT行业对于零基础学习来说是非常有诱惑力的,也有朋友存在担心:程序员30岁以后的路怎么走?大数据工程师会是碗青春饭吗?下面,加米谷就来和大家聊聊这一问题. 随着大数据的爆发,中国IT业内环境也将面临新 ...

  4. 大数据早报:百度开源移动端深度学习框架 中国联通成立大数据公司(9.26)

    数据早知道,上36dsj看早报! 来源36大数据,作者:奥兰多 『深度学习』百度开源移动端深度学习框架mobile-deep-learning 2017 年 9 月 25 日,百度在 GitHub 开 ...

  5. 大数据公司挖掘数据价值的49个典型案例

    大数据公司挖掘数据价值的49个典型案例 对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找"正在做"大数据的49个样本. 本文力图从企业运营和管理的角度 ...

  6. (转)当AI变成宣传武器:继续深扒大数据公司Cambrige Analytica

    当AI变成宣传武器:继续深扒大数据公司Cambrige Analytica 原创 2017-02-27 造就 造就 导语:2016年美国大选已然结束,但武器化的AI宣传机器只是刚刚兴起,它代表的是一个 ...

  7. 大数据公司挖掘数据价值的49个典型案例!信息量很大

    大数据公司挖掘数据价值的49个典型案例 对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找"正在做"大数据的49个样本. 力图从企业运营和管理的角度,梳 ...

  8. 数据挖掘,你知道的大公司有哪些?独家揭秘:大数据公司挖掘数据价值的49个典型案例

    对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找"正在做"大数据的49个样本. 本文力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以 ...

  9. 深度解析:也曾“风光无限好”的大数据公司为何“近黄昏”

    来源:皂话金融(fknxs_116) 数据猿官网 | www.datayuan.cn 今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云· ...

最新文章

  1. Python,OpenCV中的K近邻(knn K-Nearest Neighbor)及改进版的K近邻
  2. 汇编语言 第3版 王爽 检测点习题部分—答案及详细解析 检测点2.3
  3. Highcharts 环境配置介绍
  4. 弗吉尼亚理工计算机科学排名,2020年弗吉尼亚理工大学排名TFE Times美国最佳计算机科学硕士专业排名第45...
  5. linux下用u盘安装xp系统安装教程,全新Linux笔记本电脑用U盘装Win7/XP系统教程
  6. RecyclerView实现多type页面
  7. PullToRefreshListView相关
  8. java/android 做题中整理的碎片小贴士(15)
  9. wordpress 通过域名无法访问_使用WordPress搭建自己的内容发布平台
  10. 安装libvirt管理套件(C/S架构模式,用户管理kvm虚拟机)
  11. 常见的shell命令
  12. linux 卸载opera,Ubuntu中安装Opera 55 浏览器
  13. python完成机械填表
  14. java applet插件下载_Java Applet.zip
  15. 博弈论数据可用性声明_手机数据恢复,低调使用~
  16. Android平台介绍
  17. 【训练题36:数学】斐波那契各项幂次前缀和 | ZOJ 3774
  18. Redis HyperLogLog 是什么?这些场景使用它,让我枪出如龙,一笑破苍穹
  19. ​LeetCode刷题实战603:连续空余座位
  20. 幼师计算机课是上什么,幼师面试 鱼在天空飞,鸟在水里游是小班课程,还是中班,大班的课程...

热门文章

  1. CAD图在线Web测量工具代码实现(测量距离、面积、角度等)
  2. 自动电流镜布局 (ACML) 工具
  3. php实现通讯录按字母分组,iOS - 通讯录开发,名字按拼音首字母分组排序
  4. 破天服务器系统,破天一剑一键安装版
  5. 微信小程序 picker 自定义数组/对象数组
  6. 3dsMax显示运动路径却没有显示的一种情况
  7. AweCleaner for Mac(一体式Mac系统清理应用)
  8. 大学英语句子课文翻译clamber
  9. 自定义View 实现字母快速索引控件
  10. rabbitmq mqtt 无脑安装