“一个码农写了个爬虫程序,整个公司200多人被端了。”

“不可能吧!”

做为一名码农来讲,谁还没有写过几段爬虫呢?只因写爬虫程序就被端有点夸张了吧。

可是,现实就是很残酷,这个案子目前已经进入审判阶段。据说,涉案的码农在被警方抓捕后,在审问期间一直不承认自己触犯了法律,并且也完全没有意识到自己犯法了。进去之后总以为警察搞错了,过几天就会把自己放出来,结果也错过了取保候审的机会。

距离事发当日到现在,已经过去了半年,当事者还被关在监狱中。不管这件事如何收尾,对这名程序员和他的家庭都是一个很大的打击。

一个爬虫引发的案件

某一个知名互联网公司,突然发现公司的服务器连续几天压力倍增,导致公司内部系统崩溃不能访问,公司领导责令技术部尽快解决。

该公司系统平时访问量一直比较平稳,但不知为何这几天系统压力突然大增,经过技术人员几天调查发现了一个惊人的真相,公司客户信息被抓取,并且某个接口访问量巨大。

随着技术人员的深入调查发现的现象更加震惊,入侵者利用这个入口已经窃取了大量的客户信息,并且所有的线索都指向了一家大数据公司。

这家公司的主要业务就是,出售简历数据库。经核查该公司出售的简历数据中,就包含自己家客户的简历信息。

技术部上报领导之后,公司开会商议后决定报案。

爬虫把对方服务器搞挂了

案发前一段时间,小明(化名)接到了技术部领导的需求,要求写一段爬虫批量从网上的一个接口抓取数据,爬虫开发完后测试没有问题,小明就将程序上传到了公司服务器。

程序运行了一段时间后,也许是有了新的需求,也许是小明想对爬虫程序进行进一步的优化,将爬虫的线程数,由原来比较小的值调到一个比较大的值。

完善后的程序上传到服务器后,小明跟踪了下爬虫的进展,运行平稳并且速度快了很多。提交之后像往常一样,小明就把这件事情忘了。

小明没想到自己这次提交的爬虫程序,竟然能把对方的服务搞挂了,也没想到自己因为写了一段代码而坐牢。

整个公司200多人被抓

2019年的某一个工作日,公司员工像往常一样忙忙碌碌,某个程序员和产品经理正在为了一个需求争吵,小明带着耳机正坐在办公室敲代码。

突然就来了一大群警察,要求所有人离开工位,双手离开电脑、手机等设备。整个公司的人都懵了,不知道发生了什么事情,但也都照办了。

警察很快查封了公司的所有办公用品,问技术部相关人员要了服务器的信息,公司全体上下 200 多人无差别的全部送到看守所了解情况。

在去看守所的路上,大家都还心里想这是不是搞错了,我们只是一个科技公司公司又没有骗人,怎么就集体被抓了。

小明也一直认为自己没有犯罪,自己只是一名技术人员而已,所有的工作也都是按照领导要求来执行的,应该很快就会把我们释放了吧。

随后,公司非核心人员都被释放了出来,主要集中在 HR、行政人员。最后确认公司 36 人被捕,其中大部分是程序员。

被捕后小明委托的律师事务所,就是和我们交流的两位律师的事务所,据说小明入狱后就一直不认为自己有罪,也因一直拒绝认罪从而错过了取保候审的机会。

目前小明还在等待最后的审判。。。

掌握2.2亿人简历大数据,年赚1.8亿

巧达科技号称是中国最大的用户画像关键数据服务提供商,专注于大数据及人工智能领域前瞻性产品研发,客户覆盖互联网行业及泛金融领域。

高管多为百度出身,公司2017年净赚1.86亿元。

公司2014年7月成立,B轮估值2亿美元,目前已经到了C轮融资阶段,投资者包括李开复创新工场、百度风投齐玉杰、中信产业基金、人工智能产业基金等等。

巧达的创始人成予曾经是百度第一任产品部负责人、联合创始人沈毅曾经是百度电子商务事业部技术总监和百度爱乐活技术副总裁。

公司曾宣称通过整合多达2.2亿份自然人简历、100亿个用户识别ID组合和1000亿+用户综合数据,绘制出了涉及中国8亿人口的多维度数据。其中,包含个人隐私与非隐私信息。

此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数据,巧达科技自称拥有超过8亿自然人的认知数据。

也就是说,超过57%的中国人的信息都在巧达科技的数据库里面。

“基本上所有你能数的上名的大型互联网公司,都是巧达科技的客户。”一位之前简历中介生意的从业者。

多个大数据公司因爬虫被查

最近的大数据行业,风声鹤唳。

在中秋节前一天,中国电信控股的子公司天翼征信传出风声,其总经理、副总经理以及市场人员被警察带走,原因是与其合作的大数据公司被警方调查。

在天翼之前,新颜科技CEO黄向前被警方带走、魔蝎科技公司CEO周江翔涉事被查、公信宝公司门口被贴了封条、知名第三方数据服务公司聚信立宣布将暂停对外提供用户授权的运营商爬虫服务……

据内部消息,最近监管对数据乱象出手,开始清理行动,15家公司被列入调查名单,其中几家估值都超几十亿。

国内很多大数据公司的数据来源多多少少都有一定的问题,随着我国今年6月1日起,《中华人民共和国网络安全法》将实施,所有的网上行为将越来越严格,如果还按照之前的惯性去操作,迟早会出问题。

“技术中立论”代价巨大

不知道大家是否发现,随着国家经济的不断发展,以前可能处于灰色阶段的行业,现在几乎都慢慢不能做了。写这篇文章的目的,也是为了警示大家技术是无罪的,但是用到了错的地方代价也是非常巨大的。

我之前看过这样一个报道,一个程序员因为爱好写了一个程序(入侵工具),并且把此程序上传到了互联网上,没想到过了两年之后,有人利用这个小程序非法获利500多万。

虽然这名程序员并没有因为这个程序而获利,但是间接给犯罪人员提供了犯罪的工具,最后被判刑 2 年缓期 2 年执行。

程序员的生活是简单的,工作大概也只关心代码和BUG。小明也从来没有把自己的职业和犯罪联系在一起。

技术本身是不违法的,就好像一把水果刀,如果用来削苹果削梨没有任何问题,但是用来伤人就是凶器,就要被列入物证list。

爬虫也是如此,在大多数情况下,只是采集互联网上的公开信息,很难说是违法行为。但是一旦涉及入侵到别人系统去获取数据,那必然存在着法律风险。

可能很多同学是懵的,很多互联网公司就是靠抓取数据活着的。他只是正常执行公司安排的工作任务,怎么就涉嫌犯罪了呢?

这里结合律师朋友给出的一些建议,这里摘录出来仅供参考。

单位犯罪和个人犯罪的关系

首先了解一下单位犯罪。除了自然人犯罪,还有单位犯罪,是指公司、企业、事业单位、机关、团体为单位谋取利益,经单位决策机构或者负责人决定实施的,法律规定应当负刑事责任的危害社会的行为。

我国刑法对单位犯罪原则上采取双罚制度,即单位犯罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员判处刑罚。相关司法解释规定,在审理单位故意犯罪案件时,对其直接负责的主管人员和其他直接责任人员,可不区分主犯、从犯,按照其在单位犯罪中所起的作用判处刑罚。

因此,公司犯罪有可能会牵连员工,尤其是案件中对非法获取数据有直接责任的爬虫工程师。这也是为什么当事人在公司人小言微但还是被批捕的原因。

其次,是否可以“不知者不为罪”来辩解?刑法原则之一是法无明文规定不为罪,并没有“不知者不为罪”。主观上的恶意是衡量犯罪的要素之一,结合客观上的行为来推理主观恶意。破解别人的服务器,获取别人不公开的信息,不能说没有恶意,不能以不懂法来搪塞。

什么样的爬虫违法?

如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。

除此之外,根据相关规定,对于违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,窃取或者以其他方法非法获取公民个人信息的,均可构成成“侵犯公民个人信息罪”,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

重点关注:下列情况下,爬虫有可能违法,严重的甚至构成犯罪。

爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。

爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”

爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”

码农慌不慌?只因写了一段爬虫,大数据公司200多人被抓!相关推荐

  1. 只因写了一段爬虫,公司200多人被抓 ?

    "一个程序员写了个爬虫程序,整个公司200多人被端了." "不可能吧!" 刚从朋友听到这个消息的时候,我有点不太相信,做为一名程序员来讲,谁还没有写过几段爬虫呢 ...

  2. 第四十八期:只因写了一段爬虫,公司200多人被抓!

    刚从朋友听到这个消息的时候,我有点不太相信,做为一名程序员来讲,谁还没有写过几段爬虫呢?只因写爬虫程序就被端有点夸张了吧. 作者:纯洁的微笑|2019-10-17 09:51 "一个程序员写 ...

  3. 可怕!只因写了一段爬虫代码,全公司200人被警察一锅端!

    点击上方"码农突围",马上关注,每天上午8:50准时推送 这里是码农充电第一站,回复"666",获取一份专属大礼包 真爱,请设置"星标"或点 ...

  4. 我花 1 分钟写了一段爬虫,帮助小姐姐解放了双手

    1. 场景 最近有一位小姐姐向我抱怨,说她家宝宝最近要打预防针,受疫情影响,市区定点的社康医院太少,导致预约号基本靠抢,根本是一号难求 每次预约都要一直守在手机旁,不停地刷新页面去抢号,太耽误功夫了, ...

  5. 花 1 分钟写了一段爬虫,帮实现微信抢号成功

    欢迎关注 Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.ne ...

  6. 谁说码农不懂浪漫?(js写的'老婆生日快乐'特效)

    一直被老婆抱怨不懂浪漫,老婆的生日又来了,老婆指着闺蜜空间上贴的老公做的胡萝卜心形浪漫晚餐告诉我:必须送她一份用心的礼物.我绞尽脑汁想出这么一法子,还是得用我们码农的独特方式,经过一天多的努力,终于做 ...

  7. 十年老码农吐血经验:跳槽千万不能选高年终低base的公司,超过15薪就要慎重!...

    低base高年终VS高base低年终,哪个更好? 一个工作十年的老码农总结了自己的经验:跳槽千万不能选年终月数多的公司,超过15薪就要好好掂量掂量.能选外企就选外企,奖金基本就是一个月,不会坑你. 一 ...

  8. [故事]只会写自己名字的港大院士(图)

    http://daxue.163.com/10/0106/10/5SBAMAJD00913J5O_2.html (本文来源:中青在线-中国青年报 作者:赵涵 漠文) 她没有上过大学,也不知道什么是&q ...

  9. [数据分析方法论]大数据时代究竟带来了什么?写给普通人看的大数据文

    数据,让一切有迹可循,让一切有源可溯.我们每天都在产生数据,创造大数据和使用大数据,只是,你,仍然浑然不知. 百度知道和知乎问答里一直有小伙伴在问这个问题,比如"大数据时代,生活和思维发生了 ...

  10. 大数据时代究竟带来了什么? ——写给普通人看的大数据文章

    数据,让一切有迹可循,让一切有源可溯.我们每天都在产生数据,创造大数据和使用大数据,只是,你,仍然浑然不知. 百度知道和知乎问答里一直有小伙伴在问这个问题,比如"大数据时代,生活和思维发生了 ...

最新文章

  1. 两个表的更新、表的复制
  2. unity 获得所有的tag_Unity3D_06_根据Transform、GameObject和Tag获取子对象集合
  3. TF之LiR:基于tensorflow实现手写数字图片识别准确率
  4. Jenkins 在 Tomcat 中的部署及代码静态检查工具集成
  5. linux udhcpc指令,dhcpclient和udhcpc区别和用法
  6. 使用Hexo搭建个人博客的终极资料
  7. SpringCloud 入门教程(一): 服务注册
  8. 收集瓶盖赢大奖(信息学奥赛一本通-T1045)
  9. postgresql如何让主键自增
  10. 中秋节PSD分层模板|电商营销借势促销,快快收藏!
  11. 全球英文经典演讲100篇_日语演讲100问(1)即兴演讲不即兴!(理论篇)
  12. 创建一个新的extender
  13. 车站分级 (2013noip普及组T4)(树形DP)
  14. 360浏览器:中国为什么没有自主研发的浏览器内核?
  15. 全网首发:使用命令行编译VS工程为Win32/x64
  16. lema刻字机_Chris Lema访谈– WordPress业务
  17. python中seth和fd_Python turtle.fd方法代码示例
  18. tp810c桥接_TP-Link双无线路由器开启WDS桥接设置步骤
  19. 【GAMES101】作业4(提高)含Bazier曲线的反走样处理
  20. 数据预处理利器 Amazon Glue DataBrew

热门文章

  1. rundll32.exe命令使用大全
  2. linux查看设备pid vid,Linux设备PID VID详细说明
  3. 史上最纯净的Win7专业版系统
  4. 第十六届“振兴杯”计算机网络管理员赛项理论参考题库(2)多选
  5. Rendezvous机制完成数据交互。Rendezvous是一个基于—_者一__者模型设计的抽象类。
  6. tv.twitch.android,Twitch智能电视客户端
  7. 百度笔试题——开发测试工程师(深圳)
  8. 分式化简结果要求_中考分式化简求值题题型归纳
  9. 中软国际软件测试培训中心,中软国际准员工培养计划C++开发/软件测试方向开班典礼...
  10. 公路自行车入门级推荐java_开学季:9款值得买公路车推荐