爬虫玩得好,牢饭吃到饱?这3条底线千万不能碰!
导读:合法合规、谨慎小心地应用爬虫技术。
点击上方“Python爬虫与数据挖掘”,进行关注
回复“书籍”即可获赠Python从入门到进阶共10本电子书
今
日
鸡
汤
参差连曲陌,迢递送斜晖。
作者:郭斌 刘思聪 於志文
来源:大数据DT(ID:hzdashuju)
数据爬取技术一向是数据公司获取数据的高效途径之一,但严格意义上爬取行为本身并不是完全合法合规的,按我国目前的法律法规及司法判例,爬虫技术可能会触犯以下几个维度的法律要求(仅列出相对重点的法律维度)。
01 反不正当竞争法维度
在未征得被爬取方授权的情况下,爬取数据的行为可能会违反Robots协议。Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。2012年11月1日,十二家企业共同发起了《互联网搜索引擎服务自律公约》,公约要求各签约方遵守Robots协议。
在司法实践中,即使爬取方不属于上述12家公司的范围内,Robots协议也已经被认定为互联网行业搜索领域内公认的商业道德:北京市第一中级人民法院在某互联网安全公司不正当竞争案件中,将行业内公认的Robots协议认定为互联网行业搜索领域公认的商业道德。
法院在判决中指出:
在被告推出搜索引擎伊始,其网站亦刊载了Robots协议的内容和设置方法,说明包括被告在内的整个互联网行业对于Robots协议都是认可和遵守的。其应当被认定为行业内的通行规则,应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德。
因此,爬取方违反Robots协议的行为可能会被认定为违反《反不正当竞争法》第2条,即违反诚实信用原则以及商业道德。
虽然网络上公开的信息较难构成商业秘密,但由于网络上的某些信息可以通过采取技术措施使得仅有特定的用户可以接触,因此网络上的信息仍有可能具备商业秘密要求的秘密性和保密性,构成商业秘密的可能。
如果爬虫控制者在抓取信息的过程中有意地规避了网站经营者设置的保护措施,接触、保存甚至披露了一般用户原本无法访问的信息,而该等信息又构成商业秘密,则爬虫控制者的该等行为存在侵犯他人商业秘密的可能,进而可能会违反《反不正当竞争法》第9条。
同时,因为爬虫会对被爬取方的网络系统等造成妨碍,所以此类行为可能会违反《反不正当竞争法》第12条。
02 著作权维度
无论是网络上的文章、图片、用户评论,还是网站自身的数据库,都有可能在具备独创性的情况下构成著作权法保护的作品。对于该等信息的抓取和使用有可能会构成对著作权的侵犯,特别是复制权和网络信息传播权。因为抓取数据的行为本质上是对数据的复制,因此该等行为有可能侵犯著作权人的复制权。
同时就数据提取和使用行为而言,如果爬虫控制者抓取信息后,在自己的网站上公开传播抓取到的信息,则还有可能进一步侵犯信息网络传播权。
例如,马某某等诉某网络科技公司著作权侵权纠纷案。
案情事实
被告某网络科技公司利用类似搜索引擎的计算机爬虫技术进行法语词条的收集与翻译释文的搜索,未支付相应报酬而大量使用原告享有著作权的《当代法汉科技词典》中的内容,马某某将该网络科技公司以侵犯著作权为由诉至法院。
判决结果
根据法律规定,除合理使用外,使用他人作品应当经著作权人同意,并支付相应报酬。被告称其通过爬虫技术收集了词汇词条及中文释义,该技术是被告收集并形成其网络词典词库的一种手段,而非在使用《法语助手》时,通过搜索链接直接指向其他目标网站,被告应该对其收集并使用的词汇及中文释义合法性负有较高的审核注意义务。
因此,被告制作的法语翻译软件内容,部分抄袭原告《当代法汉科技词典》的释义内容,侵犯了原告等人的著作权,应依法承担停止侵害、赔礼道歉、赔偿损失的民事责任。
03 《刑法》及《网络安全法》维度
从技术角度分析,爬虫可能会导致目标网站负荷过大,进而引起网站无法访问甚至瘫痪等不良后果,爬取方可能会违反《网络安全法》中关于网络运行安全方面的规定。但如果你还涉及侵入的情况,就可能会触犯《刑法》第285、286条的规定。
例如在某案例中,王某利用远程登录的方法,通过一个攻击指令侵入目标公司的计算机信息系统,将系统中公司员工的邮箱、通讯录导出来,再修改相应的密码,从而可以随意进入员工的邮箱,最后被判处非法获取计算机信息系统数据罪。
从爬取的内容角度分析,如果爬取的内容是个人信息,那么可能违反《网络安全法》关于收集个人信息合规性的要求,甚至可能触犯《刑法》中的侵犯公民个人信息罪。
小结
综上,数据爬取行为不但容易引起监管部门的重点关注,也易受到来自竞争对手的诉讼,建议企业在进行数据爬取行为时注意以下要点内容。
尽量避免爬取构成直接竞争关系的企业的平台数据,避免竞争对手依据《反不正当竞争法》提起诉讼的风险。
尽量爬取明确公开的数据,遵守Robots协议等网站明确公开的协议,避免爬取平台禁止爬取的数据。
根据《数据安全管理办法(征求意见稿)》第16条的要求,数据爬取收集流量不得超过网站日均流量的三分之一,避免造成目标网站崩溃、无法正常运营等情况。
对于目标网站已经明确采取技术手段阻止爬虫访问的,公司不应侵入、破坏其防护措施。
如目标网站明确发出停止数据爬取的相关通知说明,则应暂停数据爬取行为,及时采取对策。
本文摘编自《数据合规:入门、实战与进阶》(ISBN:978-7-111-70536-9),经出版方授权发布。
延伸阅读《数据合规:入门、实战与进阶》
点击上图了解及购买
转载请联系微信:DoctorData
推荐语:多年一线治理经验的系统总结!跟随主人公不断成长,快速掌握多元场景中的实务处理方案!企业数据合规治理的实用工作手册!数据合规专业人士成长晋阶的秘笈!
关于作者:孟洁,现任北京市环球律师事务所合伙人,主要执业领域为网络安全、个人信息与隐私保护。曾在多家知名企业担任法务负责人和数据保护官,任IAPP中国区知识社区主席,被钱伯斯、The Legal 500、LEGALBAND等知名法律评级机构评为 “TMT领域领军人物”“数据保护领域领军人物”“Fintech领域头部律师”等,被北京市律协评为全国千名涉外专家律师。
薛颖,长期在互联网集团担任数据合规与知识产权总监。在外企、世界五百强公司等从事过多年数据隐私合规工作,拥有丰富的互联网场景一线经验。持有CIPP/E、CIPP/U认证,当选ALB中国知识产权法务15强并带领团队获得过《商法》年度“数据合规”优秀团队等奖项。
朱玲凤,现任知名互联网公司隐私及数据合规专家,曾任小米安全与隐私委员会隐私副主席。多年从事数据隐私合规研究和实务工作,深入参与国内信息安全相关标准拟定和重要法律研讨等,在全球隐私法律研究、隐私保护设计、隐私安全技术应用与管理以及App、物联网、人工智能等领域有丰富的实践经验。
赠书规则
如果喜欢本文
欢迎 在看丨留言丨分享至朋友圈 三连
赠书
按以下方式和公众号互动,即有机会获赠以上一本图书!
活动方式:在公众号后台回复"送书"参与活动,届时会在参与的小伙伴中抽取1名幸运鹅!或者在本公众号后台文章留言累计300次(PS:一篇文章算留言一次,后台有数据统计的,本号有1000余篇文章,欢迎留言支持),满足留言次数也可以免费获得一本赠书,包邮哦!活动时间:截至7月13日20点(周三)开奖,不见不散。快快拉上你的小伙伴参与进来吧~
让我知道你在看
爬虫玩得好,牢饭吃到饱?这3条底线千万不能碰!相关推荐
- 爬虫写得好,牢饭吃到饱?
先说一条新闻,一家专注大数据的数据服务提供商公司巧达科技,因为大量使用爬虫访问其他公司接口获取数据,整个公司被抓,最后不光管理者,干活的程序员也被抓了. 很多学python的同学都接触过爬虫,即便是没 ...
- 第七十二期:爬虫爬的好,牢饭吃到饱?
前几天分享的一篇<只因写了一段爬虫,公司200多人被抓!>相信大家看了后都会发问,我只是个写爬虫的,跟我有什么关系?到底什么样的爬虫才不犯法?今天这篇会解答你所有的疑问. 作者:技术领导力 ...
- [牢饭吃到饱?]制作爬取某网站表情包下载器
刚学一个月py,一个多星期爬虫,单纯分享记录下作业,- 爬取相关图片比较简单,也没有反爬就不解释. 软件效果图: 分享下代码: '''Powered By kkinn''' import re,req ...
- 正所谓:抓包抓的好,牢饭吃的饱,银白手铐准备好、抓包工具-fiddler/charles抓包工具详解
目录 简介: Charles的基本功能使用 手机端使用charles进行抓包: 第二步,把手机按照charles的IP和端口进行配置:(手机和电脑网络在同一个wifi) 第三步,手机配对成功后,cha ...
- 爬虫写得好,牢饭吃得早
爬虫在互联网时代并不稀奇,面对海量数据,人工获取信息的效率低.时效性差,为了提升体验很多公司都会开发爬虫系统.但是,爬虫写得好,牢饭吃得早. 来自 2018 年的公开案例: 某公司 2017 年转型做 ...
- 查看网站的爬虫协议,简单介绍爬虫协议robots.txt,避免爬虫爬的好,牢饭吃得早(保姆级图文)
目录 什么是爬虫协议 查询方法 解读协议内容 总结 欢迎关注 『Python』 系列,持续更新中 欢迎关注 『Python』 系列,持续更新中 什么是爬虫协议 正经正规网站一般都会有设置爬虫协议,规定 ...
- 爬虫写得好,‘劳烦’吃得饱
前言 提起"爬虫",总有一丝神秘色彩,大家都调侃"爬虫写得好,'劳烦'吃得饱". 虽然是"高危职业",但在大数据横行的年代,爬虫与反爬虫的需 ...
- 面向对象:赖床运动员,吉尼斯吃不饱记录保持者
各位男生如果看到合适的女生,但自己 "下不了手",请可劲地介绍给你还单着的亲朋好友 ^_^ 小帖士 1)单身男生和女生都有机会加入面向对象,点击 "阅读原文" ...
- 面相对象:赖床运动员,吉尼斯吃不饱记录保持者
各位男生如果看到合适的女生,但自己 "下不了手",请可劲地介绍给你还单着的亲朋好友 ^_^ 小帖士 1)单身男生和女生都有机会加入面向对象,点击 "阅读原文" ...
最新文章
- SAP SD基础知识之创建并处理外向交货单
- linux系统服务命令systemctl使用说明
- 海华·垃圾分类AI挑战赛baseline分享,评测得分最高至0.85
- ARM 之九 Cortex-M/R 内核启动过程 / 程序启动流程(基于ARMCC、Keil)
- 关于WebApi 跨域问题的解决的方式
- 一个文件夹就是一个信息系统
- java抽取pdf_java 抽取 word,pdf 的四种武器
- 我在使用vector时候遇到的二逼问题
- Python+Pandas读取Excel文件分析关系最好的两个演员
- HDU 1026 广度优先搜索,BFS+路径的记录
- ORACLE虚拟索引(Virtual Index)
- python生成验证码_Python快速生成验证码
- 初窥Python(一)——使用pymongo连接MongoDB
- linux freemind字体,解决 ubuntu 18.04 lts freemind 或freeplane 乱码口口的问题
- 联想笔记本电脑电池修复
- php 开源 采集,poscms火车采集教程
- # IE浏览器打不开网页,google浏览器能打开
- android代码获取deviceid,获取安卓系统的设备id用getDeviceId()函数
- RTL8367SC单芯片做千兆2光5电
- 当clipper遇到重复裁剪框