本文首发于微信公众号“云端数据IP法律观察”(ID:YDdatalaw),转载请注明出处。

前言

马蜂窝陷抄袭点评丑闻

2018年10月20日,一篇《独家|估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章一出世便走红网络。文中称百亿体量的马蜂窝,其中2100万条“真实点评”中有1800万条是通过机器人从大众点评和携程等竞争对手抄袭而来。通过语义分析、数据挖掘,发现了7454个抄袭账号,平均每个账号抄袭搬运了数千条点评,合计抄袭572万条餐饮点评和1221万条酒店点评,占官网声称点评数85%。

马蜂窝回应称,点评内容在马蜂窝整体数据量中仅占比2.91%,涉嫌虚假点评的账号数量更是微乎其微,并已经进行清理。但恐怕已无法洗脱自己存在爬虫行为的嫌疑。

我国逐渐重视对网络爬虫的法律规制

在2019年5月28日国家互联网信息办公室发布的《数据安全管理办法(征求意见稿)》第十六条中首次出现了对网络爬虫规制的法律条文。

恶意爬虫是什么?

在回答这个问题之前,首先应当明确网络爬虫是什么?

网络爬虫就如同一只小蚂蚁,它的作用是搜集网页上的信息或数据,然后把搜集到的信息或数据搬运到小窝(数据库)里。所以爬虫不生产数据,它只是搬运数据。

而网络爬虫又分为善意爬虫和恶意爬虫,搜索引擎的爬虫就属于善意爬虫,比如百度搜索引擎的爬虫叫做百度蜘蛛(Baiduspider)。善意爬虫严格遵守Robots协议规范爬取网页数据(如URL),它的存在能够增加网站的曝光度,给网站带来流量。

与之相对的是恶意爬虫,它无视Robots协议,对网站中某些深层次的、不愿意公开的数据肆意爬取,其中不乏个人隐私或者商业秘密等重要信息。并且恶意爬虫的使用方希望从网站多次、大量的获取信息,所以其通常会向目标网站投放大量的爬虫。如果大量的爬虫在同一时间对网站进行访问,很容易导致网站服务器过载或崩溃,造成网站经营者的损失。

注:Robots协议属于典型的“君子协议”,它的目的是告知网络爬虫的编写者,哪些数据是可以被收集的,哪些数据是不能被收集的,但是如果网络爬虫程序的编写者不遵守Robots协议,想要强行爬去网站的数据时,Robots协议从技术上是无法阻止程序对越过协定爬取协议中不允许爬取的数据的。

恶意爬虫的现状

据统计,我国2017年互联网流量有42.2%是由网络机器人创造的,其中恶意机器(主要为恶意爬虫)流量占到了21.80%。


(数据来源:腾讯安全云鼎实验室)

在出行领域,恶意爬虫的主要目标是12306网站。我们日常使用的很多抢票软件上的票务信息就是由恶意爬虫不断的爬取12306网站的信息而来的。它们对12306网站的票务信息进行暴力爬取,不断的对网站提出刷新请求,于是12306网站时常因负载过大而崩溃,对我们的网络购票造成了严重的影响。

在社交领域,恶意爬虫的主要目标是在各类点评App及网站,前文所述的“马蜂窝抄袭点评”就是恶意爬虫应用在点评方面最好的例证。

而在电商领域,我们熟知的价格比对平台就是通过爬虫爬取诸如淘宝、京东等大型电商的商品价格数据,之后将数据整合,放在比对网站上供用户对比。


(数据来源:腾讯安全云鼎实验室)

恶意爬虫带来的法律问题

1.侵犯著作权

恶意爬虫会爬取某些网站(尤其是小说网站)上的文章、图片等信息,并将爬取到的文章或图片发布在自己的网站上以此获利,此种方式可能侵犯著作权中的信息网络传播权。例如我们在各类盗版网站中搜索到的小说或文章,就是盗版网站的运营方通过恶意爬虫从版权方网站所爬取的内容。

除开公司使用的爬虫之外,还有很多个人使用的爬虫,例如毕业年级的大学生为了搜集论文所需的各类数据,但是依靠人工搜集的方法费时费力,此时他们可能会使用爬虫帮助他们进行搜集。相对于公司的爬虫来说,个人对于爬虫的使用更为随意,他们中的大多数都不会遵守网站的Robots协议,而是根据自己的需求进行暴力爬取,这同样会引起著作权侵权问题。

2.侵犯商业秘密

如果恶意爬虫在爬取信息的过程中,无视网站经营者设置的Robots协议及各类保护措施,接触、保存甚至披露了一般用户无法访问的信息,而该信息又构成商业秘密,则恶意爬虫的行为存在侵犯他人商业秘密的可能。

3.侵犯个人隐私或个人信息

同样如果网络爬虫突破了网站经营者设置的保护措施,不仅可能接触到商业秘密,还可能接触到存储于后台服务器中的用户个人隐私或个人信息。

例如2017年3月24日,58同城简历数据泄露事件。某些淘宝电商在淘宝按照0.2到0.3元一条的价格售卖“58同城简历数据”,并且700元可以购买一套采集58数据的软件。而这些被泄露资料的求职者均在58同城上投递了简历。多家安全机构表示,该采集软件是一个恶意爬虫工具,爬虫软件可利用漏洞爬取个人信息。

如果网站或软件对我们的个人信息没有采取专门的安全保护措施或者采取的安全保护措施不够,那么我们的个人信息将容易被恶意爬虫所爬取并利用。

4.构成不正当竞争

恶意爬虫对网站数据的爬取很可能会触犯《反不正当竞争法》第二条、第十二条等条文的规定,构成不正当竞争。例如在2016年12月30日,北京知识产权法院作出的判决中((2016)京73民终588号),非法抓取使用“新浪微博”用户信息的“脉脉”被判赔200万元。

而在2016年5月26日上海知识产权法院宣判的“大众点评诉百度案”((2016)沪73民终242号)中,法官认为“百度”通过技术手段,从“大众点评”获取点评信息,并大量、全文使用用于充实自己的经营内容。此种使用方式,实质上是替代其他经营者向用户提供信息,其使用行为具有明显的“搭便车”、“不劳而获”的特点,给“大众点评”造成损害。故“百度”的上述行为,具有不正当性,构成不正当竞争。

5.侵入计算机系统,构成刑事犯罪

如果恶意爬虫强行突破某些特定被爬方的技术措施,则可能构成刑事犯罪行为。

《刑法》第二百八十五条规定,违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,不论情节严重与否,构成非法侵入计算机信息系统罪。违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。

《刑法》第二百八十六条还规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。而违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,也构成犯罪,依照前款的规定处罚。

《刑法》第二百五十三条之一规定,违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。违反国家有关规定,将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。单位犯前三款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚,即构成“侵犯公民个人信息罪”。

本文观点

我国目前对于网络爬虫的规制集中在《刑法》有关计算机信息系统犯罪的法律条文之中,对于《刑法》之外的网络爬虫行政规制或民事侵权救济,我国并未作出针对性的规定。大部分时候对于恶意爬虫侵权问题,法院适用的是《反不正当竞争法》来对被侵权人进行救济。但是正如笔者在《体育赛事直播的著作权问题》一文中所说的,《反不正当竞争法》属于事后追责的法律,对于网络爬虫问题更应该在事前予以规制。而我国目前对于网络爬虫规制的现状是等到网络爬虫造成了损失,再想办法去弥补。但是很多损害是没有办法弥补的,比如个人隐私或商业秘密的泄露,所以总是寄希望于《反不正当竞争法》能够帮助我们挽回损失是不现实的。

所以,笔者认为我国应当制定针对网络爬虫的相关标准,将Robots协议中的要求吸纳进标准之中,完善相关的数据安全法律法规,将网络爬虫引向合法轨道。明确网络爬虫应当按照何种规则行动,何种行为可为,何种行为不可为,从而抑制目前我国网络爬虫野蛮生长的态势。

将无处不在的网络爬虫引向合法的轨道已迫在眉睫!相关推荐

  1. Python可以这样学(第十季:网络爬虫实战)-董付国-专题视频课程

    Python可以这样学(第十季:网络爬虫实战)-83人已学习 课程介绍         陆续介绍和分享一些网络爬虫方面的案例,Python基础知识可以参考前面的"Python可以这样学&qu ...

  2. 网络爬虫是什么?怎么学python爬虫

    网络爬虫又称网络蜘蛛.网络机器人,它是一种按照一定的规则自动浏览.检索网页信息的程序或者脚本.网络爬虫能够自动请求网页,并将所需要的数据抓取下来.通过对抓取的数据进行处理,从而提取出有价值的信息. 认 ...

  3. Python网络爬虫是什么意思?

    众所周知,Python是一门脚本语言,也被称为胶水语言,其应用领域也是十分广泛的,哪怕你不想从事IT行业,学习Python语言也是百利而无一害的,今天给大家详细介绍下Python网络爬虫究竟是什么,请 ...

  4. python网络爬虫_Python网络爬虫——爬取视频网站源视频!

    原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...

  5. python 网络爬虫学习笔记(一)

    为了方便,在Windows下我用了PyCharm,个人感觉这是一款优秀的python学习软件.爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去 ...

  6. python爬虫入门代码-Python爬虫入门(一) 网络爬虫之规则

    Python爬虫入门(一) 总述 本来早就想学习下python爬虫了,总是找各种借口,一直拖到现在才开始系统的学习. 我用的教程是中国大学MOOC上的由北京理工大学开设的Python网络爬虫与信息提取 ...

  7. 【网络爬虫入门02】HTTP客户端库Requests的基本原理与基础应用

    [网络爬虫入门02]HTTP客户端库Requests的基本原理与基础应用 广东职业技术学院  欧浩源 2017-10-15  1.引言 实现网络爬虫的第一步就是要建立网络连接并向服务器或网页等网络资源 ...

  8. Go 函数特性和网络爬虫示例

    爬取页面 这篇通过网络爬虫的示例,来了解 Go 语言的递归.多返回值.延迟函数调用.匿名函数等方面的函数特性. 首先是爬虫的基础示例,下面两个例子展示通过 net/http 包来爬取页面的内容. 获取 ...

  9. python爬虫哪个选择器好用_Python网络爬虫四大选择器用法原理总结

    前几天小编连续写了四篇关于Python选择器的文章,分别用正则表达式.BeautifulSoup.Xpath.CSS选择器分别抓取京东网的商品信息.今天小编来给大家总结一下这四个选择器,让大家更加深刻 ...

最新文章

  1. 机器学习(4)特征预处理
  2. 山西计算机软考知识点,计算机软考考试必备知识点:数据标准化
  3. UI标签库专题九:JEECG智能开发平台 Choose(选则操作标签)
  4. 微软认知服务开发实践(1) - 牛津计划简介
  5. Video和Audio标签的使用
  6. linux mv时间,简介Linux中cp和mv搭配{,}在shel_l当中的用法
  7. vue监听滚动事件,实现滚动监听
  8. 黑马vue实战项目-(五)参数列表组件的开发
  9. 使运行的窗口不在任务栏显示
  10. 信息学奥赛一本通(C++)版在线评测系统网址
  11. 月入30K 的电子工程师很常见吗,需要具备啥素质才配得上这个薪资
  12. Mac安装PyQt4
  13. Linux终端配色和Xshell命令行配色
  14. java utility工具类怎么导入_Utility.java
  15. git 本地拉取远程分支、合并分支某次提交、删除远程分支提交日志
  16. Android Studio安装(本人也是站在巨人肩膀上学习~)
  17. 解决windows 10在联网时依旧无法安装3DMAX2014
  18. GIS应用类有哪些最新发表的毕业论文呢?
  19. 谈一谈|如何写好毕业论文中的参考文献
  20. 【软件测试】软件测试随手记

热门文章

  1. 18天精读掌握《费曼物理学讲义卷一》 第3天 2019.6.14
  2. 不正确的c语言语句是,【单选题】下列不正确的C语言语句是( )。 A. x=y=5; B. x=1,y=2; C. y=int x; D. x++;...
  3. python 图片库_最新PHP+Python开源版在线浏览美女图片美女套图源码带数据库
  4. windows server 2016磁盘安全与管理_磁盘管理工具哪一款好用?
  5. haproxy 基本搭建 + 高可用集群的搭建
  6. 果快服务器维护中 稍后再试,维护中什么意思?服务维护中是什么意思
  7. 一次国产系统与国外系统对比,CCTV 令人无语
  8. 在应用中安装其他应用程序
  9. 哥德巴赫猜想的证明(李扩继)
  10. 汇编语言程序设计IV-贺利坚-专题视频课程