蜘蛛侠的入侵:互联网公司robots协议法律指南
律匠Matt
​https://zhuanlan.zhihu.com/p/24562168?utm_source=wechat_session&utm_medium=social&utm_oi=57846897049600&from=singlemessage&isappinstalled=0
法律 话题的优秀回答者

文一
Robots和蜘蛛侠

Robots.txt自1994年诞生以来一直默默地维系着互联网搜索市场的道德水准。它的全称是“网络爬虫排除标准”,即网站通过在根目录设置Robots.txt,来告诉搜索引擎能不能以及如何让其搜索蜘蛛爬取网站内容。根目录实际上就像是WINDOWS系统中的A\B\C\D盘,这样的放置能让蜘蛛进入网站第一时间就首先读取ROBOTS.TXT文档中的内容,从而判断自己能否再行往子目录中搜索抓取内容。

每一家搜索公司其实都养着一只“蜘蛛侠”,百度蜘蛛叫Baiduspider,谷歌蜘蛛叫googlebot,360蜘蛛叫360Spider,这些蜘蛛每天都迅速地活跃在互联网上,不停地抓取互联网内容,并供用户点击搜索后形成结果。Robots协议被认为像酒店房间的“请勿打扰”和“请即打扫”警示牌,告知酒店员工能否进入房间。

文二
被审判的蜘蛛侠们

ROBORTS争议第一案:BE违规抓取eBay内容。Bidder’s Edge(简称BE)成立于1997年,是专门提供拍卖信息的聚合网站。BE利用“蜘蛛”抓取来自eBay等各个大型拍卖网站的商品信息,放在自己的网站上供用户浏览,并获得可观的网站流量。虽然eBay早已设置了robots协议禁止BE蜘蛛的抓取,但BE却无视这个要求。受理此案的美国联邦法官Ronald M. Whyte在经过多方调查取证后做出裁定,认定BE侵权成立,禁止了BE在未经eBay允许的情况下,通过任何自动查询程序、网络蜘蛛等设置抓取eBay的拍卖内容。

而在另一个审理结果恰相反的案件,即Field v. Google案。Google允许网络使用者获得Field发布在自己网站上的51部作品,并且这些作品以缓存的方式呈现在Google搜索引擎上,Field认为此行为侵犯其复制权和传播权。最终,审理法院驳回原告诉讼请求,认为原告作者未在其网站设置Robots协议,即视为允许搜索引擎使用,因此搜索引擎的抓取和使用不违法。

2013年发生在中国的3B大战,亦是中国互联网公司关于ROBOTS协议的经典战役。百度公司认为奇虎公司违反搜索引擎的机器人协议(Robots协议),擅自抓取、复制原告网站并生成快照向用户提供,而奇虎公司当庭辩称百度滥用Robots协议,以设置robots.txt文件为手段排斥同业竞争者,以达到限制同业竞争者正当竞争的目的。法院经审理认为,Robots协议被认定为搜索引擎行业内公认的、应当被遵守的商业道德,被告奇虎公司在推出搜索引擎的伊始阶段没有遵守百度网站的Robots协议,其行为明显不当,应承担相应的不利后果。

在2016年,大众点评网(即原告汉涛公司)称,自2012年以来,百度公司未经许可在百度地图、百度知道中大量抄袭、复制大众点评网的用户点评信息,直接替代大众点评网向用户提供内容,这样就让百度公司迅速获得用户和流量;还使用了大众点评网的图文标识,使得相关公众对服务来源产生误认,属于擅自使用知名服务特有名称的不正当竞争行为。法院判决(一审)指出,本案中百度的搜索引擎抓取涉案信息虽未违反Robots协议,但这并不意味着它可以任意使用这些信息,应当本着诚实信用的原则和公认的商业道德,合理控制来源于第三方网站信息的使用范围和方式,故判百度赔偿232万(原大众点评起诉标的9000万)。

文三
Robots.TXT在互联网商战中的意义

ROBOTS协议可以使用的商业攻防想象空间非常大,作为互联网公司,一定要善于使用ROBOTS协议,那么,对于互联网公司而言,ROBOTS协议可以构建哪些攻防手法:

1.优质内容形成封闭商业生态

人人都说2016年是原创内容生产之年,以后的商业市场上,内容为王。所以大家其实也看到,特别是微信公众号自运营以来,产生了海量的原创内容,这对于任何一个搜索引擎来说,都是令人垂涎三尺的优劣产品,但大家有没有发现,通过百度是很难搜索到微信公众号文章的。同样,对于封闭的知乎也一样,百度同样是不同搜索到的。

而对于搜狗而言,其通过和微信以及知乎的联合合作,为微信和知乎单独设置搜索点击,这个功能就吸引了大量的搜索用户。这背后的功臣,就是隐藏在微信、百度以及搜狗搜索背后的ROBOTS协议,这个协议禁止百度蜘蛛抓取微信和知乎中的内容并显示在用户搜索结果中。当然,网传百度暗中破坏了ROBOTS协议规则,对微信公号内容进行了抓取,不知有没有后续交涉。

https://www.zhihu.com/robots.txtUser-agent: *Crawl-delay: 10

2.禁止商业比价的形成

互联网电子商务的发展,形成了诸多的比价软件,通过比价软件,可以直接将各个平台的同类商品信息进行抓取并分析,从而向消费者提示货比三家的结果。这虽然给消费者很大的好处,但实际上却会让一些电商公司瞬间倒闭或形成巨大的威胁。所以,像淘宝网,2008年开始就禁止百度蜘蛛抓取淘宝网上的商品信息,还有京东网的ROBOTS协议也在2011年开始禁止一淘网抓取其页面上的商品信息。

3.防止实质性替代

搜索爬虫通过对特定网站的内容抓取,很容易造成抓取内容后构建的新页面效果对原网站形成“实质性替代”,从而让原网站失去用户访问的价值,这在大众点评网和爱帮网不正当竞争案件中可见一斑。大众点评网的经营者,即上海汉涛信息咨询有限公司将竞争对手爱帮聚信(北京)科技有限公司诉至法院,认为爱帮公司经营的爱帮网通过大量复制大众点评网站内容,获取不当的浏览量和竞争优势,索赔人民币900万元。法院认为爱帮网的行为事实上造成爱帮网向网络用户提供的涉案点评内容对大众点评网的相应内容的市场替代,对汉涛公司的利益产生实质性损害。另外,如网页快照也容易形成实质性替代。

4.防止流量负担

任何一家网站都需要有域名以及网络空间,而网络空间可以以实体服务器,也可以是现在流行的云空间,但不论如何,当网站访问量大,以及被用户频繁访问后,其带宽,空间都会形成流量负担,甚至瘫痪,这也是为什么12306网站老是会在过年期间无法访问的原因。所以,当有一个搜索爬虫经常访问你的网站来抓取内容时,自然而然就会造成流量拥挤,从而让真实的用户难以访问。所以,BOBOTS协议中就有Crawl-delay参数设置,用于调节蜘蛛的访问频率。

文四
ROBOTS.TXT设置的法律指引

ROBOTS协议从来都没有成为任何一个国家的法律,但大家同样需要共同遵守,因为这是一个商业市场中公认的商业道德,而我国法律保护商业道德。

蜘蛛侠的入侵:互联网公司robots协议法律指南相关推荐

  1. (转)Robots协议(爬虫协议、机器人协议)

    Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...

  2. Robots协议(爬虫协议、机器人协议)

    Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...

  3. “盗”亦有道,关于robots协议

    robots.txt robots协议(全名为"网络爬虫排除标准")(Robots Exclusion Protocol)网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些 ...

  4. python遵循什么协议_《Python网络爬虫》2.3 Robots协议的遵守方式

    在实际操作中我们这样的爬虫该如何遵守robots协议呢? Robots协议的使用 对于任何网络爬虫来讲,它应该能够自动或人工的识别robots.txt文件,根据文件的内容再进行爬取. 即使不写这样的代 ...

  5. 【K哥爬虫普法】百度、360八年乱战,robots 协议之战终落幕

    我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K哥特设了"K哥爬虫普法"专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知 ...

  6. 【网络爬虫与信息提取】Robots协议

    一.网络爬虫引发的问题 网络爬虫根据尺寸可以分为三类:小规模.中规模和大规模. 其中小规模的爬虫一般是用于爬取网页,数据量不大而且对速度不敏感,一般使用requests库就足够了,占据了所有网络爬虫的 ...

  7. Robots协议基础

    Robots协议 前言 写这个robots协议的文章呢是因为我今天在攻防世界上做题的时候碰到一道关于robots协议的题目,当然这道题也是比较简单,我们先简单的写一个解题思路然后介绍robots协议. ...

  8. robots协议相关

    Requests库 适用于爬取网页,小规模,数据量小,爬取速度不敏感. Scrapy库 适用于爬取网站,中规模,数据规模较大,爬取速度敏感 爬虫的限制 来源审查:判断User‐Agent进行限制 检查 ...

  9. 爬虫Robots协议

    Robots协议是互联网爬虫的一项公认的道德规范,它的全称是"网络爬虫排除标准"(Robots exclusion protocol),这个协议用来告诉爬虫,哪些页面是可以抓取的, ...

  10. Robots协议写法教程

    Robots协议的约束力 "Robots的约束力固然仅限于自律,无强制性,但这不等于说它背后反映的精神,没有法律基础."中国社会科学院信息化研究中心秘书长姜奇平表示,美国的电子隐私 ...

最新文章

  1. day6 面向对象基础
  2. zookeeper 客户端_zookeeper进阶-客户端源码详解
  3. 利用Fiddler模拟POST请求
  4. 叫我如何相信你?聊一聊语言模型的校准
  5. HOJ 13828 Funfair
  6. Spark Core
  7. Running Trinity in multiple steps
  8. 【Elasticsearch】es查看有问题的索引或者分片
  9. 安装构建以太坊钱包Parity
  10. fps游戏 三角函数+模拟
  11. Oracle 实例恢复时 前滚(roll forward) 后滚(roll back) 问题
  12. java内存泄漏与内存溢出
  13. Linux学习(2)常用的命令
  14. 台达伺服B2 调机杂说
  15. dpbs和pbs的区别_PBS与TBS区别
  16. OutMan——C语言中字符串处理函数、内存管理和内存分区
  17. laravel 分页查询
  18. demo h5 touch 移动_H5案例分享:移动端touch事件判断滑屏手势的方向
  19. 把 汇编代码翻译成二进制机器代码
  20. Nginx的proxy_pass及upstream的小型负载均衡

热门文章

  1. Python Thrift 简单示例
  2. 【Linux】linux下解压.xz文件
  3. Iframe跳转问题
  4. CentOS6 修改MySQL编码
  5. Android病毒家族及行为(一)
  6. 自编码器原理以及相关算法 Basic Auto-Encoder,Regularized Auto-Encoder,Denoising Auto-Encoder
  7. HTTP协议【详解】——经典面试题
  8. Python实战之路-day6
  9. git stash pop 冲突,git stash list 中的记录不会自动删除的解决方法
  10. Emmet的高级功能与使用技巧