本章内容介绍美国与网页抓取相关的法律(以及一些国际法),并学习如何分析网页抓取行为的法律和道德约束。
1.商标、版权、专利
知识产权有 3 种基本类型:商标(用 TM 或 ® 表示)、版权(用 © 表示)和专利(有时会用文字说明某发明受专利保护或注明专利号,但通常没有任何说明)。
专利只是用来声明发明的所有权。图片、文字和任何信息本身不能获得专利权。获得专利权的是这些无形的东西(技术),而不是专利报告中的内容。

商标(trademark)是一个单词、词组、符号和 / 或设计,用来标识和区分一种商品的来源。服务标识(service mark)是一个单词、词组、符号和 / 或设计,用来标识和区分一种服务而非商品的来源。术语“商标”通常既可表示商标,也可表示服务标识。

除了当我们提到商标时通常会想到的传统的单词 / 符号商标,其他的描述性特征也可以作为商标。比如,容器的外形(可口可乐瓶)或者一种颜色。和专利不同,商标的所有权很大程度上由使用场景决定。例如新的饮料不能在外包装用其他饮料产品的图标,某种相同类型商品,不能使用与其他申请过的颜色。
版权法
商标和专利有一个共同点,就是它们必须正式注册才能得到认可。而受版权保护的材料并不需要注册。任何材料,只要你创作出来,它就会自动受到版权法的保护。
显然,版权是网络爬虫需要关注的内容。版权保护只涉及有创造性的作品,而不涉及统计数据或事实。按照《数字千年版权法》(DMCA),即使是有版权的内容也可以以合理理由直接使用。DMCA中有两点与网页抓取相关:

  • 根据“安全港”保护原则,从一个显而易见只包含无版权材料的数据源抓取数据,然后该数据源有人提交过有版权材料,你收到通知后将相关版权资料删除即可免责。
  • 你不能为了收集信息而故意绕开安全措施,比如密码保护。

此外,如果受版权保护的材料被合理地使用,DMCA 可能不会发出删除(take-down)通知。总之,未经作者或版权所有者授权,你不可以直接发表有版权的材料。如果你以数据分析为目的,把可以自由访问的有版权的材料保存在自己的非公开数据库中,这是合法行为。
若你只是分析数据然后发布相关数据分析结果,这是合法行为。如果你还引用了一些原文或简单的样本数据来阐述自己的观点,也是可以的。

2.侵害动产
动产的范围不包括不动产和土地,而是指那些可移动的财产(比如服务器)。如果接入那些不允许你接入或使用的财产,就会侵害动产。
其实服务器不仅由,网站管理员非常希望人们使用他们的资源(即接入他们的网站),但同时又不希望资源被过快地消耗掉。多昂贵的组件构成,而且它们还需要空间存放、监控、制冷,以及大量的电力供应。
只有满足下列 3 个条件,网络爬虫的行为才构成侵害动产。

  • 缺少许可。,很多网站的服务协议条款都明确地禁止使用爬虫。
  • 造成实际的损害。如果你的爬虫把网站拖垮了,或者限制了网站为其他用户提供服务的能力,这些都算是你对网站造成的“损害”。
  • 故意而为

如果你违反了服务协议,但并未造成实际的损害,也可能违法,可能你的行为已经违法了版权法、DMCA、《计算机欺诈与滥用法》,或者其他可以处理网络爬虫犯罪行为的法律。

限制你的爬虫,有时候最好让爬虫在午夜运行,而不是在下午或者傍晚运行,原因如下。
1.当时间不怎么紧张的时候,没必要加快爬虫的抓取速度。
2.夜间网站流量可能会少很多,这就意味着你的抓取行为不会影响网站高峰期的运行。
3.可以在爬虫抓取网站的时候睡觉,不必为了看到新信息而不断地翻日志。

若网络爬虫需要遍历几百个小网站收集数据,最好以循环的方式快速地抓取每个网站。可以采用多线程(每个线程抓取一个网站,可以暂停),也可以用Python 列表来跟踪网站。
若网络爬虫需要遍历一个超大型网站,用分布式网络设备抓取。当使用前最好了解对方允不允许这么做。

3.计算机欺诈与滥用法
病毒和蠕虫,是可能导致实际财务损失的严重犯罪事件。故出台了《计算机欺诈与滥用法》。其不只是针对发布病毒的恶意黑客,也对网络爬虫也有很大的影响。
《计算机欺诈与滥用法》定义了 7 种主要犯罪行为。总之,远离那些受保护的计算机,不要接入没有授权的计算机(包括 Web 服务器),尤其要避开政府或财务计算机。

4.robots.txt和服务协议
大多数网站在每页的页脚都有自己的服务协议链接。服务协议不仅包含网络爬虫和自动接入的规则,而且还包括网站收集的信息类型和信息用途,通常还有一条免责声明,表明对网站提供的服务不做任何明示或默示保证。
在任何大型网站上查找 robots.txt 文件,可以在网站根目录 http://website.com/robots.txt 找到。
robots.txt 文件的语法,也称为机器人排除标准。与通常用人类语言宽泛地讨论网络爬虫的服务协议不同,robots.txt 文件可以被自动化程序轻易地解析和使用。
注意以下两点:

  • robots.txt 文件的语法没有标准格式。
  • robots.txt 文件并不是一个强制性约束。它只是说“请不要抓网站的这些内容”。

机器人排除标准的语法很简单。和 Python 等语言一样,注释都是用 # 号开头,用换行符结尾,可以用在文件的任意位置。
文件的第一行非注释内容是 User-agent:,注明具体哪些机器人需要遵守规则。后面是一组规则,要么是 Allow: 要么是 Disallow:,决定了是否允许机器人访问网站的该部分内容。星号(*)是通配符,可以用于 User-agent:,也可以用于 URL 链接中。
如果一条规则后面跟着一个与之矛盾的规则,则按后一条规则执行。
如果你发现一个 robots.txt 文件禁止抓取网站上某个部分的内容,那么基本可以确定网管同意你抓取其他部分的所有内容。
强烈建议你遵守遵照 robots.txt 文件的要求写网络爬虫。

5.3个网络爬虫
(1)eBay起诉Bidder’s Edge侵害其动产
Bidder’s Edge 的公司创造了一种新的拍卖网站。汇总所有网站上关于同一商品的信息。然后其客户就可以很方便地点击最低价的网站去购买。其中 Bidder’s Edge 每天要向 eBay 服务器请求大约 100 000 次,相当于其网站一天总流量的 1.53%,使用了 eBay 太多的资源,导致 eBay 不得不购买更多的服务器,花更多电费,可能还要雇用更多的人进行维护(遭受了经济损失)
(2)美国政府起诉Auernheimer与《计算机欺诈与滥用法》
Auernheimer发现 AT&T 网站有安全漏洞并收集了很多私人邮箱地址包括政府官员、知名人士等,并告诉了某家媒体公司,该公司发布新闻。随后 FBI 搜查 Auernheimer 家,FBI 索要邮箱地址,不过最终以贩毒罪逮捕了他。Auernheimer 随后坐牢且判处高额罚金。
抓取任何敏感信息的时候,无论是个人隐私(本案例中是邮箱地址)、商业秘密还是政府机密,在向律师咨询之前,都不应该行动。即使信息是公开的。
如果你发现了网站的安全隐患,最好的做法就是告诉网站的所有者,而不是媒体。
(3)Field起诉Google:版权和robots.txt
Blake Field 是一名律师,他起诉 Google 违反了版权法,因为当他把自己的书从他的网站上删除之后,Google 还是在搜索引擎里显示了书的副本。版权法允许具有原创性作品的作者 控制作品的发布渠道。但法院认为,根据 DMCA 的安全港条款,Google 可以合法地缓存和显示 Field 的网站::“服务提供商作为中间媒介或临时把材料存储在由其控制或操作的系统或网络上,不应当做出经济赔偿……不应当承受侵犯版权的责任。”

6.勇往直前
Web 一直在不断地变化。那些给我们带来了图像、视频、文字和其他数据文件的计算机技术也在不断地升级和改进。但是,抓取网站内容的基本思路和一般方法是不会改变的。
在网页抓取项目前,问自己几个问题:

  • 我需要回答或要解决的问题是什么?
  • 什么数据可以帮到我?它们都在哪里?
  • 网站是如何展示数据的?我能准确地识别网站代码中包含这一信息的部分吗?
  • 如何定位这些数据并获取它们?
  • 为了让数据更实用,应该做怎样的处理和分析?
  • 怎样才能让抓取过程更好,更快,更稳定?

不仅需要掌握如何使用以往章节内容中介绍的工具,还要知道如何把它们有效地组合起来以解决更大的问题。
在使用自动化技术抓取互联网数据时,其实很少遇到完全无法解决的问题。记住一点就行:互联网其实就是一个用户界面不太友好的超级 API。

18.网页抓取的法律与道德约束相关推荐

  1. 有关网页抓取问题的一些经验总结 - passover【毕成功的博客】 - 51CTO技术博客

    有关网页抓取问题的一些经验总结 - passover[毕成功的博客] - 51CTO技术博客 有关网页抓取问题的一些经验总结 2011-05-05 18:07:38 标签:爬虫 网页抓取 在写爬虫的时 ...

  2. 代理服务器ip地址如何获得_详细教程:如何使用代理服务器进行网页抓取?

    全文共2136字,预计学习时长7分钟 图源:Unsplash 万维网是数据的宝库.大数据的易得性.数据分析软件的迅猛发展以及日益廉价的计算能力进一步提高了数据驱动战略对竞争差异化的重要性. 据Forr ...

  3. 用 WebClient 轻松实现文件下载上传、网页抓取

    我们知道用 WebRequest(HttpWebRequest.FtpWebRequest) 和 WebResponse(HttpWebResponse.FtpWebResponse)可以实现文件下载 ...

  4. ip代理服务器软件25探索云速捷_使用代理进行Web网页抓取的基础

    该全球网络是数据的宝库.大数据的可用性,数据分析软件的迅猛发展以及日益廉价的计算能力,进一步提高了数据驱动型战略对竞争差异化的重要性. 根据Forrester的报告,数据驱动型公司利用其整个组织的洞察 ...

  5. 关于网页抓取的10个误区(最新)

    Amel Majanovic在Unsplash上的照片 1.  网页爬取是非法的 许多人对网页抓取有错误的印象.这是因为有些人不尊重互联网上的出色作品,而是通过窃取内容来使用它.Web爬虫本身并不是非 ...

  6. 使用Google表格进行网页抓取

    Web抓取和利用各种AP​​I是从网站和应用程序收集数据的好方法,这些数据以后可用于数据分析 . 有一家名为HiQ的公司,以网页抓取而闻名. HiQ搜寻各种"公共"网站以收集数据并 ...

  7. 网页抓取表格_使用Google表格进行网页抓取

    网页抓取表格 Web抓取和利用各种AP​​I是从网站和应用程序收集数据的好方法,这些数据以后可用于数据分析 . 有一家名为HiQ的公司,以网页抓取而闻名. HiQ搜寻各种"公共"网 ...

  8. 用TinySpider进行网页抓取实例

    本例中用到的maven坐标变化如下: <dependency> <groupId>org.tinygroup</groupId> <artifactId> ...

  9. python 爬虫动态网页的区别_Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过Selenium模拟浏览器抓取...

    区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...

最新文章

  1. linux shell 数组元素带空格,在bash中解析带有空格的JSON数组
  2. SDUT_1299 最长上升子序列
  3. (chap2 简单的Http协议) HTTP性能优化之持久连接Keep Alive
  4. [CentOS] CentOS 6 IPv6 关闭方法
  5. LeetCode 198 打家劫舍
  6. Eclipse调整tomcat内存大小
  7. [2019杭电多校第四场][hdu6614]AND Minimum Spanning Tree(贪心)
  8. 使用DNSStager在DNS中隐藏Payload
  9. c语言中十进制转化二进制八进制十六进制,十进制转化为二进制八进制十六进制...
  10. java枚举后面括号是什么意思_[Java] Java自定义枚举常量后括号的作用
  11. 如何将分表汇总到总表_如何把多个Excel表格合并到一起,分表变,总表也自动更新?...
  12. Elasticsearch:使用 Filebeat 从 Node.js Web 应用程序提取日志
  13. IP协议 Header Checksum算法
  14. java unicode gbk_java unicode转GBK
  15. fluent日志文件提交服务器计算,利用云服务器计算fluent
  16. 常用数学符号的 LaTeX 表示方法
  17. 使用 工具john 解密
  18. keil勾选了create hex flie还是没有hex文件,求解答
  19. 谷歌:触屏不能代替物理按键
  20. 微信电脑端程序多账号登录

热门文章

  1. 屏蔽泵维修Android通知,屏蔽泵的故障分析与维修
  2. 局部解剖学名词解释及大题
  3. Unity成亮:我们一直在和开发者共建一个开放共赢的平台
  4. 手机进行文字转语音的小妙招,操作简单!小白也能学会
  5. 反激式开关电源次级整流二极管被击穿的原因
  6. 全球及中国卫星产业应用建设布局及投资机会分析报告2021-2027年版
  7. 道路测量xy坐标表示什么_.NET图表控件LightningChart.NET案例研究:智能测量解决方案...
  8. MySQL数据库常用命令与SQL简介(一)
  9. 晶体的切割方式对于晶体频率稳定度的影响
  10. 百思不得姐之图片处理(保存与下载)