技术无罪?江湖传言,互联网上50%以上的流量都是由爬虫创造的,很多人都表示:无爬虫就无互联网的繁荣。也正因为此,网上各种爬虫教程风靡不绝,惹各路大神小白观之参与之。但是,无节制的背后往往隐藏着风险,类似“只因写了一段爬虫,公司200多人被抓!”、“程序员爬虫竟构成犯罪?”等报道也时有发生。关于爬虫合法性的讨论,CSDN也在此前的《爬虫到底违法吗?这位爬虫工程师给出了答案》、《不要在爬虫犯罪的边缘疯狂试探!》等文章中进行了探讨——但是,关于爬虫的争论一直甚嚣尘上。

近日,美国法院驳回 LinkedIn 针对分析公司 HiQ 抓取其数据的申诉一事件,似乎又为网络爬虫的自由添砖加了瓦。决议表明:任何可公开获得且未经版权保护的数据都可供抓取!可以说,这是数据隐私和数据监管时代的历史性时刻。那么,作为开发者的你,如何看到这一事件呢?关于爬虫的风险性又该怎么定论?

作者 | Tom Waterman

整理 | 弯月,责编 | 郭芮

出品 | CSDN(ID:CSDNnews)

以下为译文:

2019年末,美国上诉法院驳回了 LinkedIn 针对分析公司 HiQ 抓取其数据的申诉。

这项决议是数据隐私和数据监管时代的历史性时刻。这项决议表明,任何可公开获得且未经版权保护的数据都可供网络爬虫自由抓取。

但是抓取数据的商业用途仍然有限

然而,这项决议并没有授予 HiQ 或其他网络爬虫将抓取获得的数据用于商业目的的自由。

例如,网络爬虫可以在 YouTube 上搜索视频标题,但由于这些视频已获得版权,因此不可以将 YouTube 视频转发到自己的网站上。

一般来说,无论你以何种方式获取数据,数据(包括视频或音乐之类的媒体文件数据)的版权依然有效。

某些形式的网页爬虫仍然是非法的

这项决议也没有赋予网络爬虫自由地从需要身份验证的站点获取数据的权利。

例如,根据规定网络爬虫不可以登录到 Facebook 并下载用户的数据。

该规则不包括那些要求用户在认证之前必须同意使用条款的网站,因为通常这些服务条款都会禁止诸如自动收集数据之类的活动。

但是,由于公开站点无法要求用户在访问数据之前同意任何服务条款,因此用户可以自由使用网络爬虫程序从站点收集的数据。

各个网站仍然可以使用技术来限制网络爬虫

尽管如今各个公司不太可能通过法律途径应对网络爬虫程序,但他们仍然可以通过其他方式限制网络爬虫。

例如,各个网站可以使用“限速”等技术来防止爬虫程序一次下载太多网页。此外,各个网站还可以使用 CAPTCHA 等技术来测试是用户还是网络爬虫正在请求该页面。

这些技术通常用于防止恶意机器人导致网站超载,引起网站崩溃。但是,这些技术也可以广泛用于限制网络爬虫的自动抓取。

LinkedIn可能会进一步上诉

尽管美国上诉法院驳回了LinkedIn的请求,但他们可能还有最后一步棋:向美国最高法院提出上诉。

美国最高法院有权推翻上诉法院的判决,而且还可以撤销网络爬虫公开使用非版权数据的合法化。但是,并非所有上诉至最高法院的决定都能得到实际的审查。

但是,我们仍然可以认为最高法院很可能会审查本案的裁决。毕竟数据政策和相关的隐私问题是相对较新的法律,而且会对 LinkedIn 等公司产生重大的商业影响。

原文:https://towardsdatascience.com/web-scraping-is-now-legal-6bf0e5730a78

作者:Tom Waterman,数据科学家@Facebook。

Web 爬虫现已合法?相关推荐

  1. 5 个用 Python 编写 web 爬虫的方法

    用户代理 你需要关心的第一件事是设置用户代理. 用户代理是用户访问的工具,并告知服务器用户正在使用哪个网络浏览器访问网站. 如果未设置用户代理,许多网站不会让你查看内容. 如果你正在使用rquests ...

  2. 用python写一个简单的爬虫_Python实现简易Web爬虫详解

    编辑推荐: 本文主要介绍了Python实现简易Web爬虫详解,希望对大家有帮助. 本文来自于脚本之家 ,由火龙果软件Alice编辑,推荐. 简介: 网络爬虫(又被称为网页蜘蛛),网络机器人,是一种按照 ...

  3. 识别User Agent屏蔽一些Web爬虫防采集

    识别User Agent屏蔽一些Web爬虫防采集 from:https://jamesqi.com/%E5%8D%9A%E5%AE%A2/%E8%AF%86%E5%88%ABUser_Agent%E5 ...

  4. [译] Web 爬虫下的 Python 数据分析:中情局全球概况图解

    原文地址:Data Analytics with Python by Web scraping: Illustration with CIA World Factbook 原文作者:Tirthajyo ...

  5. 玩C一定用得到的19款Java开源Web爬虫

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕 ...

  6. 第三百二十六节,web爬虫,scrapy模块,解决重复ur——自动递归url

    第三百二十六节,web爬虫,scrapy模块,解决重复url--自动递归url 一般抓取过的url不重复抓取,那么就需要记录url,判断当前URL如果在记录里说明已经抓取过了,如果不存在说明没抓取过 ...

  7. 使用实体框架核心和C#创建具有Dotnet核心的自定义Web爬虫程序

    目录 介绍 背景 爬虫的基础知识 一步一步开发DotnetCrawler eShopOnWeb Microsoft 项目使用示例 Visual Studio解决方案的项目结构 DotnetCrawle ...

  8. layui第三方插件引入_插件分享 | 可以进行web爬虫的Xray插件(文章末尾有福利)...

    前言:Xray有多香想必大家应该是知道的(上星期在做某演练的时候就用Xray扫到了不少洞).所以,当时看见Github上有联动Xray的需求,就尝试着写了此插件.本次讲的会稍微仔(啰)细(嗦)一点,希 ...

  9. Web 爬虫 Apache Nutch 1.15 发布,支持 Java 10

    Apache Nutch 1.15 已发布.Nutch是一个成熟的.可用于生产的 Web 爬虫. Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有 ...

最新文章

  1. Linux下安装数据库
  2. centos安装及网络配置
  3. G - IP地址转换
  4. Velodyne收购高清地图公司 将研发更安全的ADAS系统
  5. Java编程中写出好代码的建议(转发)
  6. 20201010《近代数学》第1节课 笔记
  7. 计算机课Word自我介绍,第5课 用WORD写篇自我介绍.doc
  8. php 5.6.29,源码编译安装PHP 5.6.29
  9. ROS 教程之 network:多台计算机之间网络通信(2)
  10. linux NTP服务
  11. 新浪微博 sso 登录 iOS遇到的几个问题
  12. 帮您管好云:阿里云混合云管理平台发布 | 凌云时刻
  13. Spring+SpringMVC+MongoDB案例
  14. 在PGConf.Asia-中文技术论坛,聆听腾讯云专家对数据库技术的深度理解
  15. itunes显示无法更新服务器失败怎么办啊,iTunes更新时出错怎么办?iTunes更新时出错的解决方法...
  16. 2022年最佳WordPress企业主题
  17. Maven有哪些优点和缺点
  18. Console口和Telnet远程登陆
  19. Wireshark: Getting Started
  20. 2021年焊工(初级)考试报名及焊工(初级)实操考试视频

热门文章

  1. mysql 中if(),left(),right(),with rollup的用法
  2. HDU.1009 FatMouse' Trade
  3. [论文阅读] Boosting Salient Object Detection with Transformer-based Asymmetric Bilateral U-Net
  4. Windows安装pytorch-cpu
  5. leetcode python3 简单题189. Rotate Array
  6. PyQt5的QAction多次响应triggered信号的处理方式
  7. 剑指Offer值数字在排序数组中出现的次数
  8. 剑指Offer之整数中1出现的次数(从1到n整数中1出现的次数)
  9. 内置炊具行业调研报告 - 市场现状分析与发展前景预测
  10. 中国机载预警雷达市场趋势报告、技术动态创新及市场预测