前言：网络爬虫也叫做网络机器人，可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代，信息的采集是一项重要的工作，如果单纯靠人力进行信息采集，不仅低效繁琐，搜集的成本也会提高。网络爬虫虽好，但也要遵守相关法律法规，维护网络环境！

目录

一、网络爬虫引发的问题

1.网络爬虫的“性能骚扰”

2.网络爬虫的法律风险

3.网络爬虫的隐私泄露

二、网络爬虫的限制

1.Robots协议

2.Robots协议的遵守方式

三、总结

一、网络爬虫引发的问题

首先我们先对网络爬虫的尺寸，进行分析

小规模，数据量小爬取速度不敏感 Requests库	中规模，数据规模较大爬取速度敏感 Scrapy库	大规模，搜索引擎爬取速度关键定制开发
爬取网页玩转网页	爬取网站爬取系列网站	爬取全网

1.网络爬虫的“性能骚扰”

Web服务器默认接收人类访问，受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销

2.网络爬虫的法律风险

服务器上的数据有产权归属，网络爬虫获取数据后牟利将带来法律风险

3.网络爬虫的隐私泄露

网络爬虫可能具备突破简单访问控制的能力，获得被保护数据，从而泄露个人隐私

二、网络爬虫的限制

有爬虫就有反爬虫，下面是两种常用的限制爬虫的方法

• 来源审查：判断User‐Agent进行限制

检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问

• 发布公告：Robots协议

告知所有爬虫网站的爬取策略，要求爬虫遵守

1.Robots协议

Robots协议是什么？

Robots Exclusion Standard，网络爬虫排除标准

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行（如网页没有robots.txt文件，默认爬虫没有限制）

形式：在网站根目录下的robots.txt文件

下面我们来看两个网站的Robots协议

淘宝的Robots协议
https://uland.taobao.com/robots.txt
User-agent: *
Disallow: /

百度的Robots协议

https://www.baidu.com/robots.txt

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Baiduspider-image
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: YoudaoBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sogou web spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sogou inst spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sogou spider2
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sogou blog
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sogou News Spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sogou Orion spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: ChinasoSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: Sosospider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: yisouspider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: EasouSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bhUser-agent: *
Disallow: /

2.Robots协议的遵守方式

实际操作中，该如何遵守Robots协议？

网络爬虫： 自动或人工识别robots.txt，再进行内容爬取

约束性： Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险

对Robots协议的理解

访问量很小：可以遵守访问量较大：建议遵守	访问量很小：可以遵守访问量较大：建议遵守	必须遵守
爬取网页玩转网页	爬取网站爬取系列网站	爬取全网

原则：类人行为可不参考Robots协议

三、总结

网络爬虫虽好，但我们在使用时要遵守相关的法律法规

网络爬虫的“盗亦有道”相关推荐

【Python爬虫】网络爬虫的“盗亦有道”
python sub 不区分大小写_Python网络爬虫入门篇
1. 预备知识学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. Python入门篇:https://www.cnblo ...
python网络爬虫与信息提取北京理工大学_Python网络爬虫与信息提取（一）
Reference: 第一周网络爬虫之规则单元1:Requests库入门 1-1 Requests库的安装 1-2 Requests库的get()方法 1-3 爬取网页的通用代码框架 1-4 HT ...
Python网络爬虫入门篇---小白必看
1. 预备知识学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求使用 ...
python网络爬虫学习之入门篇
预备知识学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. Python入门篇:https://www.cnblogs. ...
嵩天python爬虫百度云盘_基于MOOC嵩天《Python网络爬虫与信息提取》视频学习记录——第一周：requests库...
1.requests库入门 requests的get( )方法在这里插入图片描述爬取百度网页实例: import requests r = requests.get("http://ww ...
Python网络爬虫与信息提取笔记08-实例2：淘宝商品比价定向爬虫
Python网络爬虫与信息提取笔记01-Requests库入门 Python网络爬虫与信息提取笔记02-网络爬虫之"盗亦有道" Python网络爬虫与信息提取笔记03-Reques ...
python网络爬虫与信息提取嵩天百度网盘_基于MOOC嵩天《Python网络爬虫与信息提取》视频学习记录——第一周：requests库...
1.requests库入门 requests的get( )方法爬取百度网页实例: import requests r = requests.get("http://www.baidu.co ...
python网络爬虫初识_python爬虫（一）初识爬虫
什么是爬虫? 中文名(网络爬虫) 外文名(web crawler) 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程 ...

网络爬虫的“盗亦有道”