python遵循什么协议_《Python网络爬虫》2.3 Robots协议的遵守方式
在实际操作中我们这样的爬虫该如何遵守robots协议呢?
Robots协议的使用
对于任何网络爬虫来讲,它应该能够自动或人工的识别robots.txt文件,根据文件的内容再进行爬取。
即使不写这样的代码,我们也应该可以打开某一个网站,看一下它的robots协议根据它的规则来进行合理的爬取。
然而robots协议是建议但非约束性的,也就是说网络爬虫可以不遵守robots协议,但是要记住,如果不遵守这个协议,可能存在法律风险。
对Robots协议使用的理解
这里边给出我个人理解。
其实对于任何一个网络爬虫来讲,都应该遵守robots协议。比如爬取全网的搜索引擎的爬虫、爬取某些网站进行商品比价数据获取分析的爬虫、我们爬取某些个别网页的爬虫,这些都应该遵守robots建议。
但是有一种情况可以适度考虑。比如我们写一些小程序,每天只访问服务器几次,并对服务器不造成巨大的资源影响,而这种访问跟人类访问的行为非常类似,这种情况下我们可以不参考robots协议。
因为任何网络网站提供资源,它都是方便人类获取相关的信息。如果你的网络爬虫能够和人类获取相关的信息相依相一致,访问的次数很少,每次访问的内容也不大,在这种情况下原则上可以不遵守Robots协议。
总结
1、网络爬虫会引发很多问题,针对这些问题,互联网设计了Robots协议。
2、Robots协议用基本的简单语法,包括User-agent和Disallow来约定一个网站的内容,哪些可以被爬取哪些不可以。
3、在我们编写网络爬虫的技术范畴内,所有的网络爬虫中都应该遵循robots协议,无论你是自动识别robots协议还是人工来看robots协议。
4、如果你的网络爬虫小到跟人类访问网站方式相类似,那你也可以不遵守,但是要注意你获取的资源,不能进行商业用途。
让我们一起来遵守互联网的网络,爬取资源的基本规则,让互联网可以健康有序的向前发展。
python遵循什么协议_《Python网络爬虫》2.3 Robots协议的遵守方式相关推荐
- [Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- c#使用正则表达式获取TR中的多个TD_[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例...
首先祝大家中秋节和国庆节快乐,欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都 ...
- [Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解(定位元素、常用方法、键盘鼠标操作)
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- [Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- python数据抓取技术与实战训练_师傅带徒弟学Python:项目实战1:网络爬虫与抓取股票数据...
本视频基于**Python 3.X版本 本视频课程是第四篇第一个实战项目,内容包括网络爬虫技术.使用urllib爬取数据.使用Selenium爬取数据.使用正则表达式.使用BeautifulSoup库 ...
- python网页数据存入数据库_python网络爬虫抓取动态网页并将数据存入数据库MySQL...
简述 以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网 ...
- python学习笔记分享(四十)网络爬虫(7)反爬虫问题,解决中文乱码,登陆和验证码处理
网络爬虫深度知识 一.反爬虫问题 (一)反爬虫原因 1.网络爬虫浪费了网站的流量 2.数据是私有资源 3.爬虫协议与原则 (二)反爬虫方式 (三)反反爬虫 1.原理 2.三种方法 二.解决中文乱码 ( ...
- Python学习——(2)通过网络爬虫获取数据
通过网络爬虫获取数据 1. 和爬虫有关的HTTP HTTP是网络数据通信的基础.在本节中会围绕Python网络爬虫讲述常用HTTP知识点. 1.1 基于HTTP的请求处理流程 当用户在浏览器的 ...
- 【Python】第十二课 网络爬虫
本章主要讲的是基于Python语言的数据采集,该功能要讲起来可以单独作为一门课程来学习,因为这是一门很重要的课程,一般运用在大数据处理和人工智能上,该应用提供大量的数据. 12.1 urllib模块的 ...
- 以下用于数据存储领域的python第三方库是-南开《网络爬虫与信息提取》19秋期末考核题目【标准答案】...
<网络爬虫与信息提取>19秋期末考核-0001 试卷总分:100 得分:70 一.单选题 (共 20 道试题,共 40 分) 1.如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行 ...
最新文章
- java 数据结构 无向图_数据结构-无向图
- ​两院院士评选“2021年中国/世界十大科技进展新闻”揭晓
- c++顺序容器vector用法
- JAVA服务治理实践之无侵入的应用服务监控--转
- c语言多个形参,C中子函数最多有几个形参
- mac破解wifi密码
- mysql中b树是什么_MySQL优化中B树索引知识点总结
- YARN作业提交流程剖析
- xshell中文问号乱码
- 混沌工程-为什么推广的如此困难
- Tableau——方向图标的应用
- 免费的pdf转word工具
- 织梦php开发tags功能开发,织梦全网最新联动筛选功能的实现(单选和多选)可显示分类的文章...
- python中怎么输入正斜杠,详解Python中的正斜杠与反斜杠
- mysql5.7增加ssl认证(1)
- (洛谷刷题)P1830 轰炸机III
- 手机怎样和宽带连接无线路由器设置路由器连接服务器,怎么用手机设置无线路由器...
- 【重庆】openGauss Meetup | 倒计时2天
- LeetCode刷题——快慢指针
- 阿里 oracle 时间戳,阿里巴巴的骄傲,合伙人刘振飞回忆,OceanBase十年时间登上巅峰...
热门文章
- c语言最小点对问题_7.4 图的连通性问题
- 2019级软件1班安卓实训总结
- 安卓学习笔记33:实现逐帧动画
- Spring框架学习笔记05:Spring AOP基础
- 【BZOJ3524】Couriers,第一次的主席树
- 【OJ8462】大盗阿福
- iic总线从机仲裁_IIC协议底层原理超详细解析!示波器,逻辑分析仪多图预警
- 【英语学习】【Level 08】U02 Movie Time L2 In black and white
- 【英语学习】【English L06】U05 Appointments L1 Can I book a taxi to the airport?
- java ini_java读取ini格式的文件