在实际操作中我们这样的爬虫该如何遵守robots协议呢?

Robots协议的使用

对于任何网络爬虫来讲,它应该能够自动或人工的识别robots.txt文件,根据文件的内容再进行爬取。

即使不写这样的代码,我们也应该可以打开某一个网站,看一下它的robots协议根据它的规则来进行合理的爬取。

然而robots协议是建议但非约束性的,也就是说网络爬虫可以不遵守robots协议,但是要记住,如果不遵守这个协议,可能存在法律风险。

对Robots协议使用的理解

这里边给出我个人理解。

其实对于任何一个网络爬虫来讲,都应该遵守robots协议。比如爬取全网的搜索引擎的爬虫、爬取某些网站进行商品比价数据获取分析的爬虫、我们爬取某些个别网页的爬虫,这些都应该遵守robots建议。

但是有一种情况可以适度考虑。比如我们写一些小程序,每天只访问服务器几次,并对服务器不造成巨大的资源影响,而这种访问跟人类访问的行为非常类似,这种情况下我们可以不参考robots协议。

因为任何网络网站提供资源,它都是方便人类获取相关的信息。如果你的网络爬虫能够和人类获取相关的信息相依相一致,访问的次数很少,每次访问的内容也不大,在这种情况下原则上可以不遵守Robots协议。

总结

1、网络爬虫会引发很多问题,针对这些问题,互联网设计了Robots协议。

2、Robots协议用基本的简单语法,包括User-agent和Disallow来约定一个网站的内容,哪些可以被爬取哪些不可以。

3、在我们编写网络爬虫的技术范畴内,所有的网络爬虫中都应该遵循robots协议,无论你是自动识别robots协议还是人工来看robots协议。

4、如果你的网络爬虫小到跟人类访问网站方式相类似,那你也可以不遵守,但是要注意你获取的资源,不能进行商业用途。

让我们一起来遵守互联网的网络,爬取资源的基本规则,让互联网可以健康有序的向前发展。

python遵循什么协议_《Python网络爬虫》2.3 Robots协议的遵守方式相关推荐

  1. [Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  2. c#使用正则表达式获取TR中的多个TD_[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例...

    首先祝大家中秋节和国庆节快乐,欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都 ...

  3. [Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解(定位元素、常用方法、键盘鼠标操作)

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  4. [Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  5. python数据抓取技术与实战训练_师傅带徒弟学Python:项目实战1:网络爬虫与抓取股票数据...

    本视频基于**Python 3.X版本 本视频课程是第四篇第一个实战项目,内容包括网络爬虫技术.使用urllib爬取数据.使用Selenium爬取数据.使用正则表达式.使用BeautifulSoup库 ...

  6. python网页数据存入数据库_python网络爬虫抓取动态网页并将数据存入数据库MySQL...

    简述 以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网 ...

  7. python学习笔记分享(四十)网络爬虫(7)反爬虫问题,解决中文乱码,登陆和验证码处理

    网络爬虫深度知识 一.反爬虫问题 (一)反爬虫原因 1.网络爬虫浪费了网站的流量 2.数据是私有资源 3.爬虫协议与原则 (二)反爬虫方式 (三)反反爬虫 1.原理 2.三种方法 二.解决中文乱码 ( ...

  8. Python学习——(2)通过网络爬虫获取数据

    通过网络爬虫获取数据 1. 和爬虫有关的HTTP ​ HTTP是网络数据通信的基础.在本节中会围绕Python网络爬虫讲述常用HTTP知识点. 1.1 基于HTTP的请求处理流程 ​ 当用户在浏览器的 ...

  9. 【Python】第十二课 网络爬虫

    本章主要讲的是基于Python语言的数据采集,该功能要讲起来可以单独作为一门课程来学习,因为这是一门很重要的课程,一般运用在大数据处理和人工智能上,该应用提供大量的数据. 12.1 urllib模块的 ...

  10. 以下用于数据存储领域的python第三方库是-南开《网络爬虫与信息提取》19秋期末考核题目【标准答案】...

    <网络爬虫与信息提取>19秋期末考核-0001 试卷总分:100 得分:70 一.单选题 (共 20 道试题,共 40 分) 1.如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行 ...

最新文章

  1. java 数据结构 无向图_数据结构-无向图
  2. ​两院院士评选“2021年中国/世界十大科技进展新闻”揭晓
  3. c++顺序容器vector用法
  4. JAVA服务治理实践之无侵入的应用服务监控--转
  5. c语言多个形参,C中子函数最多有几个形参
  6. mac破解wifi密码
  7. mysql中b树是什么_MySQL优化中B树索引知识点总结
  8. YARN作业提交流程剖析
  9. xshell中文问号乱码
  10. 混沌工程-为什么推广的如此困难
  11. Tableau——方向图标的应用
  12. 免费的pdf转word工具
  13. 织梦php开发tags功能开发,织梦全网最新联动筛选功能的实现(单选和多选)可显示分类的文章...
  14. python中怎么输入正斜杠,详解Python中的正斜杠与反斜杠
  15. mysql5.7增加ssl认证(1)
  16. (洛谷刷题)P1830 轰炸机III
  17. 手机怎样和宽带连接无线路由器设置路由器连接服务器,怎么用手机设置无线路由器...
  18. 【重庆】openGauss Meetup | 倒计时2天
  19. LeetCode刷题——快慢指针
  20. 阿里 oracle 时间戳,阿里巴巴的骄傲,合伙人刘振飞回忆,OceanBase十年时间登上巅峰...

热门文章

  1. c语言最小点对问题_7.4 图的连通性问题
  2. 2019级软件1班安卓实训总结
  3. 安卓学习笔记33:实现逐帧动画
  4. Spring框架学习笔记05:Spring AOP基础
  5. 【BZOJ3524】Couriers,第一次的主席树
  6. 【OJ8462】大盗阿福
  7. iic总线从机仲裁_IIC协议底层原理超详细解析!示波器,逻辑分析仪多图预警
  8. 【英语学习】【Level 08】U02 Movie Time L2 In black and white
  9. 【英语学习】【English L06】U05 Appointments L1 Can I book a taxi to the airport?
  10. java ini_java读取ini格式的文件