豆瓣的robots内容如下:
========================================================
User-agent: *
Disallow: /subject_search
Disallow: /amazon_search
Sitemap: http://www.douban.com/sitemap_index.xml
Sitemap: http://www.douban.com/sitemap_updated_index.xml

User-agent: Slurp
User-agent: Sosospider
Crawl-delay: 5
Visit-time: 0100-1300
Request-rate: 40/1m 0100 - 0759
Request-rate: 12/1m 0800 - 1300

========================================================

下面来解释下含义:

robots.txt文件中各项目的格式为: :
常用的field有Allow, Disallow, Request-rate, Visit-time, User-agent, Robot-version等.robots.txt文件中的注释以'#'开始.可以为独立的一行,也可以一行的后面部分.下面对每一个field,也叫directive进行一一介绍:

1. User-agent: The value of this field is the name of the robot the record is describing access policy for.
例子:User-agent: *
在这里*代表,any robot that has not matched any of the other records

2. Disallow: 指定不能访问我URL
例子: Disallow: /foo.html #foo.html不能访问
Disallow: #该目录下所有URL都可访问
Disallow: / #该目录下所有URL都不可以访问

3. Allow: 用来指定能访问的URL, 这个在当指定所有URL为不可访问,然后可以用这个排除特殊的一些. 这时候比较方便.
例子: Allow: / #允许访问所有URL

>>>> 一般的网站基本用到这些,下面用的就不多了,所以好多人看不懂,一般大型网站用的比较多,大家可以学习下。

4. Robot-version: 用来指定robot协议的版本号
例子: Robot-version: Version 2.0

5.Crawl-delay:雅虎YST一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。

6. Visit-time:只有在visit-time指定的时间段里,robot才可以访问指定的URL,否则不可访问.
例子: Visit-time: 0100-1300 #允许在凌晨1:00到下午13:00访问

7. Request-rate: 用来限制URL的读取频率
例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之间,以每分钟40次的频率进行访问
Request-rate: 12/1m 0800 - 1300 在8:00到13:00之间,以每分钟12次的频率进行访问

另外还有一点:robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
Sitemap: http://czseo.9d88.com/sitemap.xml (此处请填写XML地图的绝对路径,即完整URL,如果按习惯填写Sitemap: /sitemap.xml,提交给Google网站管理员工具后会提示:检测到无效的 Sitemap 网址;语法错误。
XML地图必须在网站根目录下才有效。)

原文地址:http://czseo.9d88.com/1025.html

豆瓣的robots内容分析相关推荐

  1. Python爬虫小偏方:如何用robots.txt快速抓取网站?

    作者 | 王平,一个IT老码农,写Python十年有余,喜欢分享通过爬虫技术挣钱和Python开发经验. 来源 | 猿人学Python 在我抓取网站遇到瓶颈,想剑走偏锋去解决时,常常会先去看下该网站的 ...

  2. python爬取豆瓣书籍_python 爬取豆瓣书籍信息

    继爬取 猫眼电影TOP100榜单 之后,再来爬一下豆瓣的书籍信息(主要是书的信息,评分及占比,评论并未爬取).原创,转载请联系我. 需求:爬取豆瓣某类型标签下的所有书籍的详细信息及评分 语言:pyth ...

  3. python 爬取豆瓣书籍信息

    继爬取 猫眼电影TOP100榜单 之后,再来爬一下豆瓣的书籍信息(主要是书的信息,评分及占比,评论并未爬取).原创,转载请联系我. 需求:爬取豆瓣某类型标签下的所有书籍的详细信息及评分 语言:pyth ...

  4. 写了篇爬虫文章,收到律师函,怎么办

    大家好,我是早起. 从写公众号开始,不论是私信还是交流群,常常都会有粉丝会问出类似下面的问题 xx网站能不能爬? 爬xx数据有没有风险? 其实我并不是爬虫从业人员,充其量算爬虫爱好者,去年也转载过一篇 ...

  5. 第一章 爬虫(认识网络爬虫)

    第一章      认识网络爬虫 1.1 什么是网络爬虫 网络爬虫: 一种按规则,自动请求网站并提取网页数据的程序或脚本 网络爬虫分类(按照系统结构和技术划分): 1.通用网络爬虫 2.聚焦网络爬虫 3 ...

  6. Python爬虫---影评的爬取

    Python爬虫-影评的爬取 介绍:爬虫练手,使用Requests库进行豆瓣影评的爬虫,做成词云图,写文章主要做一些问题解决的记录. 运行环境:python 3.8, Pycharm 关于在豆瓣爬取影 ...

  7. 【Python爬虫】requests库

    文章目录 1.requests库的介绍 2.requests库的基本用法 2.1request访问请求 2.1.2对豆瓣等网址发送请求的问题 2.2robots协议 2.3查看和修改爬虫的头部信息 2 ...

  8. python爬取豆瓣电影top250_Python爬虫 - scrapy - 爬取豆瓣电影TOP250

    0.前言 新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例.所以找了很多实 ...

  9. [爬虫][python][入门][网页源码][百度图片][豆瓣TOP250]

    Robots协议 查看爬取规则 遵守相关法律法规 Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol) ...

最新文章

  1. 用Python抓取某东购买记录并统计MM的bra大小
  2. 1.A+B Problem
  3. tomcat(8)载入器
  4. 安装deepin_deepin使用笔记,安装steam客户端
  5. 加密技术,给邮件安全加上一把锁
  6. 【Angular 4】依赖注入
  7. C#学习基本概念---xcopy(复制文件和目录树)
  8. 【Linux】下载暂停后如何恢复
  9. Java好还是网优好,java和seo哪个好
  10. 我奋斗十八年不是为了和你一起喝咖啡
  11. F. Clear the String (区间DP)
  12. 移动浪潮下,看地推吧如何“霸占”行业新风口
  13. WINZIP压缩文件怎么加密?
  14. 数据可视化,BizCharts图表库入坑历程
  15. 58同城和赶集网要合并了!
  16. OUC暑期培训(深度学习)——第五周学习记录:ShuffleNet EfficientNet 迁移学习
  17. 用Sublime写LaTex
  18. Lucene5搜索效果问题探究
  19. Windows下SVN的Server+Client的安装
  20. P1111 修复公路P1195 口袋的天空

热门文章

  1. 视频聊天开发包的介绍
  2. JWT expired at 2022-04-07T12:06:46Z. Current time: 2022-04-10T19:47:24Z, a difference of 286838865..
  3. 为什么要有Git暂存区
  4. win7原版iso_【JUJUMAO_MSDN系统】Windows 10 1903 64位 五版合一 原版ISO镜像
  5. 计算机学 英文,计算机英语学习
  6. 【人工智能】人脸识别系统【实验报告与全部代码】(QDU)
  7. MCAL中MCU的配置
  8. 使用PyQt5为YoloV5添加界面(一)
  9. 学习笔记-Depth Map Prediction from a Single Image using a Multi-Scale Deep Network
  10. r语言t检验输出检验统计量_R语言的各种检验