robots协议是放在网站根目录下的文本文件,告诉搜索引擎哪些内容是否可以被爬取;
robots协议的作用:
   1)引导搜索引擎蜘蛛爬取指定栏目或内容;
   2)网站改版或者url优化重写时屏蔽对搜索引擎不友好的链接;
   3)屏蔽死链、404错误页面;
   4)屏蔽无意义无内容的页面;
   5)屏蔽重复页;
   6)屏蔽不想被收录的页面;
   7)引导蜘蛛抓取网站地图;
   8)屏蔽网站中较大的文件,图片视频等节约宽带提升速度;

语法及通配符:
   1)User-agent: 定义搜索引擎;
   2)Disallow: 定义禁止蜘蛛爬取的页面或目录;
   3)Allow: 定义允许蜘蛛爬取的页面或目录;
   4)$ 匹配url结尾的字符;
   5)* 匹配0个或多个任意字符;

文件写法:
   1)User-agent: * 这里的代表所有的搜索引擎种类;(谷歌:Googlebot、百度:Baiduspider、MSN:MSNbot、Yahoo:Slurp)

2)Disallow: /admin/ 禁止爬取admin目录下面的所有目录;

3)Disallow: /admin 禁止爬取/admin.html、/adminset.html、/admin/abc.html;

4)Disallow: /admin/.html 禁止爬取admin目录下的所有以html为后缀的文件(包括子目录);

5)Disallow: /? 禁止爬取网站中所有包含问号的网址;

6)Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片;

7)Disallow: /ab/abc.html 禁止爬取ab文件下的abc.html文件;

8)Allow: /abc/ 允许爬取abc目录下的所有目录;

9)Allow: /tmp 允许爬取tmp目录;

10)Allow: .html$ 允许爬取网页以html为后缀的url;

11)Allow: .gif$ 允许抓取网页中gif格式的图片;

12)Sitemap: 网站地图 告诉爬虫这个页面是网站地图;

示例:
1)User-agent: *
Disallow: /admin/
Disallow: /abc/
注:禁止所有的搜索引擎爬取admin和abc目录及子目录;

2)User-agent: *
Allow: /admin/seo/
Disallow: /admin/
注:禁止所有搜索引擎爬取admin目录及子目录,但可以爬取admin目录下的seo
目录;(Allow必须在前面,Disallow写在后)

3)User-agent: *
Disallow: /abc/.htm$
注:禁止所有搜索引擎爬取abc目录及子目录下以.htm为后缀的url;

4)User-agent: *
Disallow: /
?*
注:禁止所有搜索引擎爬取有?的页面;

5)User-agent:Baiduspider
Disallow: /.jpg$
Disallow: /.jpeg$
Disallow: /gif$
Disallow: /png$
Disallow: /.bmp$
注:禁止所有搜索引擎爬取所有图片;

6)User-agent: *
Disallow: /folder1/
User-agent: Mediapartners-Google
Allow: /folder1/
注:禁止所有搜索引擎爬取folder1,但 Mediapartners-Google 漫游器可以在页
面上显示 AdSense 广告;

7)User-agent: *
Disallow: /abc*/
注:禁止所有搜索引擎爬取以abc开头的所有目录及子目录;

其他属性:
1)指定robot协议版本号:
Robot-version: Version 2.0
2)在指定时间段搜索引擎才可以爬取指定url
Visit-time: 0100-1300 允许在凌晨1点到3点之间访问
3)限制url读取频率
Request-rate: 40/1m 0800-1300 在8点到13点之间以每分钟40次的频率访问
Robots meta标签:

   <meta name="Robots" content="all|none|index|noindex|follow|nofollow">

属性说明:
1)all:文件将被检索,且页面上的链接可以被查询;默认为all;

2)none:文件不被检索,且页面上的链接也不可以被检索;

3)index:文件将被检索;

4)follow:页面上的链接可以被检索;

5)noindex:文件不被检索;

6)nofollow:页面上的链接不被检索;

组合运用:

    1)可以抓取本页且可以顺着本页继续索引其他链接<meta name="robots" content="index,follow">也可以写成<meta name="robots" content="all">2)不可以抓取本页但可以顺着本页继续索引其他链接<meta name="robots" content="noindex,follow">3)可以抓取本页但不可以顺着本页继续索引其他链接<meta name="robots" content="index,nofollow">4)不可以抓取本页且不可以顺着本页继续索引其他链接<meta name="robots" content="noindex,nofollow">也可以写成<meta name="robots" content="none">

robots协议文件的几种写法及示例相关推荐

  1. robots.txt文件的作用及写法 (搜索引擎)

    robots其实就是指Robots协议,Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过 ...

  2. Ant 构建文件的一种写法

    BuildDesEncryptor.xml <project name="DesEncryptor" default="execute.class" ba ...

  3. 购物网站及网页小游戏的robots协议

    Robots协议 Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜 ...

  4. robots协议是什么?对网站SEO有什么好处?

    在网站优化中,robots协议一直是优化人员重视的细节,想要网站能够有更高的抓取和排名,此协议也起到很大的作用,那么robots协议是什么呢?它对网站的SEO有什么作用和好处呢?下面一起来了解一下. ...

  5. Robots协议写法教程

    Robots协议的约束力 "Robots的约束力固然仅限于自律,无强制性,但这不等于说它背后反映的精神,没有法律基础."中国社会科学院信息化研究中心秘书长姜奇平表示,美国的电子隐私 ...

  6. 什么是robots协议?网站中的robots.txt写法和作用

    Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...

  7. vue单文件props写法_详解Vue 单文件组件的三种写法

    详解Vue 单文件组件的三种写法 JS构造选项写法 export defaul { data, methods, ...} JS class写法 @Component export default c ...

  8. 在Java中实现SFTP协议文件传输的两种解决方案

    在Java中实现SFTP协议文件传输的两种解决方案 1.1 背景 1.2 关于 FTP /FTPS 1.3 关于SFTP 解决方案一:使用 JSch 库 解决方案二:使用sshj 库 这篇博文来聊聊在 ...

  9. robots.txt文件详解

    我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理 ...

  10. SEO优化 - robots协议

    前言 搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 网站所有者使用/ ...

最新文章

  1. 2022-2028年中国椎间孔镜行业市场研究及前瞻分析报告
  2. 从本机发送信息到另一台服务器上时中文乱码
  3. MKNetwork网络请求过程中onCompletion调用两次的问题
  4. ISOLINUX: A bootloader for Linux using ISO 9660/El Torito CD-ROMs
  5. redis批量删除指定的key
  6. 使用Ecliplse时,对导入package的顺序进行设定
  7. rootfs文件系统的制作(二)
  8. HTML中背景图片如何自适应屏幕
  9. 新疆大学计算机对口支援高校,北大清华领衔对口支援,西藏大学和新疆大学谁的阵容更强大?...
  10. 年度开源盛会 ApacheCon 首发中文盛宴来临,欢迎报名!
  11. 申请苹果开发者账号流程
  12. B - Relatively Prime Graph -CodeForces - 1009D-csdn博客
  13. 【技术贴】Pdf压缩利器--PDFshrink使用教程
  14. 如何抢功,甩锅,立于不败之地???
  15. 自己动手搭建一个简单的基于Hadoop的离线分析系统之一——网络爬虫
  16. std::cunction() 简单描述
  17. Kindle for Android打开本地mobi文件
  18. java 随机姓名_随机组合生成好听的名字(java)
  19. 润物无声因挚爱,育人无痕待花开
  20. linaro公司:交叉编译器 arm-linux-gnueabi 和 arm-linux-gnueabihf 的区别

热门文章

  1. java的副语言_公共表达中,悄悄影响你的“副语言”
  2. 测试小兵成长记:守业容易创业难
  3. c语言编程基础 王森,《C语言编程基础第2版》王森版 习题答案
  4. 廊坊金彩教育:如何提高店铺评分
  5. java集合解析(没学过也能理解)
  6. 专访洪小文:创新的最后一公里是什么?
  7. 测试渲染用什么软件,【2人回答】3DMax2014用的是VRay3.0测试和出图渲染参数怎么设置-3D溜溜网...
  8. pr系统兼容性报告不支持视频驱动程序解决办法
  9. VUE笔记——B站狂神说
  10. 统一通信系统解决方案