Robots Text File Robots.txt

robots.txt是一套指示搜索引擎(蜘蛛)如何抓取你的网页内容的一张地图,他告诉蜘蛛哪些需要抓取,哪些不要抓取(当然,这只是针对那些遵守这个协定的搜索引擎)。robots.txt文件必须存放在网站的根目录下。

robots.txt中包括两部分主要内容:

User-agent:*

Disallow:

User-agent代表搜索引擎,可以指定特定的搜索引擎,星号表示所有;

Disallow,如果用不带/路径表示搜索引擎可以索引整个文件夹,如果带了/则表示对文件夹下的所有内容都不进行索引;

例如:/private/表示对于private文件夹下的所有内容不进行索引,/pulic表示索引所有public下的内容;

两种robots.txt的典型用法:

一、对所有搜索引擎完全开放:

User-agent:*

Disallow:

二、对所有搜索引擎关闭:

User-agent:*

Disallow:/

Robots Meta Tag

对于不能上传Robots.txt文件的用户,我们仍可以通过Robots Meta Tag来实现对于搜索引擎的屏蔽。

<meta name="robots" content="robots-term" />

robots-term是一系列逗号分隔的字符,主要有以下几个值:noindex,nofollow,index,follow,all

下面来简单解释一下各自的含义:

noindex:搜索引擎不会为页面建立索引,但是允许页面上的链接被追踪;

nofollow:搜索引擎不会追踪页面中的链接,但是允许搜索引擎收录该页面;

index:搜索引擎将把该页面加入到搜索服务中;

follow:搜索引擎会从该页面去查找其他的页面;

all:搜索引擎会执行上面两种操作;

如果Meta标签缺失,或者robots-term没有指定明确的值,那么默认是index,follow,如果在meta中指定了all,那么其他的所有值都将被覆盖,不管all出现在什么位置

最后,再贴一个比较规范的robots.txt来,以供学习:

# robots.txt for http://www.SEOConsultants.com/
# Last modified: 2008-10-19T02:30:00-0700

User-agent: googlebot
Disallow: /js/
Disallow: /webservices/

User-agent: slurp
Disallow: /js/
Disallow: /webservices/

User-agent: msnbot
Disallow: /js/
Disallow: /webservices/

User-agent: teoma
Disallow: /js/
Disallow: /webservices/

User-agent: Mediapartners-Google*
Disallow:

User-agent: *
Disallow: /

Robots.txt和Robots META相关推荐

  1. robots.txt 指定 Sitemap 和robots Meta标签

    robots.txt 指定 Sitemap 和robots Meta标签 robots.txt 指定 Sitemap 和robots Meta标签 http://www.mp322.com/robot ...

  2. robots.txt文件详解

    我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理 ...

  3. Robots.txt 协议详解及使用说明

    一.Robots.txt协议 Robots协议,也称为爬虫协议.机器人协议等,其全称为"网络爬虫排除标准(Robots Exclusion Protocol)".网站通过Robot ...

  4. robots.txt介绍

    robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的. ...

  5. robots.txt

    Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...

  6. 怎样写robots.txt实例

    资料一 1.robots.txt文件是什么 robots.txt是一个纯文本文件,是搜索引擎中访问网站的时候要查看的第一个文件.robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的.每 ...

  7. 搜索引擎蜘蛛及网站robots.txt文件详解

    搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提 ...

  8. robots.txt文件的解析及过滤

    什么是robots.txt文件? robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎 ...

  9. robots.txt网站爬虫文件设置

    目录: 什么是robots.txt robots.txt使用误区 robots.txt使用技巧 什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件.Robo ...

最新文章

  1. NLP深度学习:近期趋势概述
  2. fragment+viepager 的简单暴力的切换方式
  3. python 查看字符编码,[Python]判断系统编码和字符编码chardet
  4. java ssm常用注解_SSM框架中常用的注解
  5. arcscene如何显示标注_ArcGIS中标注(label)的使用技巧
  6. C语言Stock span 库存跨度问题(附完整源码)
  7. 基于 Spring Cloud 完整的微服务架构实战
  8. 使用linux内核编译独立系统,编译linux内核以及depmod的使用
  9. Python序列类型常用函数练习:enumerate() reversed() sorted() zip()
  10. C# 系统服务 删除后禁用 ,删除不彻底;删除后无法重装问题解决方案
  11. SharePoint2013更改网站集端口方法
  12. 通过寄生组合式继承创建js的异常类
  13. 爬虫日记(71):用OCR来对抗字体反爬
  14. Pandas速查中文手册
  15. Contest2973 - 2021秋组队训练赛第十二场 问题 M: Cook Pancakes!
  16. lucene in ation 第三章(1) sear…
  17. django实现腾讯云短信sdk和redis缓存服务,手机号验证码登录,未注册直接注册登录
  18. 仿今日头条后台管理系统(二)
  19. 智慧医院从建设智慧病房开始
  20. arcgis android 天地图,Arcgis runtime for Android 100.5 加载天地图

热门文章

  1. ubuntu——安装和NS3
  2. Java排序算法之归并排序
  3. 124. Binary Tree Maximum Path Sum
  4. 马云牛啊 从骑自行车到坐迈巴赫只用20年
  5. 【转】Linux awk命令详解
  6. VC中读写ini文件
  7. 《软件开发性能优化系列》之主键、索引设计
  8. 使用流程引擎整体解决方案
  9. #2006 - MySQL server has gone away 问题解决方法 (全) (转)
  10. 异常: java.security.InvalidKeyException: Illegal key size