Robots.txt和Robots META
Robots Text File Robots.txt
robots.txt是一套指示搜索引擎(蜘蛛)如何抓取你的网页内容的一张地图,他告诉蜘蛛哪些需要抓取,哪些不要抓取(当然,这只是针对那些遵守这个协定的搜索引擎)。robots.txt文件必须存放在网站的根目录下。
robots.txt中包括两部分主要内容:
User-agent:*
Disallow:
User-agent代表搜索引擎,可以指定特定的搜索引擎,星号表示所有;
Disallow,如果用不带/路径表示搜索引擎可以索引整个文件夹,如果带了/则表示对文件夹下的所有内容都不进行索引;
例如:/private/表示对于private文件夹下的所有内容不进行索引,/pulic表示索引所有public下的内容;
两种robots.txt的典型用法:
一、对所有搜索引擎完全开放:
User-agent:*
Disallow:
二、对所有搜索引擎关闭:
User-agent:*
Disallow:/
Robots Meta Tag
对于不能上传Robots.txt文件的用户,我们仍可以通过Robots Meta Tag来实现对于搜索引擎的屏蔽。
<meta name="robots" content="robots-term" />
robots-term是一系列逗号分隔的字符,主要有以下几个值:noindex,nofollow,index,follow,all
下面来简单解释一下各自的含义:
noindex:搜索引擎不会为页面建立索引,但是允许页面上的链接被追踪;
nofollow:搜索引擎不会追踪页面中的链接,但是允许搜索引擎收录该页面;
index:搜索引擎将把该页面加入到搜索服务中;
follow:搜索引擎会从该页面去查找其他的页面;
all:搜索引擎会执行上面两种操作;
如果Meta标签缺失,或者robots-term没有指定明确的值,那么默认是index,follow,如果在meta中指定了all,那么其他的所有值都将被覆盖,不管all出现在什么位置
最后,再贴一个比较规范的robots.txt来,以供学习:
# robots.txt for http://www.SEOConsultants.com/ # Last modified: 2008-10-19T02:30:00-0700 User-agent: googlebot Disallow: /js/ Disallow: /webservices/ User-agent: slurp Disallow: /js/ Disallow: /webservices/ User-agent: msnbot Disallow: /js/ Disallow: /webservices/ User-agent: teoma Disallow: /js/ Disallow: /webservices/ User-agent: Mediapartners-Google* Disallow: User-agent: * Disallow: /
Robots.txt和Robots META相关推荐
- robots.txt 指定 Sitemap 和robots Meta标签
robots.txt 指定 Sitemap 和robots Meta标签 robots.txt 指定 Sitemap 和robots Meta标签 http://www.mp322.com/robot ...
- robots.txt文件详解
我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理 ...
- Robots.txt 协议详解及使用说明
一.Robots.txt协议 Robots协议,也称为爬虫协议.机器人协议等,其全称为"网络爬虫排除标准(Robots Exclusion Protocol)".网站通过Robot ...
- robots.txt介绍
robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的. ...
- robots.txt
Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...
- 怎样写robots.txt实例
资料一 1.robots.txt文件是什么 robots.txt是一个纯文本文件,是搜索引擎中访问网站的时候要查看的第一个文件.robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的.每 ...
- 搜索引擎蜘蛛及网站robots.txt文件详解
搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提 ...
- robots.txt文件的解析及过滤
什么是robots.txt文件? robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎 ...
- robots.txt网站爬虫文件设置
目录: 什么是robots.txt robots.txt使用误区 robots.txt使用技巧 什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件.Robo ...
最新文章
- NLP深度学习:近期趋势概述
- fragment+viepager 的简单暴力的切换方式
- python 查看字符编码,[Python]判断系统编码和字符编码chardet
- java ssm常用注解_SSM框架中常用的注解
- arcscene如何显示标注_ArcGIS中标注(label)的使用技巧
- C语言Stock span 库存跨度问题(附完整源码)
- 基于 Spring Cloud 完整的微服务架构实战
- 使用linux内核编译独立系统,编译linux内核以及depmod的使用
- Python序列类型常用函数练习:enumerate() reversed() sorted() zip()
- C# 系统服务 删除后禁用 ,删除不彻底;删除后无法重装问题解决方案
- SharePoint2013更改网站集端口方法
- 通过寄生组合式继承创建js的异常类
- 爬虫日记(71):用OCR来对抗字体反爬
- Pandas速查中文手册
- Contest2973 - 2021秋组队训练赛第十二场 问题 M: Cook Pancakes!
- lucene in ation 第三章(1) sear…
- django实现腾讯云短信sdk和redis缓存服务,手机号验证码登录,未注册直接注册登录
- 仿今日头条后台管理系统(二)
- 智慧医院从建设智慧病房开始
- arcgis android 天地图,Arcgis runtime for Android 100.5 加载天地图