搜索引擎蜘蛛及网站robots.txt文件详解[转载]
我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。
对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是TheRobotsMETA标签。
注意:robots.txt写法是否正确对搜索引擎抓取网站至关重要,我们尽量按照标准的格式写语句,否则出现的错误可能会导致搜索引擎不能正常爬行站点;我们可以通过google sitemap中的robots.txt检测工具来检查网站上是否存在robots.txt文件以及该文件写法是否正确
一、robots.txt
1、什么是robots.txt?
robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
网站URL
相应的robots.txt的URL
http://www.w3.org/
http://www.w3.org/robots.txt
http://www.w3.org:80/
http://www.w3.org:80/robots.txt
2、robots.txt的语法
"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL,orNL作为结束符),在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
User-agent:
该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。关于搜索引擎robots的名字,请参考文章"搜索引擎蜘蛛程序名称大全"
禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /
允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件:robots.txt
禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /
只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:
Baiduspider http://www.baidu.com
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
Inktomi Slurp http://www.yahoo.com
FAST-WebCrawler http://www.alltheweb.com
http://www.google.com/robots.txt
http://www.eachnet.com/robots.txt
看看百度的robots.txt:http://www.baidu.com/robots.txt
黑色梦中SEO博客的robots.txt文件:http://www.bloghuman.com/robots.txt
·颠倒了顺序:
错误写成
User-agent: *
Disallow: GoogleBot
正确的应该是:
User-agent:GoogleBot
Disallow: /
·把多个禁止命令放在一行中:
例如,错误地写成
Disallow:/css//cgi-bin//images/
正确的应该是
Disallow:/css/
Disallow:/cgi-bin/
Disallow:/images/
·行前有大量空格
例如写成
Disallow:/cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。
·采用大写
USER-AGENT:EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写,:
User-agent:GoogleBot
Disallow:
·语法中只有Disallow,没有Allow!
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
Allow: /jane/
·忘记了斜杠/
错误的写做:
User-agent: Baiduspider
Disallow: css
正确的应该是
User-agent: Baiduspider
Disallow: /css/
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
follow指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是index和follow,只有inktomi除外,对于它,缺省值是index、nofollow。
需要注意的是:上述的robots.txt和Robots Meta标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。
转载于:https://www.cnblogs.com/study121007/p/4612263.html
搜索引擎蜘蛛及网站robots.txt文件详解[转载]相关推荐
- 搜索引擎蜘蛛及网站robots.txt文件详解
搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提 ...
- robots.txt文件详解
我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理 ...
- Robots.txt 协议详解及使用说明
一.Robots.txt协议 Robots协议,也称为爬虫协议.机器人协议等,其全称为"网络爬虫排除标准(Robots Exclusion Protocol)".网站通过Robot ...
- python怎么读取中文文件-Python中使用不同编码读写txt文件详解
复制代码 代码如下: import os import codecs filenames=os.listdir(os.getcwd()) out=file("name.txt",& ...
- robots.txt文件的作用及写法 (搜索引擎)
robots其实就是指Robots协议,Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过 ...
- Android 中rc文件详解
rc文件详解 转载https://www.cnblogs.com/zhougong/p/8889040.html
- 如何让新网站不被(禁止所有)搜索引擎收录 robots.txt 文件设置
robots.txt文件必须放在网站根目录下 robots.txt文件名小写 指令如下: User-agent: * Disallow: / 此指令代表禁止所有的搜索引擎抓取网站的任何部分.此指令常用 ...
- robots.txt文件里面怎样屏蔽蜘蛛
robots.txt文件,是每个网站都可以用来跟,遵循robots协议的搜索引擎蜘蛛,进行对话的一段代码. 我们先来看一个列子,让搜索引擎抓取所有的内容,代码如下: User-agent: * All ...
- 织梦根目录感染abc.php,织梦SEO优化:织梦dedecms根目录下robots.txt文件设置详解! - 张俊SEO...
对于dedecms这个建站程序,我想大多数站长都曾经用过,他功能之强大,几乎能秒杀一切内容管理系统,而且所有页面都能生成静态的html文件,对于SEO优化也是相当有优势的,说道SEO优势,就不得不提到 ...
- 浅谈Robots.txt文件给网站带来的好处
作为一名web优化职员,我们都很清楚robots.txt文件对我们网站的需要性,Robots.txt文件只不过一个纯文本文件,它就像web地图异样,给搜寻引擎指明线路,当蜘蛛搜索一个站点时,它起首蒲伏 ...
最新文章
- 解决Neither the JAVA_HOME nor the JRE_HOME environment variable is defined问题
- 用Python打造一款文件搜索工具,所有功能自己定义
- colpick-jQuery颜色选择器使用说明
- nginx 入门配置
- C - Insertion Sort Gym - 101955C(2018icpc沈阳/打表找规律)
- 【渝粤题库】国家开放大学2021春1439临床药理学题目
- struct task_struct 结构分析 \linux-1.0\linux\include\linux\sched.h
- 2015电大c语言,2015电大本科C语言程序设计A试题汇总.doc
- java oracle executeupdate 无效_Java语言的品味(三)
- 【Django 2021年最新版教程23】2个日期相减 计算天数 xxxx-xx-xx格式
- android 仿qq it蓝豹,十大Android开源项目-IT蓝豹
- 欢雀HR员工管理系统,轻松搞定员工档案管理!
- php富强民主,给你的网站添加“富强民主”点击特效
- DIV+CSS系统学习:转载
- 豆豆趣事[2016年03月]
- zsh介绍:2: CentOS下使用zsh
- 两种 HTTP 请求方法
- 单例模式和多例模式详解
- asp.net1036-物流管理信息系统#毕业设计
- reportROC 一行代码输出ROC曲线的各项统计数值及ROC曲线
热门文章
- mysql 创建用户并赋予用户权限
- liunx apache 的安装
- springboot 通过@Value读取自定义属性文件变量获取结果为null
- 26. 复杂链表的复制
- 短信转移到另一个手机接收_如何将iPhone手机接收短信同步到另外一台设备上?...
- python os.open禁止写入缓存区_Python-设置文件缓冲类型
- Javascript特效:秒杀倒计时
- c语言课后作业答案第五版第4章,《C语言程序设计》课后习题答案(第四章)
- JAVA中加密算法的简单使用入门
- Guava学习笔记(三):Preconditions优雅的检验参数