要使得网站能被百度收录特定页面,robots文件发挥着重要作用,甚至一定层面上影响着网站优化和SEO策略。那么robots文件是不是一定要放在网站的根目录下面呢?

【Robots文件的作用】
一般搜索引擎蜘蛛会优先访问网站内部的robots文件,根据文件内设置的规则不再去抓取那些你像要屏蔽的网页网址。
1、保护我们网站的隐私内容,避免蜘蛛爬取收录我们不想展现给别人看的页面,表面透露隐私内容。例如:网站管理后台、用户数据、管理员信息等。
2、我们可以利用好robots文件来做好网站的SEO优化工作,比如清理网站死链的时候可以把死链接写进robots文件,再或者可以将网站地图写进robots方便爬虫一次性抓取网站内容等等。
3、可以减轻服务器压力。我们通过Robots协议可以让蜘蛛只抓取一部分页面,避免蜘蛛胡乱抓取一些没用的页面,占用服务器资源。
4、正确的Robots协议会提升整站质量,促使快速收录排名,从而提高网站权重。配图:robots文件只能放在网站根目录吗?

Robots文件知多少

robots其实我们可以理解为是网站和搜索引擎爬虫之间的协议,用txt格式文本告知对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。比如当百度搜索引擎蜘蛛访问某站点时,蜘蛛会首先检查该站点根目录下是否存在robots.txt,如果存在,蜘蛛搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛其实都能够访问网站上所有没有被口令保护的页面。Robots文件格式:
User-agent:
User-agent的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为,则该协议对任何机器人均有效,在"robots.txt"文件中,"User-agent:"这样的记录只能有一条。
Disallow:
Disallow的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被robot访问到。例如"Disallow:/help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow:/help/"则允许robot访问/help.html,而不能访问/help/index.html。任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。
Allow:
该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。例如"Allow:/hibaidu"允许robots访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。
需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。
"*"和"$":
robots支持使用通配符"*"和"$"来模糊匹配url:
"$" 匹配行结束符。
"*" 匹配0或多个任意字符。细节注意点:在书写robots时候,应用英文状态下的冒号,并且冒号后面必须有一个英文状态下的空格。

常见robots写法

禁止蜘蛛抓取网站所有内容
User-agent: *
Disallow: /
允许蜘蛛抓取网站所有内容
User-agent: *
Disallow:
禁止抓取动态URL:
User-agent: *
Disallow: ?
禁止抓取js文件
User-agent: *
Disallow: *.js$
添加网站地图:
User-agent: *
Sitemap: https://www.letus.top/sitemap.xml
注:
1、百度并不会严格遵守robots协议
2、搜索引擎中需要在后台进行验证robots文件

【实例说明】

以Wordpress网站的robots文件为例

User-agent: *

User-agent代表的是搜索引擎蜘蛛的名字,一般常用的是*,代表通配,换句话说就是该协议对所有搜索引擎蜘蛛都有用;
Disallow指不允许访问的对象,比如某一个css、js、图片、视频、文件夹等,Disallow: /inc/代表的就是不允许搜索引擎蜘蛛爬行抓取inc文件夹下的所有文件;
Allow指允许搜索引擎蜘蛛访问的路径,Allow: /uqseo代表的是带有uqseo的文件或文件夹 ;
Sitemap指本站的地图,一般为.xml或.txt格式的地址,值得注意的是这里一定要写绝对地址。

robots只能放根目录?

其实网站的robots文件、网站地图Sitemap都是放在根目录下的,也便于搜索引擎蜘蛛机器人爬取!
前文徐伟轩博客也带大家了解了,robots文件就是针对搜索引擎蜘蛛的一种协议(有些蜘蛛不一定会遵守),搜索引擎蜘蛛进入网站都是先从网站根目录,所以robots协议也只有在根目录的时候才有效,而且需要注意的是robots文件的命名必须是robots.txt,只能用小写字母。

而对于网站主域名下有多个2级域名的时候,应该是每一个二级域名都有自己独立的robots文件和sitemap!
当搜索引擎spider访问咱们博客网站http://www.letus.top时,首先会检查该网站中是否存在http://www.letus.top/robots.txt,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围了。配图:网站SEO运营
所以,如果您注重网站优化,关心SEO策略,并且想让您的网站真正发挥作用的话,网站的robots文件至少得有,而且得花个10分钟研究并且写好吧?

▼更多精彩推荐,请关注我▼不只关注互联网

博客地址:https://www.letus.top

js文件 格式_robots文件只能放在网站根目录吗?相关推荐

  1. 在哪里搜python题_robots文件生成

    Robots.txt 是存放在站点根目录下的一个纯文本文件.虽然它的设置很简单,但是作用却很强大.它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容. 使用方法: ...

  2. (26)ESLint一JS代码格式校验

    一.什么是代码格式 代码格式即为代码风格,每个程序员再开发的时候,书写代码的风格都是不一样的,比如说,有的人喜欢书写字符串时用双引号,有的喜欢用单引号,有的再书写标签代码缩进时,喜欢用2个空格,有的喜 ...

  3. html获取文件路径_HTML 文件路径

    路径描述 picture.jpg 位于与当前网页相同的文件夹 picture.jpg 位于当前文件夹的 images 文件夹中 picture.jpg 当前站点根目录的 images 文件夹中 pic ...

  4. phpstudy2018修改网站根目录以及本地域名访问配置方法

    phpstudy2018此版本修改网站根目录和之前版本还是有一定的区别,区别就是之前的版本只需要修改apache中的http.conf文件就可以而2018版本还需要修改vhosts文件配置. 不过我们 ...

  5. 抓取国家统计局网站上的最新县及县以上行政区划代码,并保存成json格式的文件

    源:http://www.oschina.net/code/snippet_120579_11434#18725 抓取国家统计局网站上的最新县及县以上行政区划代码,并保存成json格式的文件 可用于为 ...

  6. vue3 el-upload 上传附件及预览 限制只能上传一个图片或者pdf格式的文件

    vue3 el-upload 上传附件及预览 限制只能上传一个图片或者pdf格式的文件 效果如图 直接看代码吧 template部分 <div class="file-upload&q ...

  7. xml遍历文件夹vector_怎么统计指定文件夹下含有.xml格式的文件数目

    如何统计指定文件夹下含有.xml格式的文件数目?如题 ------解决思路----------------------Directory.GetFiles(@"路径", " ...

  8. ttf文件 python 打开_[译]JS解析TTF字体文件

    把字体拖到下边的方框,获取其中的奥妙!点此获取示例ttf字体文件. TTF文件拖到这里 在这篇文章,我们计划操作如下: 将字体文件拖入网页,并读取之 尽管ttf文件是为C语言读取设计的,但我们仍试图解 ...

  9. php利用文件做数据储存,PHP_PHP文件读写操作之文件写入代码,在PHP网站开发中,存储数据通 - phpStudy...

    PHP文件读写操作之文件写入代码 在PHP网站开发中,存储数据通常有两种方式,一种以文本文件方式存储,比如txt文件,一种是以数据库方式存储,比如Mysql,相对于数据库存储,文件存储并没有什么优势, ...

  10. 用PB从ORACLE导出DBF文件,PB导出规定格式DBF文件

    最近在做一个给卫计委做数据上报的数据接口,接口要求使用奇葩的dBase 3数据库存储上报数据,忙活了几天总算搞好了,使用开发工具为powerbuild 12,222个字段的上报数据表生成DBF文件,写 ...

最新文章

  1. php还原json,PHP语言中使用JSON和将json还原成数组
  2. 浅谈AJAX并实现使用pagehelper-5.1.10.jar分页插件实现异步从数据库中获取数据分页显示
  3. 公需科目必须学吗_税务师要继续教育吗,2019税务师怎样继续教育?
  4. easyUI 展开DataGrid里面的行显示详细信息
  5. python netsnmp_python net-snmp使用
  6. Google Earth的十个常用技巧应用
  7. tmux鼠标操作配置
  8. 【1291】数据结构上机测试4.1:二叉树的遍历与应用1 SDUTOJ
  9. 如何引入colorui
  10. wps 项目进度_如何用Excel做项目进度表
  11. eclipse加载jdbc驱动(mysql)
  12. 关于Autorelease和RunLoop
  13. 证券行业的数字化转型:金融业务与金融科技的共生发展
  14. 笔试 | 数字IC设计之1bit的半加器、全加器实现
  15. 缺陷修改实践——replace函数的运用|思考?
  16. 基于alios系统门禁uart串口应用编写
  17. 微小宝公众号排行榜_公众号排名 | 2020年2月公众号地区排行榜重磅发布
  18. .net mapi_使用C#.NET通过MAPI访问收件箱
  19. 【jQuery】利用lazyload.js延迟加载技术应对多图杀猫的单一页面
  20. charles+proxifier抓包设置

热门文章

  1. 三国演义亲和度python_用python分析四大名著之三国演义
  2. 【开明关系系列之1】人脉关系大检阅
  3. AspCms程序PC端生成静态,手机端动态运行
  4. ZooKeeper官方Java例子解读
  5. CCL2022 中文语法纠错评测
  6. ArcGIS Pro 专题图制作
  7. 探究施乐打印机新功能
  8. Cpp多重继承会产生的问题
  9. 使用字体编辑软件修改字体
  10. 作业2.EVE ensp 模拟器CONSOLE接口密码设置