Robots.txt是放在博客根目录给搜索引擎看的一个文件,告诉搜索引擎什么链接能收录什么链接不能收录以及什么搜索引擎能够收录,在SEO中有着举足轻重的作用。

WordPress本身就有很多地方是非添加robots.txt不可的,比如:

用了伪静态链接之后动态链接依然能访问博客。

用Wordpress架设的博客有很多不同链接但相同内容的页面。

Robots.txt的误区

不添加Robots.txt

Robots.txt作为搜索引擎机器人来到网站查看的第一个文件是很有必要精心设置的,搜索引擎机器人访问网站时,首先会查看站点根目录有没有Robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就默认访问以及收录所有页面。这是不是意味着,要想让搜索引擎收录全部链接就可以不设置这个文件了?其实不是的,搜索引擎机器人查看没有Robots.txt文件的时候就产生一个404错误日志在服务器上,增加服务器的负担。

Robots.txt文件Allow所有页面

这是平时比较容易犯到的错误,以为要让搜索引擎更多地收录网站就设置Robots.txt为:

User-agent: *

Disallow:

或者:

User-agent: *

Allow: /

这样搜索引擎不单单收录了你文章页面,还收录了管理界面,模板链接,CSS、JS链接,虽然说WordPress的管理界面谁都可以猜得到,不怕泄漏出去,但是这样一来就浪费服务器的资源,而且搜索引擎收录了这些链接是不会增加网站收录数的。

Robots.txt的写法

Robots.txt文档以User-agent: 开头,标识语句对应的搜索引擎机器人,后面跟上Disallow: 和Allow:表示起作用的链接。

User-agent: baiduspider 表示对百度机器人起作用。

User-agent: * 表示对所有搜索引擎机器人起作用。

Robots.txt文档中至少要有一条User-agent:记录而User-agent: * 记录只允许有一条。

Disallow: /giisi 表示不允许搜索引擎访问或者收录/giisi.html、/giisi/index.html、/giisi.php等包含/giisi的链接,而Disallow: /giisi/则允许访问/giisi.html、/giisi.php等,但是禁止访问/giisi/index.html。

Disallow: / 表示禁止搜索引擎机器人访问收录所有页面。订酒店返现金

Disallow:  表示允许搜索引擎访问收录所有页面。

Allow: /giisi 表示允许搜索引擎访问或者收录/giisi.html、/giisi/index.html、/giisi.php等包含/giisi的链接,而Allow:/giisi/则表示允许搜索引擎机器人访问/giisi/index.html等链接,但是对/giisi.html、/giisi.php未置可否。

“*”和“$”通配符

Disallow: */comments 表示不允许访问和收录所有wordpress评论留言页面。比如:http://www.giisi.com/born/tianxieyumingzhuanchushenqingbiao.html#comment-3715 是禁止收录的。

Disallow: /category/*/page/ 表示禁止访问和收录分类的相关分页。比如集思博客中网页设计分类有很多页面:

http://www.giisi.com/category/design/page/2

记录中用“*”通配符表示了分类的别称“design”。

Disallow: .jpg$ 和Disallow: .php$  分别表示禁止访问收录“,jpg”和“.php”后缀的文件

集思博客的Robots.txt

User-agent: *

Disallow: /*?*  (屏蔽搜索引擎机器人收录动态网页,因为/?q=id也是能访问文章的哦!)

Disallow: /index.php  (因为我的博客在windows主机呆过,发现www.giisi.com/index.php/postname.html也能访问现在的日志)

Disallow: /wp-admin (屏蔽搜索引擎机器人收录管理界面)

Disallow: /wp-content/plugins (屏蔽搜索引擎机器人收录插件文件)

Disallow: /wp-content/themes (屏蔽搜索引擎机器人收录模板文件)

Disallow: /wp-includes (屏蔽搜索引擎机器人收录JS文件)

Disallow: /trackback (屏蔽搜索引擎机器人收录trackback等垃圾信息,关闭trackback的可以忽略)

Disallow: /feed (Feed中都是与日志相同的信息当然要屏蔽)

Disallow: /comments(下面三个上面有介绍了)

Disallow: /category/*/page/

Disallow: /tag/*/page/

Sitemap: http://www.giisi.com/sitemap.xml (这个用来告诉搜索引擎sitemap的路径,我用了两个)

Sitemap: http://www.giisi.com/sitemap_baidu.xml

Robots.txt是放在博客根目录给搜索引擎看的一个文件,告诉搜索引擎什么链接能收录什么链接不能收录以及什么搜索引擎能够收录,在SEO中有着举足轻重的作用。

WordPress本身就有很多地方是非添加robots.txt不可的,比如:

用了伪静态链接之后动态链接依然能访问博客。

用Wordpress架设的博客有很多不同链接但相同内容的页面。

Robots.txt的误区

不添加Robots.txt

Robots.txt作为搜索引擎机器人来到网站查看的第一个文件是很有必要精心设置的,搜索引擎机器人访问网站时,首先会查看站点根目录有没有Robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就默认访问以及收录所有页面。这是不是意味着,要想让搜索引擎收录全部链接就可以不设置这个文件了?其实不是的,搜索引擎机器人查看没有Robots.txt文件的时候就产生一个404错误日志在服务器上,增加服务器的负担。

Robots.txt文件Allow所有页面

这是平时比较容易犯到的错误,以为要让搜索引擎更多地收录网站就设置Robots.txt为:

User-agent: *

Disallow:

或者:

User-agent: *

Allow: /

这样搜索引擎不单单收录了你文章页面,还收录了管理界面,模板链接,CSS、JS链接,虽然说WordPress的管理界面谁都可以猜得到,不怕泄漏出去,但是这样一来就浪费服务器的资源,而且搜索引擎收录了这些链接是不会增加网站收录数的。

Robots.txt的写法

Robots.txt文档以User-agent: 开头,标识语句对应的搜索引擎机器人,后面跟上Disallow: 和Allow:表示起作用的链接。

User-agent: baiduspider 表示对百度机器人起作用。

User-agent: * 表示对所有搜索引擎机器人起作用。

Robots.txt文档中至少要有一条User-agent:记录而User-agent: * 记录只允许有一条。

Disallow: /giisi 表示不允许搜索引擎访问或者收录/giisi.html、/giisi/index.html、/giisi.php等包含/giisi的链接,而Disallow: /giisi/则允许访问/giisi.html、/giisi.php等,但是禁止访问/giisi/index.html。

Disallow: / 表示禁止搜索引擎机器人访问收录所有页面。

Disallow:  表示允许搜索引擎访问收录所有页面。

Allow: /giisi 表示允许搜索引擎访问或者收录/giisi.html、/giisi/index.html、/giisi.php等包含/giisi的链接,而Allow:/giisi/则表示允许搜索引擎机器人访问/giisi/index.html等链接,但是对/giisi.html、/giisi.php未置可否。

“*”和“$”通配符

Disallow: */comments 表示不允许访问和收录所有wordpress评论留言页面。比如:http://www.giisi.com/born/tianxieyumingzhuanchushenqingbiao.html#comment-3715 是禁止收录的。

Disallow: /category/*/page/ 表示禁止访问和收录分类的相关分页。比如集思博客中网页设计分类有很多页面:

http://www.giisi.com/category/design/page/2

记录中用“*”通配符表示了分类的别称“design”。

Disallow: .jpg$ 和Disallow: .php$  分别表示禁止访问收录“,jpg”和“.php”后缀的文件

集思博客的Robots.txt

User-agent: *

Disallow: /*?*  (屏蔽搜索引擎机器人收录动态网页,因为/?q=id也是能访问文章的哦!)

Disallow: /index.php  (因为我的博客在windows主机呆过,发现www.giisi.com/index.php/postname.html也能访问现在的日志)

Disallow: /wp-admin (屏蔽搜索引擎机器人收录管理界面)

Disallow: /wp-content/plugins (屏蔽搜索引擎机器人收录插件文件)

Disallow: /wp-content/themes (屏蔽搜索引擎机器人收录模板文件)

Disallow: /wp-includes (屏蔽搜索引擎机器人收录JS文件)

Disallow: /trackback (屏蔽搜索引擎机器人收录trackback等垃圾信息,关闭trackback的可以忽略)

Disallow: /feed (Feed中都是与日志相同的信息当然要屏蔽)

Disallow: /comments(下面三个上面有介绍了)

Disallow: /category/*/page/

Disallow: /tag/*/page/

Sitemap: http://www.giisi.com/sitemap.xml (这个用来告诉搜索引擎sitemap的路径,我用了两个)

Sitemap: http://www.giisi.com/sitemap_baidu.xml

WP博客wordpress,robots.txt写法相关推荐

  1. WP博客几款好看的图片类模板分享

    WP博客几款好看的模板分享@TOC 具体看图 WordPress程序tob主题0.8主题简介:适用于各种图片展示网站.新闻站.电影站.美图站.资源站等等,扁平化设计.公众号展示.打赏功能.列表无限加载 ...

  2. python +flask 制作一个实时热搜采集接口 加入百度热搜和微博热搜 并实时滚动代码 嵌入到你的帝国CMS或WP博客 或任意框架网站

    示例帝国CMS网站效果: 超级简单的实现,两个步骤搞定: 1.写python采集接口,采集数据. 接口代码:需要安装对应的库. # coding=utf-8 import re import urll ...

  3. Windows Azure微软免费云空间成功申请和使用教程:安装WP博客

    Windows Azure也是Windows Azure Platform,是一个由微软推出的云计算平台,Windows Azure Platform一开始提供的是平台即服务(PaaS),在2012 ...

  4. wp博客写文章500错误_500多个博客文章教我如何撰写出色的文章

    wp博客写文章500错误 I've written a lot of blog posts. Somewhere north of 500 to be exact. All of them are t ...

  5. CentOS 7下简单搭建个人博客——wordpress

    CentOS 7下简单搭建个人博客--wordpress 前言: CentOS 7及以上版本不能安装Mysql数据库,我们用的MariaDB数据库代替.mariadb的简单安装与配置可参考:https ...

  6. 使用docker-compose一键部署开源博客wordpress

    前言 使用 docker-compose 一键启动开源博客 wordpress 前台启动:docker-compose up 后台启动:docker-compose up -d 官方文档:https: ...

  7. WP博客ajax,WordPress文章点击统计ajax版,兼容wp super cache缓存代码及插件

    自从陌小雨博客历经文章阅读数数次清零后,陌小雨对这个文章浏览数也不是很在意了,这也就是所谓的破罐子破摔吧,但自从陌小雨前段时间再启用 wp super cache 纯缓存代码后,陌小雨觉得还是有必要把 ...

  8. 30多个WP博客推广的Wordpress插件 | 帕兰映像

    导读: 交叉式发布 - DJ-Email-Publish 当你在WP上发表文章后,此插件会把文章以邮件的形式发至其它博客,如Live Space. - Live Space Sync 可将你所有文章导 ...

  9. 为wp博客添加html网页,WordPress博客添加B站追番页面

    Mashiro大佬博客也有追番页面,但是基于 Bangumi api 的太麻烦了,于是基于B站API写了一个追番页面模版,此模板理论适用于所有 WordPress 主题,但我只做了 Sakura 主题 ...

最新文章

  1. 解决The server cannot be started because one or more of the ports are invalid.
  2. asc desc排序_HIVE的学习之路(六)Hive的分组Join排序
  3. 组态王接入多比物联网云平台
  4. urllib设置debuglevel打开调试开关
  5. AcWing - 246. 区间最大公约数(树状数组+线段树)
  6. python鼠标选中事件_python对绑定事件的鼠标、按键的判断实例
  7. 没有什么多模态任务是一层Transformer解决不了的!
  8. 董明珠:格力100%不会爆雷 爆雷的白马股不是真正白马股
  9. 互联网产品一网易网站设计(思想)
  10. Rust: codewars的Simple Substitution Cipher Helper算法题、N种不简单的解法集
  11. 通过分析词性进行人名、地名、组织的替换,生成新的狗屁不通文章
  12. cad2012打开后闪退_win10系统打开CAd2012出现闪退的恢复方法
  13. 浏览器网页 自动转格式化显示json数据
  14. 自己制作Windows PE工具盘
  15. ClippingNode做游戏的新手指导
  16. Jetsonnano的环境配置--ros环境
  17. VS生成桌面应用程序
  18. 半导体术语的中英文版本
  19. 高炉的3D数字孪生体,线上操控高炉作业
  20. oracle odbc drivers,Actual ODBC drivers 介绍

热门文章

  1. 函数调用规范__cdecl和__stdcall的区别
  2. 乒乓球比赛赛程_国乒今年最后一站比赛延期!赛程缩短比赛地温暖,教练组考察队员...
  3. 外部方法调用内部_私有属性和私有方法
  4. Java基础day5
  5. (视频+图文)机器学习入门系列-第9章 集成学习
  6. (视频+图文)机器学习入门系列-第2章 线性回归
  7. 【小白学PyTorch】15.TF2实现一个简单的服装分类任务
  8. AI基础:数据增强方法综述
  9. 大数据时代,一名优秀的开发者应具备怎样的特质?
  10. (github标星9200+)《南瓜书》:周志华《机器学习》的代码实现