robots.txt 是放置于域名根目录的一个文本文件,其作用是"声明站内规则",即告诉搜索引擎一个站点中哪些内容它可以抓取,而哪些不能。站长通过向 robots.txt 写入规则来和搜索引擎"沟通",以此保证站点的内容能够按照自己的意愿出现在搜索引擎当中(百度只部分遵守)。

搜索引擎爬虫开始抓取一个网站,它们首先做的事情便是读取这个网站的 robots.txt。

根据 Wordpress 的特性,SEO 必须从 robots.txt 做起。Wordpress SEO 权重调节篇已经阐明了单篇文章的重要性,本篇 robots.txt 和 meta robots 则是我们调整 Wordpress 内部权重的重要工具。

先来看看我的 robots.txt 文件内的规则:

User-agent: *
Disallow: /index.php
Disallow: /wp-
Disallow: /*/feed
Disallow: /*/*/feed
Disallow: /*/*/trackback
Disallow: /wap
Disallow: /page
Sitemap: http://ishawn.net/sitemap.xml

我逐条分析并解释原因。

1. User-agent 即搜索引擎的爬虫,以星号(*)匹配,表明之后的规则通用于所有搜索引擎。如果需要针对单独的搜索引擎制定规则,则需要写出该搜索引擎爬虫的具体名称,例如 Baiduspider 。

2. 一定有人会奇怪为什么我要禁止爬虫抓取 index.php 。Disallow,意为不允许。当我发现搜索引擎并不那么聪明之后,我加入了这条规则。对搜索引擎来说,ishawn.net/ 是首页,而 ishawn.net/index.php 是"另一个"首页。搜索引擎一不小心发现 index.php 的存在,给抓进去了,最后的结果是:ishawn.net 有两个 meta description 页面描述完全相同的页面。首页就这么不明不白地被另一个自己分散了权重。

3. 不允许抓取 /wp- 。这是一个省略的写法,完整的意思是不允许抓取域名根目录下所有以 "wp-" 开头的文件和文件夹。名称为 "wp-" 的文件夹在我这里都是 Wordpress 的系统文件,给搜索引擎抓了去对大家都没好处。

4. 不允许抓取 /*/feed 。ishawn.net/comments/feed 和 ishawn.net/comment/feed 都是我不希望被搜索引擎抓取到的,它们对搜索引擎和我来说都没有意义。为了简化写法,我用了通配符。反正我这里除了 /tag/feed 之外没有第四个可以被匹配到的路径了。前三个我本来就不希望它们被搜索引擎抓取。

5. 不允许抓取 /*/*/feed 。ishawn.net 的永久链接结构为 /分类名称/单篇文章,这个规则匹配的便是 /分类名称/单篇文章/feed,意为不允许搜索引擎抓取单篇文章的评论 feed。

6. 不允许抓取 /*/*/trackback 。理由同上,不允许抓取单篇文章的 trackback 地址。

7. 不允许抓取 /wap 。我安装了 wp-t-wap 插件,生成的 wap 页面都包含在里面,还是出于不被分散权重的理由,禁止。

8. 不允许抓取 /page 。举例来说,ishawn.net/page/2 是首页的"第二页",它同样和首页的 meta description 相同,所以禁止理由也和第2条相同,我就不罗嗦了。需要注意的是写法,你也可以写成 Disallow: /page/* ,它们的意思都是一样的。

9. 声明 sitemap 所在地。其实这并不是一个必须的条目,不过写上可以让搜索引擎对 sitemap.xml 的读取更频繁一些。

需要注意的是,robots.txt 不通用,直接拿我的 robots.txt 内容放在你那里很可能起反作用。我看到有些博友无私地将自己的 robots.txt 分享出来让别人 copy,这种举动很愚昧。就像每个 blog 有不同的永久链接形式一样,你必须根据自己的实际情况来定制 robots.txt。之所以要逐条解释我的 robots.txt,也是出于这方面的考虑。

robots.txt 也不要写得太复杂。由于存在通配符,条目越多,交叉领域也越多,把爬虫搞糊涂对你的站点没有好处。这里有一个 Google 官方的 robots.txt 定制指南,详细解释了各种通配符的用法,有兴趣的朋友可以参考一下。

当然,要达到 "固定页面数量+单篇文章数量+首页" 的结果,仅依靠 robots.txt 是不够的。我们还需借助 meta robots 的帮助。

meta robots 是写在页面内的,具有更多可操作性的 "robots.txt" 。"ishawn.net/年份/月份" 是我这里按月存档的路径,我不想搜索引擎抓取它们,原本可以在 robots.txt 里面写 Disallow: /200* ,但这样的损失很大。要知道,写在 robots.txt 里面的内容是完全禁止搜索引擎抓取的。一旦我彻底禁止了爬虫对存档页面的爬取,那我的内链就会损失很多。

meta robots 更多可操作性的用处就在这里了。

<meta content="noindex,follow" />

当搜索引擎读取到页面上的这个标签,便不会收录该页面。但其仍然会跟踪页面内的所有链接,使内链关系继续维持。

我们没有在页面内插入任何 meta robots 属性时, 爬虫对页面会以 "index,follow" 来对待,即收录且跟踪链接。如果有需求的话,我们也可以使用 "index,nofollow" —— 收录但不跟踪页内链接。meta robots 还有一个不常用的属性,noarchive 。该属性可以控制搜索引擎是否建立网页快照。

通过 robots.txt 和 meta robots,我们完全可以控制好搜索引擎对 blog 的收录数量,发挥单篇文章的最大价值。SEO for Wordpress 的乐趣有很多,robots.txt 和 meta robots 便是其中之一。

再次提醒,本文的例子不能通用,请一定根据自己的实际需求进行相应操作。

转自:http://szuymr.blog.163.com/blog/static/502904532009314105612903/

转载于:https://www.cnblogs.com/johnwonder/archive/2011/01/21/1940923.html

Wordpress SEO robots相关推荐

  1. 20个最佳WordPress SEO插件

    以下推荐的WordPress SEO插件要有针对性的选择使用,你可千万别一下子全装了. All in One SEO Pack wordpress平台上最受欢迎的SEO插件之一,该Wordpress ...

  2. yoast seo_Yoast SEO vs All in a SEO Pack –最好的WordPress SEO插件是哪个?

    yoast seo Are you looking for the best WordPress SEO plugin? If you are, then you have likely narrow ...

  3. 您应该使用的14个最佳WordPress SEO插件和工具

    我们经常被问到我们推荐的最好的WordPress SEO插件和工具是什么. 这是因为搜索引擎是互联网上大多数网站的主要流量来源.针对搜索引擎优化您的网站可以帮助您在搜索结果中排名更高并显著发展您的业务 ...

  4. yoast seo设置中文_如何通过Yoast安装和设置WordPress SEO插件

    yoast seo设置中文 Do you want to properly install and setup Yoast SEO plugin in WordPress? 您是否要在WordPres ...

  5. yoast seo_Yoast从一站式SEO迁移到WordPress SEO

    yoast seo When I began playing with blogging software over a decade ago, MoveableType was the 'Bee's ...

  6. WordPress SEO ☞ WordPress网站终极优化指南

    原文地址:http://www.eastdesign.net/wordpress-seo/ 最新消息,东方设计学院 WordPress SEO 系列视频教程正在持续更新中,目前为了不至于让视频传播过于 ...

  7. opencart seo优化_「opencart seo插件」wordpress SEO插件都有哪些好用的?...

    opencart seo插件: wordpress SEO插件都有哪些好用的? wordpress本身已经将SEO做的十分好了,但还有一些没在Wordpress核心中实现的SEO特性,我们可以通过安装 ...

  8. 终极WordPress SEO初学者指南

    改善WordPress SEO对于获得更多网站流量至关重要.可悲的是,大多数WordPress SEO指南对于新用户来说太技术性了. 如果您认真考虑增加网站流量,则需要注意WordPress SEO最 ...

  9. WordPress SEO 宝典

    简单来说 SEO 分为页面优化和链接建设两大部分,页面优化是基础,而链接建设则是重点,两者缺一不可. 内容为王 在讲解具体的 SEO 技巧之前,还是先强调内容为王,高质量.原创的内容是 SEO 的保证 ...

最新文章

  1. Python学习(一) 安装,环境搭建,IDE
  2. 量子计算机计算时间复杂度,量子计算复杂性理论综述.PDF
  3. 其他综合-跳板机jumpserver的安装
  4. 图像处理基本算法-滤波
  5. 奋战杭电ACM(DAY9)1013
  6. 轨迹相似性度量之基于Hausdorff与LCSS的理解
  7. 网络爬虫之java基础(Ⅰ)
  8. java 开发微信中回调验证一直提示 解密失败处理(Java)
  9. 微信公众平台小程序(应用号)开始内测了
  10. 计算机基础表格函数基础知识大全,计算机基础-EXCEL公式和函数
  11. ERStudio 安装
  12. 1.2 基本RS触发器原理
  13. 计算机桌面的图标怎么删除,桌面图标有蓝底怎么去掉,教您去掉电脑桌面图标蓝底的方法...
  14. avr单片机c语言计算log,AVR单片机定时器初值计算公式与方法 - 单片机定时器初值计算公式(51单片机和AVR单片机的初值计算三种方法)...
  15. 中国行政区县GPS坐标
  16. springMVC和mybatis的框架搭建
  17. 华为云weblogic10.3.6打补丁
  18. 版本管理工具Cliosoft SOS安装并使用
  19. 番茄花园GhostXP SP3极速装机版V03
  20. 数字电路基础知识——组合逻辑电路之乘法器的设计(一)—— 并行、移位相加、加法树、查找表乘法器

热门文章

  1. 精通Android自定义View(十六)invalidate方法和requestLayout方法
  2. (十四)面向对象之多态
  3. CSS3新单位vw,vh,vmin,vmax详解
  4. Python 列表笔记
  5. Putty 重新启动 linux sqlserver服务
  6. Vertica系列:从一些细节看Vertica为什么是一个优秀的数据仓库平台
  7. C++ primer 11章关联容器
  8. Codeforces 437D 贪心+并查集
  9. 【JS】call,apply,bind
  10. less-postcss