首先我们来查看一个朋友的robots.txt,显然他的是不曾修改的,用的还是Wordpress默认的。

这种缺陷是巨大的,因为没有屏蔽/wp-content/和/wp-includes/等诸多文件,假以时日,会有很多后台文件都被收录的,像这样

所以我们需要更加完整的robots.txt内容,防止百度蜘蛛乱抓取收录。下面我们欣赏两个网友的robots.txt,大家都可以参考。

其一

 User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /*/comment-page-*Disallow: /*?replytocom=*Disallow: /category/*/page/Disallow: /tag/*/page/Disallow: /*/trackbackDisallow: /feedDisallow: /*/feedDisallow: /comments/feedDisallow: /?s=*Disallow: /*/?s=*\Disallow: /*?*Disallow: /attachment/

其二

    User-agent: *Disallow: /wp-*Disallow: /qiuye-*Disallow: /*replytocom=Disallow: /*?iapolo_co*Disallow: /page/*?iapolo_co*Disallow: /page/?iapolo_co*Disallow: /?iapolo_co*Disallow: /?ad=daDisallow: /?iapolo.comDisallow: /daohang/Disallow: /wp-login.php?*Disallow: /?_=*Disallow: /?p=*Disallow: /api/*Disallow: /*.js$Disallow: /*.css$Disallow: /*.eot$Disallow: /*.svg$Disallow: /*.ttf$Disallow: /*.woff$Disallow: /*.json$Disallow: /page/1Disallow: /shuoshuo/Disallow: /jiayi

我们都可以作为参考,大家可以根据上面的删除不要的,然后上传到网站根目录,然后去百度站长平台,进行检测,如下图,js文件百度蜘蛛将不再抓取


更多文章:http://liuyanzhao.com/2207.html
本文地址:http://liuyanzhao.com/3275.html
转载请注明

Wordpress如何正确书写Robots.txt相关推荐

  1. 网络爬虫排除协议robots.txt介绍及写法详解.

    以上内容转载自:http://www.xgezhang.com/serach_engine_robots.html Robots协议的全称是"网络爬虫排除标准"(Robots Ex ...

  2. robots.txt学习笔记----以亚马逊Github为例

    目录: robots.txt简介 亚马逊--robots.txt分析 Github--robots.txt分析 总结 robots.txt简介 介绍 robots.txt(统一小写)文件位于网站的根目 ...

  3. robots.txt 指定 Sitemap 和robots Meta标签

    robots.txt 指定 Sitemap 和robots Meta标签 robots.txt 指定 Sitemap 和robots Meta标签 http://www.mp322.com/robot ...

  4. WP博客wordpress,robots.txt写法

    Robots.txt是放在博客根目录给搜索引擎看的一个文件,告诉搜索引擎什么链接能收录什么链接不能收录以及什么搜索引擎能够收录,在SEO中有着举足轻重的作用. WordPress本身就有很多地方是非添 ...

  5. 【谷歌推网页爬虫新标准,开源robots.txt解析器】

    https://www.toutiao.com/a1638031116246019 [谷歌推网页爬虫新标准,开源robots.txt解析器] 对于接触过网络爬虫的人来说 robots.txt 绝不陌生 ...

  6. 谷歌推网页爬虫新标准,开源robots.txt解析器

    鱼羊 发自 凹非寺  量子位 报道 | 公众号 QbitAI 对于接触过网络爬虫的人来说 robots.txt 绝不陌生,这一存放于网站根目录下的 ASCII 码文件标明了网站中哪些内容是可以抓取的, ...

  7. robots.txt文件详解

    我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理 ...

  8. Robots.txt 协议——百度之星

    题目描述 搜 索引擎是靠 Web Robot (又称 Spider )来收集互联网上浩如烟海的网页的. Spider 就像一个旅行家一般,不知疲倦地奔波于万维网的空间,将遇到的页面收集下来供搜索引擎索 ...

  9. rebots css,我的robots.txt中涉及到.htaccss文件的奇怪https/http错误

    我设置了一个网站,就像我之前做过很多次,但是当你真的在谷歌网站上得到一个erorr.我的robots.txt中涉及到.htaccss文件的奇怪https/http错误 clrhorizon.com/ ...

  10. 搜索引擎蜘蛛及网站robots.txt文件详解

    搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提 ...

最新文章

  1. Powershell管理系列(十一)Exchange完全访问权限邮箱的设置
  2. yarn timeline1,timeline2官网解释
  3. C# 是否可以将 动态或匿名类型 转成 强类型 ?
  4. Java中的一些基本转换
  5. MySQL性能优化[实践篇]-复合索引实例
  6. cs服务器协议,反恐精英服务端cs1.6 NoSteam V4554专业比赛服务端47/48双协议一键开启最终版...
  7. Unity编辑器拓展--Hierarchy拓展
  8. Millet谷仓:新型电商势在必行
  9. 巾帼绽芬芳 一起向未来(中篇)
  10. Ubuntu 16.04 显卡型号查询命令
  11. 纪念日或者悼念日 网站改为灰白模式
  12. 2022还不知道登陆邮箱账号怎么填写?个人邮箱登录注册流程看详解
  13. 办公最常用哪个邮箱?怎么申请商务邮箱?
  14. 【财富空间】马斯克:2次被踢出局后,我悟出来的6条投资哲学
  15. 30行Python代码,打造一个微信群聊助手~
  16. 【Spring boot】IDEA + Maven + Spring Boot + Mybatis + Druid + PageHelper
  17. oracle数据库短期培训,Oracle数据库培训课件.ppt
  18. 抖音最新版安卓 签名算法 设备注册() 最新版本 19.1.0 2021年12月18日发布
  19. 小企业办公需求规划(企业微信版部署计划)
  20. [MRCTF2020]千层套路1

热门文章

  1. angular 表单操作
  2. R语言colorRampPalette函数-创建颜色梯度(渐变色)
  3. iOS不再美好 安卓收入逼近千万
  4. 文本框中呈现文字,用鼠标点击一下消失
  5. 晕!!汗颜!java排序大集合
  6. 打开unity卡在loading白屏界面
  7. html5实现效果代码,js+html5实现的自由落体运动效果代码
  8. Java基础,使用switch分支实现出计算器计算机功能,简单易理解
  9. mysql同步row模式_mysql行模式(ROW)主从同步测试及错误修复
  10. qt 启动时黑屏闪一下_每次启动车辆时最好查看一下这些地方,车辆事故率能下降三分之二_搜狐汽车...