首先我们来查看一个朋友的robots.txt,显然他的是不曾修改的,用的还是Wordpress默认的。

这种缺陷是巨大的,因为没有屏蔽/wp-content/和/wp-includes/等诸多文件,假以时日,会有很多后台文件都被收录的,像这样

所以我们需要更加完整的robots.txt内容,防止百度蜘蛛乱抓取收录。下面我们欣赏两个网友的robots.txt,大家都可以参考。
其一

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*?*
Disallow: /attachment/

其二

User-agent: *
Disallow: /wp-*
Disallow: /qiuye-*
Disallow: /*replytocom=
Disallow: /*?iapolo_co*
Disallow: /page/*?iapolo_co*
Disallow: /page/?iapolo_co*
Disallow: /?iapolo_co*
Disallow: /?ad=da
Disallow: /?iapolo.com
Disallow: /daohang/
Disallow: /wp-login.php?*
Disallow: /?_=*
Disallow: /?p=*
Disallow: /api/*
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.eot$
Disallow: /*.svg$
Disallow: /*.ttf$
Disallow: /*.woff$
Disallow: /*.json$
Disallow: /page/1
Disallow: /shuoshuo/
Disallow: /jiayi

我们都可以作为参考,大家可以根据上面的删除不要的,然后上传到网站根目录,然后去百度站长平台,进行检测,如下图,js文件百度蜘蛛将不再抓取


更多文章:http://liuyanzhao.com/2207.html
本文地址:http://liuyanzhao.com/3275.html
转载请注明

wordpress中如何正确书写robots.txt相关推荐

  1. ROBOTS.TXT在SEO优化中的运用(ROBOTS.TXT SEO优化实战)

    2019独角兽企业重金招聘Python工程师标准>>> 豆瓣网的robots.txt中有Crawl-delay.Visit-time.Request-rate,好多人搞不清楚这是什么 ...

  2. 网站建设页面设计中CSS正确书写

    转自: http://blog.onlygrape.com/webdesign-css/293 1.css 字体简写规则 当使用css定义字体时你可能会这样做: font-size: 1em; lin ...

  3. 网络爬虫排除协议robots.txt介绍及写法详解.

    以上内容转载自:http://www.xgezhang.com/serach_engine_robots.html Robots协议的全称是"网络爬虫排除标准"(Robots Ex ...

  4. robots.txt 指定 Sitemap 和robots Meta标签

    robots.txt 指定 Sitemap 和robots Meta标签 robots.txt 指定 Sitemap 和robots Meta标签 http://www.mp322.com/robot ...

  5. WP博客wordpress,robots.txt写法

    Robots.txt是放在博客根目录给搜索引擎看的一个文件,告诉搜索引擎什么链接能收录什么链接不能收录以及什么搜索引擎能够收录,在SEO中有着举足轻重的作用. WordPress本身就有很多地方是非添 ...

  6. rebots css,我的robots.txt中涉及到.htaccss文件的奇怪https/http错误

    我设置了一个网站,就像我之前做过很多次,但是当你真的在谷歌网站上得到一个erorr.我的robots.txt中涉及到.htaccss文件的奇怪https/http错误 clrhorizon.com/ ...

  7. 在Prefetcher中取消robots.txt的限制

    Robots.txt是一种专门用于搜索引擎网络爬虫的文件,当构造一个网站时,如果作者希望该网站的内容被搜索引擎收录,就可以在网站中创建一个纯文本文件robots.txt,在这个文件中,声明该网站不想被 ...

  8. 【谷歌推网页爬虫新标准,开源robots.txt解析器】

    https://www.toutiao.com/a1638031116246019 [谷歌推网页爬虫新标准,开源robots.txt解析器] 对于接触过网络爬虫的人来说 robots.txt 绝不陌生 ...

  9. 谷歌推网页爬虫新标准,开源robots.txt解析器

    鱼羊 发自 凹非寺  量子位 报道 | 公众号 QbitAI 对于接触过网络爬虫的人来说 robots.txt 绝不陌生,这一存放于网站根目录下的 ASCII 码文件标明了网站中哪些内容是可以抓取的, ...

  10. robots.txt文件详解

    我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理 ...

最新文章

  1. 3*3 c语言,C语言实现小游戏(三) 3*3棋盘游戏
  2. zabbix3.0.4 部署之一 (简介)
  3. 微信小程序学习笔记(七)
  4. 技术圈盛会!腾讯云+社区开发者大会免费报名!
  5. 2021牛客暑期多校训练营1 J-Journey among Railway Stations(线段树+思维转化)
  6. 右移函数(字符串,数组)
  7. 2019-06-04 Sublime Text 中文输入法的问题
  8. 苹果M1芯片:如何开启一个时代
  9. 《Cisco/H3C交换机高级配置与管理技术手册》目录
  10. ArchLinux pacman 提高俩倍下载速度方法
  11. 【数据结构】1、零碎知识点集合
  12. Open Xml 读取Excel中的图片
  13. 字符串的操作,计算,拼接
  14. 让Windows 7安装更快速.
  15. 高等数学(第七版)同济大学 习题2-5 个人解答
  16. python中func函数_Python 函数(func)学习
  17. 启用计算机共享,电脑无法启用共享访问怎么办
  18. 网易 Duilib:功能全面的开源桌面 UI 开发框架
  19. python练习项目八——下载所有XKCD 漫画
  20. 使用nodejs(ipp和html-pdf-node)实现连接打印机后端静默打印html文件

热门文章

  1. 基于NLTK的命名实体识别(分词、词性标注) 及windows系统64位—在python3下安装nltk
  2. 北京长途汽车站一览表
  3. Android开发指南(39) —— Testing Fundamentals
  4. 微软在Windows 8之后将放弃Windows品牌
  5. Imc手机连环画PC阅读器
  6. as没有add as library选项
  7. 概率论综述(题型篇)
  8. Spring框架学习---Spring Framework上篇
  9. mybatis中的三种多表查询的方式详解,业务装配,N+1,多表查询的sql
  10. inline-block从入门到精通