一、什么是Robots.txt?

robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt,

如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。

二、robots.txt语法

1、允许所有搜索引擎访问网站的所有部分

robots.txt写法如下:

User-agent:  *

Disallow:

或者

User-agent:  *

Allow:  /

注意:

1、第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。

2、禁止所有搜索引擎访问网站的所有部分

robots.txt写法如下:

User-agent:  *

Disallow:  /

3、只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引

robots.txt写法如下:

User-agent:  *

Disallow:  /css/

Disallow:  /admin/

Disallow:  /images/

注意:路径后面有斜杠和没有斜杠的区别:比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹,Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽

4、屏蔽一个文件夹/templets,但是又能抓取其中一个文件的写法:/templets/main

robots.txt写法如下:

User-agent:   *

Disallow:  /templets

Allow:  /main

5、 禁止访问html/目录下的所有以”.PHP”为后缀的URL(包含子目录)

robots.txt写法如下:

User-agent:  *

Disallow: html/*.php

6、仅允许访问某目录下某个后缀的文件,则使用“$”

robots.txt写法如下:

User-agent:  *

Allow:  .html$

Disallow:  /

7、禁止索引网站中所有的动态页面

比如这里限制的是有“?”的域名,例如

robots.txt写法如下:

User-agent:  *

Disallow:  /*?*

8、禁止搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)

有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还 可以采取直接屏蔽图片后缀名的方式。

robots.txt写法如下:

User-agent: *

Disallow:  .jpg$

Disallow:  .jpeg$

Disallow:  .gif$

Disallow:  .png$

Disallow:  .bmp$

写robots.txt要注意的地方

1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。

2. 斜杠:/ 代表整个网站

3.如果“/”后面多了一个空格,则屏蔽整个网站

4.不要禁止正常的内容

5.生效时间是几天到两个月

php 禁止抓取,禁止抓取.php的写法哪个对:Disallow: /*.php$和Disallow: /.php$ - 搜外SEO问答...相关推荐

  1. PHP蜘蛛抓取,百度蜘蛛频频抓取php文件怎么办(悬赏1元) - 搜外SEO问答

    最近几天网站抓取频次大涨,但是有个头疼的问题,蜘蛛频频抓取一些php文件,该文件只是我程序的调用文件.我在robots文件里面已经禁止该文件的目录了,可还是抓取.导致网站内容抓取过少. , 贴上rob ...

  2. 更换服务器 百度抓取显示有跳转,关于百度抓取诊断有跳转的问题!求各位SEO高手帮帮我!(悬赏1元) - 搜外SEO问答...

    我实在找不到解决办法了!最近网站it那边动的比较多,我对IT这块也不太懂,死活检查不出来!网上也没找到答案!特来这边寻求帮助!我会把我知道的都写出来! 1.最近网站上有个板块做了一下,和原来的不一样了 ...

  3. 百度链接提交php获取状态码,新网站,在百度提交了首页链接,但是一直没有收录,也没有爬虫抓取,怎么回事呢?(悬赏1元) - 搜外SEO问答...

    新站前期需要做哪些操作: 1.上线前保证网站的内容已经有一定的丰富性,可供爬虫已经有20+的主关键词相关的界面或文章,50+为最佳. 2.新站的标题不要堆彻关键词,以主关键词+主关键词描述语句+品牌词 ...

  4. 测试开发Python培训:抓取新浪微博抓取数据-技术篇

    测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的sele ...

  5. 机器人识别抓取笔记(基于视觉的机器人抓取——从物体定位、物体姿态估计到平行抓取器抓取估计:综述)

    Real-Time Deep Learning Approach to Visual Servo Control and Grasp Detection for Autonomous Robotic ...

  6. 网络爬虫---抓包分析,用抓包分析爬取腾讯视频某视频所有评论(Fiddler工具包的分享)

    抓包分析,用抓包分析爬取腾讯视频某视频所有评论(Fiddler工具包的分享) 文章目录 抓包分析,用抓包分析爬取腾讯视频某视频所有评论(Fiddler工具包的分享) 一.抓包分析 1.下载工具并安装 ...

  7. 【机器人识别抓取】基于视觉的机器人抓取——从物体定位、物体姿态估计到平行抓取器抓取估计

    目录 导读 1 引言 1.1 抓取综合方法 1.2 基于视觉的机器人抓取系统 2 抓取检测.视觉伺服和动态抓取 2.1抓取检测 2.2 视觉伺服控制 2.3 动态抓取 3 本文实现的方法 3.1 网络 ...

  8. 使用Wireshark抓包工具抓取直播源

    介绍Wireshark Wireshark是一款世界范围最广.最好用的网络封包分析软件,功能强大,界面友好直观,操作起来非常方便.它的创始人是Gerald Combs,前身是Ethereal,作为开源 ...

  9. 抓包软件抓取手机数据(app,浏览器等)

    抓包软件抓取手机app数据 抓包软件,Charles配置 proxy-windows proxy(打钩) proxy-proxy settings 端口号8888 箭头处打钩 proxy-ssl pr ...

最新文章

  1. consul agent的一个故障
  2. 多目标优化蚁群算法的matlab_深入浅出多目标优化10分钟多目标优化入门
  3. html5 postMessage解决跨域、跨窗口消息传递
  4. 人工神经网络_图像加载(数据挖掘入门与实践-实验10)
  5. GPU Gems1 - 22 颜色控制(Color Controls)
  6. 2015 UESTC 数据结构专题G题 秋实大哥去打工 单调栈
  7. 【DP】楼梯(jzoj 1520)
  8. python识图找图_利用python进行识别相似图片(二)
  9. 【算法】BloomFilter 与 CuckooFilter
  10. windows 系统 oracle监听无法启动。
  11. IO流-LineNumberReader
  12. Ubuntu下MySQL root密码忘记的解决方法
  13. 想让照片里的美女“回头”?清华MIT谷歌用AI帮你实现了
  14. PHP-redis中文文档 1
  15. 51单片机交通信号灯c语言程序,89C51单片机交通灯程序
  16. 用nmap查看局域网存活的主机
  17. oracle PL/SQL 这些查询结果不可更新,请包括ROWID或使用SELECT ...FOR UPDATE 获得可
  18. win7家庭版升级旗舰版
  19. O2O商业模式的现状以及发展趋势是什么?
  20. 数据分析精选案例:3行代码上榜Kaggle学生评估赛

热门文章

  1. 微信隐藏的功能和技巧
  2. php model module,Yii2用Gii自动生成Module+Model+CRUD
  3. linux内核全局变量重定位,动态链接库中全局变量的重定位问题
  4. sqldbx mysql 乱码_sqlDbx连接mysql 及乱码
  5. 您要的FPGA开发软件都在这里
  6. 探索有趣的微观世界:微生物的种类、生存、应用
  7. 如何使用Python的第三方库you-get下载视频
  8. 易语言php统计代码,易语言统计代码行数与API的工具
  9. ABP框架—后台:后台程序发布至IIS(6)
  10. 初次使用Fleck+redis订阅发布实现学习小demo