2019独角兽企业重金招聘Python工程师标准>>>

对于初为站长的人来说,robots.txt文件应该是个比较神秘的东西,今天, 济宁辉腾网站建设就为大家来解析一下这个文件 。
robots.txt是一种存放于网站根目录下的文本文件,用于告诉搜索引擎的爬虫(spider),此网站中的哪些内容是不应被搜索引擎的索引,哪些是可以被索引。通常认为,robots.txt文件用来搜索引擎对目标网页的抓取。
robots.txt协议并不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个文件,但也有一些特殊情况。
对于Google来说,使用robots也未必能阻止Google将网址编入索引,如果有其他网站链接到该网页的话,Google依然有可能会对其进行索引。按照Google的说法,要想彻底阻止网页的内容在Google网页索引中(即使有其他网站链接到该网页)出现,需要使用noindex元标记或x-robots-tag。例如将下面的一行加入到网页的header部分。
<meta name="googlebot" content="noindex">
如果Google看到某一页上有noindex的元标记,就会将此页从Google的搜索结果中完全丢弃,而不管是否还有其他页链接到此页。
对于百度来说,情况和Google类似,如果有其他网站链接目标网页,也有可能会被百度收录,从百度的说明页面上看,百度并不支持像Google那样通过noindex完全将网页从索引上删除,只支持使用noarchive元标记来禁止百度显示网页快照。具体的语句如下。
<meta name="Baiduspider" content="noarchive">
上面这个标记只是禁止百度显示该网页的快照,百度会继续为网页建索引,并在搜索结果中显示网页摘要。
例如,淘宝网目前就通过robots.txt来屏蔽百度爬虫,但百度依旧收录了淘宝网的内容,百度搜索“淘宝网”,第一个结果也是淘宝网首页地址,只是该页面没有网页快照,因此看来,网站只能禁止百度的快照,而无法禁止百度为网页建索引。
再比如, 济宁辉腾网站建设 www.0537web.net 是不屏蔽蜘蛛的,所以目前,百度,google 等搜索引擎会正常收录网站页面。
转载请注明 济宁辉腾网站建设 http://www.0537web.net/

转载于:https://my.oschina.net/zhaodong/blog/82070

解析搜索引擎的Robots协议相关推荐

  1. 2 爬虫 数据解析(bs4,XPath) robots协议 cookie反爬 代理反爬

    爬虫 1 数据解析 1.1 介绍 1.1.1 概念即作用 数据解析就是将一组数据中的局部数据进行提取,用于实现聚焦爬虫. 聚焦爬虫是建立在通用爬虫的基础上,从通用爬虫获取的整个源码数据中提取出指定的数 ...

  2. 爬虫:Robots协议

    Robots 协议也称作爬虫协议.机器人协议,它的全名叫作网络爬虫排除标准( Robots Exclusion Protocol ),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取 它通常是一 ...

  3. (转)Robots协议(爬虫协议、机器人协议)

    Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...

  4. Robots协议(爬虫协议、机器人协议)

    Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...

  5. Robots协议写法教程

    Robots协议的约束力 "Robots的约束力固然仅限于自律,无强制性,但这不等于说它背后反映的精神,没有法律基础."中国社会科学院信息化研究中心秘书长姜奇平表示,美国的电子隐私 ...

  6. 网络爬虫信息提取的常识和Robots协议

    网络爬虫介绍 在浏览网站中,所能见到的数据可以通过爬虫程序保存下来. 网络爬虫,小规模可以爬取网页,大规模可以爬取网站,或一系列的网站,超大规模的像搜索引擎的这种难以完成,需要定制开发,爬取全网. 网 ...

  7. 芝麻HTTP:分析Robots协议

    2019独角兽企业重金招聘Python工程师标准>>> 利用urllib的robotparser模块,我们可以实现网站Robots协议的分析.本节中,我们来简单了解一下该模块的用法. ...

  8. 网络爬虫学习3 - Requests库的七个主要方法、安全性问题与异常处理、反爬虫和Robots协议

    网络爬虫MOOC学习打卡 - 第三天 文章目录 网络爬虫MOOC学习打卡 - 第三天 一.Requests库主要方法解析 0.Requests库的七个主要方法 1.request()方法request ...

  9. robots协议是什么?对网站SEO有什么好处?

    在网站优化中,robots协议一直是优化人员重视的细节,想要网站能够有更高的抓取和排名,此协议也起到很大的作用,那么robots协议是什么呢?它对网站的SEO有什么作用和好处呢?下面一起来了解一下. ...

最新文章

  1. python培训比较好的机构-python哪家的培训比较好?
  2. Vue.js组件化开发实践
  3. OpenGL ES之GLKit的使用功能和API说明
  4. 十个模块_专栏 | ABAQUS Part模块的十个小技巧
  5. OllyDbg笔记-软件逆向调试技巧
  6. [BZOJ2036]聪明的阿卑多
  7. # ; @REM !等符号在WINCE6.0下的意义和作用
  8. SpringData环境搭建代码编写
  9. React Native Modal组件 Android覆盖状态栏
  10. img android 刷机工具,使用fastboot工具刷入recovery.img、boot.img、system.img等
  11. python爬虫下载付费音乐包有什么用_听歌音乐还要我付费?看我用Python批量下载!...
  12. 中国省市县地区代码数据库文件
  13. c语言求栈长度程序,数据结构C语言实现之顺序栈
  14. 复制出来的虚拟机加入域提示试图加入域的SID与本计算机的SID相同解决方法
  15. emWin BATTON控件透明化
  16. eclipse出现Package jdk.internal.jimage.decompressor in both module java.base and module jrt.fs错误解决办法
  17. 关于在校大学生的Edu教育邮箱能够薅到的羊毛
  18. Microsoft Office Visio的功能/价值及不足
  19. 2, excel vba 来一个简单好玩的
  20. ubuntu安装java依赖,Ubuntu出现“dpkg: 依赖关系问题使得libbsd0:i386的配置工作不能继续”错误...

热门文章

  1. 江苏大学考研计算机录取率,报考数据分析—江苏大学
  2. MATLAB gui 欢迎界面 插入图片
  3. RGB to xml(labelimg应用)
  4. 多输出模型的评价和模型预测
  5. AI实战:基于AdvancedEAST的自然场景图像文本检测算法
  6. 高精度目标检测算法-RFBNet
  7. 实现用于意图识别的文本分类神经网络
  8. yolov5论文叫什么_熬夜写论文是一种怎样的体验
  9. html 悬停显示标题,JS实现TITLE悬停长久显示效果完整示例
  10. python多重继承super父类参数_python – 多重继承如何与super()和不同的__init __()参数一起使用?...