robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt

1、 robots.txt放置位置:网站根目录下,如果你的域名是解析到web,那么robots文件就房在web下。

对于主域名下有多个2级域名的问题,应该是每一个二级域名都有自己独立的robots文件和sitemap。

例如:当spider访问一个网站​​http://www.jiangxiaoyu.com​​时,首先会检查该网站中是否存在​​http://www.jiangxiaoyu.com/robots.txt​​,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

2、 robots.txt语法:

1)User-agent 定义搜索引擎。一般情况下,网站里面都是:User-agent: *,这里*的意思是所有,表示定义所有的搜索引擎。比如,我想定义百度,那么就是User-agent: Baiduspider;定义google,User-agent: Googlebot。

2)Disallow 禁止爬取。如,我想禁止爬取我的admin文件夹,那就是Disallow: /admin/。禁止爬取admin文件夹下的​​login.html​​,

Disallow: /admin/login.html。

3)Allow 允许。Disallow禁止。例如禁止admin文件夹下的所有文件,除了.html的网页,

Allow: /admin/.html$

Disallow: /admin/。

4)$ ​​结束符​​。例:Disallow: .php$ 这句话的意思是,屏蔽所有的以.php结尾的文件,不管前面有多长的URL,如abc/aa/bb//index.php也是屏蔽的。

5)* 通配符符号0或多个任意字符。例:Disallow: *?* 这里的意思是屏蔽所有带“?”文件,也是屏蔽所有的动态URL。

6)Sitemap: 网站地图 告诉爬虫这个页面是网站地图

Sitemap分类: ①首页+分类页

robots.txt存放的位置robots.txt文件的作用及写法 (搜索引擎)相关推荐

  1. robots.txt文件的作用及写法 (搜索引擎)

    robots其实就是指Robots协议,Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过 ...

  2. C++:include:理解 C++ 中的头文件和源文件的作用

    关于头文件和源文件我们主要围绕: C++编译模式, 声明和定义区别, 符号只能被定义一次, 符号被定义在多个源文件,但是一个源文件只能定义一次 这四个方面来分析论述 1:C++ 编译模式 在一个C++ ...

  3. robots.txt 指定 Sitemap 和robots Meta标签

    robots.txt 指定 Sitemap 和robots Meta标签 robots.txt 指定 Sitemap 和robots Meta标签 http://www.mp322.com/robot ...

  4. verilog从txt中读取_Verilog中的文件操作

    1.文件打开和关闭:首先定义integer指针,然后调用$fopen(file_name,mode)任务,不需要文件时,调用$fopen(file_name) 常用mode包括 "w&quo ...

  5. C语言:有N个学生,每个学生有3门课程的成绩,从键盘输入以上数据(包括学号、姓名、3门课程的成绩),计算出平均成绩,将原有数据和计算出的平均成绩存放在磁盘文件stu_list.txt中。

    /*有N个学生,每个学生有3门课程的成绩,从键盘输入以上数据(包括学号.姓名.3门课程的成绩),计算出平均成绩,将原有数据和计算出的平均成绩存放在磁盘文件stu_list.txt中.*/ /*以5个学 ...

  6. 将多个txt文本文件合并成一个txt文件

    将多个txt文本文件合并成一个txt文件 方法一:批处理文件 有文档1.txt.2.txt 新建一个文档:合并文档.txt,在该合并文档中输入 copy/b 1.txt+2.txt 3.txt 将合并 ...

  7. 【XML文件数据预处理】获取xml文件中所有标签名称及数量||提取某个特定标签的数量||生成包含某个标签的图片索引txt并复制图片到指定文件夹

    目录 1.获取xml文件中所有标签名称及数量 2.提取某个特定标签的数量 3.生成包含某个标签的图片索引txt并复制图片到指定文件夹 1.获取xml文件中所有标签名称及数量 [需求]自己标注的数据集, ...

  8. python中txt转成csv_Python实现txt文件转csv格式

    码农公社 210.net.cn 210= 1024 10月24日一个重要的节日--码农(程序员)节 把txt文件转成成csv文件格式,通过手动打开excel文件,然后导入txt来生产csv文件. 现在 ...

  9. python读txt转array_np.array和txt文件的转换

    np.array保存为txt 格式 numpy.savetxt(fname, X, fmt='%.18e', delimiter=' ', newline='n', header='', footer ...

  10. 在Python中以扩展名.txt查找目录中的所有文件

    如何在python中扩展名为.txt的目录中找到所有文件? #1楼 import os import sys if len(sys.argv)==2:print('no params')sys.exi ...

最新文章

  1. mysql恢复主服务器_MySQL 5.6主从复制第二部分[恢复某一台从服务器]
  2. 比特币官方客户端钱包是用什么语言开发的_5种主流比特币客户端的开发选型...
  3. 手写一个HTTP图片资源服务器,太容易了叭!
  4. Java模板引擎 FreeMarker介绍1
  5. leetcode - 4. Median of Two Sorted Arrays
  6. N32903系列的基础知识(1)
  7. 你以为我在玩游戏?其实我在学 Java
  8. LFSR:线性反馈移位寄存器及其应用
  9. 价值800新视界影视源码全开源源码
  10. 人脸服务器如何与门禁系统对接,人脸识别门禁与自动门接线图
  11. 有机化学类毕业论文文献(推荐10篇)
  12. 分布式搜索引擎es原理
  13. React中Mpegts播放器的使用
  14. qq看点怎么引流?如何通过QQ看点引流营销?
  15. 微信获取nickname mysql乱码_微信nickname乱码(emoji)及mysql编码格式设置(utf8mb4)解决的过程...
  16. ITSM开源工具OTRS安装
  17. LeetCode题目笔记——779. 第K个语法符号,从超时到0ms(bushi)
  18. openTSDB详解之Writing Data
  19. 中国人越来越不愿买新车!二手车电商上半年融资150亿元,谁是大赢家?
  20. 快速飞入城市空中交通的未来-权威公司发布参考

热门文章

  1. PostScript文件
  2. 许丹萍 计算机系,【晋江市“十佳少先队辅导员”】第二实验小学老师许丹萍: 关注每一个队员的成长...
  3. INFOR ERP LN 创建表
  4. 搭建资金运营体系提高企业的运营能力
  5. 光缆接续盒图标_光缆线路施工技术(超全)
  6. [漏洞挖掘]SRC-泛微OA文件上传
  7. python项目总结与展望_2018年度总结,2019展望未来
  8. ELK日志处理之Filebeat工作原理
  9. cogs339 维修数列 ……
  10. 谷歌浏览器Chrome开发者工具详解