Robots协议

前言
写这个robots协议的文章呢是因为我今天在攻防世界上做题的时候碰到一道关于robots协议的题目,当然这道题也是比较简单,我们先简单的写一个解题思路然后介绍robots协议。
题目

我们点开这个网址之后发现是一个空白页

我们根据题目的提示在URL中输入robots.txt(为什么要输入robots.txt,这个与robots协议有关,后面会说明)我们发现页面发生了变化。
然后我们构造php地址就可以得到flag
我们可以看出这道题目是对robots协议的一个基础考察,比较简单。下面我们介绍robots协议。

1. Robots协议基础

robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。

作用:网站告知网络爬虫哪些页面可以爬取,哪些不能爬取

形式:在网站根目录下的robots.txt文件

基本协议语法:

# 注释
* 代表所有
./代表根目录
User-agent: *       # 代表的是那些爬虫
Disallow: /         # 代表不允许爬虫访问的目录

例:京东的Robots协议

http://www.jd.com/robots.txt

可以看到京东对爬虫的限制:

# 对于任何的网络爬虫来源,遵守如下协议
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
# 以下四个网络爬虫不允许爬取任何资源
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /

robots.txt文件放置在网站根目录下。举例来说,当spider访问一个网站时,首先会检查该网站中是否存在robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。(并不是所有的网站都有robots协议)

2、Robots协议的使用

网络爬虫:自动或人工识别robots.txt,再进行内容爬取

约束性:Robots协议是建议但并非约束性,网络爬虫可以不遵守,但存在法律风险。

3、Robots协议的影响

Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的。搜索引擎的原理是通过一种爬虫spider程序,自动搜集互联网上的网页并获取相关信息。而鉴于网络安全与隐私的考虑,每个网站都会设置自己的Robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许。搜索引擎则会按照Robots协议给予的权限进行抓取。

淘宝封杀

2008年9月8日,淘宝网宣布封杀百度爬虫,百度忍痛遵守爬虫协议。因为一旦破坏协议,用户的隐私和利益就无法得到保障,搜索网站就没有任何隐私可言。

京东封杀

2011年10月25日,京东商城正式将一淘网的搜索爬虫屏蔽,以防止一淘网对其的内容抓取。

这里只讲了一些基础的东西,本人也对Robots协议只有浅层的了解,如需深究,请自行百度!

Robots协议基础相关推荐

  1. (转)Robots协议(爬虫协议、机器人协议)

    Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...

  2. Robots协议(爬虫协议、机器人协议)

    Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...

  3. Robots协议写法教程

    Robots协议的约束力 "Robots的约束力固然仅限于自律,无强制性,但这不等于说它背后反映的精神,没有法律基础."中国社会科学院信息化研究中心秘书长姜奇平表示,美国的电子隐私 ...

  4. 2 爬虫 数据解析(bs4,XPath) robots协议 cookie反爬 代理反爬

    爬虫 1 数据解析 1.1 介绍 1.1.1 概念即作用 数据解析就是将一组数据中的局部数据进行提取,用于实现聚焦爬虫. 聚焦爬虫是建立在通用爬虫的基础上,从通用爬虫获取的整个源码数据中提取出指定的数 ...

  5. 网络爬虫信息提取的常识和Robots协议

    网络爬虫介绍 在浏览网站中,所能见到的数据可以通过爬虫程序保存下来. 网络爬虫,小规模可以爬取网页,大规模可以爬取网站,或一系列的网站,超大规模的像搜索引擎的这种难以完成,需要定制开发,爬取全网. 网 ...

  6. FTP、HTTP断点续传和多线程的协议基础

    使用FTP或HTTP协议的下载软件支持断点续传和多线程的协议基础是: FTP用的是REST和SIZE:HTTP用的是Range. 1.FTP实现断点续传的协议基础 REST(有的服务器可能不支持此命令 ...

  7. robots协议是什么?对网站SEO有什么好处?

    在网站优化中,robots协议一直是优化人员重视的细节,想要网站能够有更高的抓取和排名,此协议也起到很大的作用,那么robots协议是什么呢?它对网站的SEO有什么作用和好处呢?下面一起来了解一下. ...

  8. 网工协议基础(4)TCP/UDP协议

    往期回顾 网工协议基础(1) OSI七层模型 网工协议基础(2) TCP/IP四层模型 网工协议基础(3) IP地址 欢迎关注微信公众号[厦门微思网络].www.xmws.cn专业IT认证培训19周年 ...

  9. 网工协议基础(3) IP地址

    往期回顾 网工协议基础(1) OSI七层模型 网工协议基础(2) TCP/IP四层模型 欢迎关注微信公众号[厦门微思网络].www.xmws.cn专业IT认证培训19周年 主要课程:思科.华为.红帽. ...

最新文章

  1. mysql 5.6.24 win32_mysql-5.6.24-win32解决没有my.ini并且修改编码
  2. Android O 7.0 启动优化的一些思路
  3. PostgreSQL增强版命令行客户端(pgcli)
  4. 【数据结构与算法】【算法思想】位图
  5. 《scikit-learn》随机森林之回归
  6. 苏宁张近东:春节期间拿出3亿补贴一线员工
  7. oracle 存储过程记录
  8. Appium下载和配置
  9. Win10桌面极简美化
  10. 计算机管理里找不到固态硬盘,教大家电脑插上固态硬盘提示找不到设备怎么办...
  11. excel公式编辑器_Excel如何用函数公式制作随机抽奖小程序
  12. mysql语句大全文档_mysql语句大全免费
  13. XAMPP打开MySQL报错Port 3306 in use by ... MySQL
  14. disk-磁盘检测工具(二合一)
  15. JAVA企业面试题精选 数据库31-40
  16. JavaScipt基础(持续更新)
  17. latex排版——博雅编辑室
  18. 计算机组成原理算术逻辑单元设计,计算机组成原理:带进位算术逻辑运算单元ALU设计实验.doc...
  19. python例子高考志愿填报系统入口_江苏2018年高考模拟志愿填报入口(官方)
  20. python编写三角形_如何让代码编写python三角形?

热门文章

  1. linux C语言TCP协议实现镜像服务器,并发服务器,文件传输
  2. 万能码的码上付全新的体验(安全扫码专业委员会)
  3. 必读2022年最新西藏水利水电施工安全员模拟试题及答案
  4. VS2012 番茄助手 Visual Assist X下载及安装
  5. openwrt修改默认WIFI名,配置启动参数
  6. Newman(二)之环境搭建
  7. 2016年自动修复综述——自动程序修复方法研究进展 [软件学报 Journal of Software 2016]
  8. Python开发系统实战项目:人脸识别门禁监控系统
  9. 雨水情测报设施包含哪些设备?
  10. dreamweaver制作php动态网页,用Dreamweaver创建PHPmysql动态网站