一:漏洞名称:

Robots文件信息泄露、Robots.txt泄露

描述:

搜索引擎可以通过robots文件可以获知哪些页面可以爬取,哪些页面不可以爬取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯,如果robots.txt文件编辑的太过详细,反而会泄露网站的敏感目录或者文件,比如网站后台路径,从而得知其使用的系统类型,从而有针对性地进行利用。

检测条件:

Web业务运行正常。

Web中存储敏感的robots文件。

检测方法:

  1. 检测形式多样,工具爬虫扫描得到敏感文件的路径,从而找到robots文件,
  2. 手工挖掘,直接在域名后输入/robots.txt进行查看。

漏洞修复:

安全建议或者修复方案:(可根据实际情况,进行如下对应的修复)

  1. User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
  2. Disallow: / 这里定义是禁止爬寻站点所有的内容
  3. Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
  4. Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
  5. Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
  6. Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
  7. Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
  8. Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
  9. Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
  10. Allow: /tmp 这里定义是允许爬寻tmp的整个目录
  11. Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
  12. Allow: .gif$ 允许抓取网页和gif格式图片
  13. Sitemap: 网站地图 告诉爬虫这个页面是网站地图。

其他补充说明:

来自:robots协议Disallow和Allow后带斜杠/和不带的区别

1、 User-Agent

User-Agent是指定搜索引擎种类的,且User-Agent:后面要有一个空格。

如果只想指定百度搜索引擎,就这样写

Markup

User-Agent: Baiduspider

如果既想指定百度,又想指定谷歌,就像这样写

Markup

User-Agent: Baiduspider
User-Agent: Googlebot

如果还要指定其他搜索引擎,直接再添加一条User-Agent记录,但想指定多个则继续添加多个User-Agent记录,可这样重复添加显得很繁琐,遇见这种情况,我们只需要用星号*代替,就可以表示指定所有搜索引擎,这样我们就只需要写一条记录即可,写法如下:

Markup

User-Agent: *

2、Disallow

Disallow用来说明不允许搜索引擎蜘蛛抓取的URL路径。

例如:Disallow: /index.php 禁止搜索引擎抓取index.php文件

3、Allow

Allow用来说明允许搜索引擎蜘蛛爬行的URL路径

例如:Allow: /index.php 允许搜索引擎抓取index.php文件

4、通配符*

用星号*来做通配符,表示0个或任意多个字符!

例如:Disallow: /*.jpg 网站所有的jpg文件被禁止抓取。

5、结束符$

用美元符号$来做结束符,表示以它前面的字符为结束的url。

例如:

Disallow: /?$   禁止抓取所有以问号?结尾的文件;

Allow: .html$  允许抓取所有以.html为后缀的文件。

注意事项:

一、在“/robots.txt”文件中,至少要有一条Disallow记录,允许收录优先级要高于禁止收录.

例如,我们希望所有搜索引擎只抓取a目录下的b.html这个页面,但在a目录下除b.html以外的所有文件和页面都被禁止抓取,写法如下:

Markup

User-agent: *
Allow: /a/b.htm
Disallow: /a/

以上协议规则表示所有搜索引擎可以抓取a目录下b.htm,该a目录下其他文件都被禁止

二、重点:robots.txt文件屏蔽目录带不带/斜杠的区别 :

首先,我们来看下面两条记,一个带斜杠/,而另一个不带斜杠:

Markup

Disallow: /admin
Disallow: /admin/

根据robots协议写法规范,区别如下:

1、不带/斜杠的Disallow: /admin表示屏蔽admin这个名字开头的所有目录。如:/admin1、/admin2、/admina或者/admin/以下的所有目录都是被屏蔽的。

2、带/斜杠的Disallow: /admin/表示屏蔽/admin/这个目录下的所以内容。如:/admin/abc、/admin/gsd/或者是/admin/4gy6/1df等,/admin/以下的目录都是被屏蔽的。但是它并不屏蔽本目录的内容,如:/admin还是允许抓取的。

浅谈“Robots文件信息泄露”相关推荐

  1. WAR文件信息泄露及利用

    1.1WAR文件信息泄露及利用 1.1.1war简介 WAR文件常见于Java应用中,WAR文件和JAR文件的文件格式是一样的,并且都是使用jar命令来创建,但就其应用来说,WAR文件和JAR文件是有 ...

  2. html转jsp文件乱码问题,浅谈jsp文件和HTML互相引入的乱码问题

    浅谈jsp文件和HTML互相引入的乱码问题 1.在jsp中用include指令引入HTML文件时遇到的问题: jsp.html都可以正确的显示,当jsp引入html时访问jsp页面HTML出现乱码,j ...

  3. 浅谈Robots.txt文件给网站带来的好处

    作为一名web优化职员,我们都很清楚robots.txt文件对我们网站的需要性,Robots.txt文件只不过一个纯文本文件,它就像web地图异样,给搜寻引擎指明线路,当蜘蛛搜索一个站点时,它起首蒲伏 ...

  4. 浅谈本地文件包含利用

    今天在公众号看到了一个本地文件包含的利用工具,看了下国外大牛对该工具的使用的一个视频,感觉很厉害,通过该工具可对存在本地文件包含漏洞的站点进行利用并返回一个LFI shell,通过返回的LFI she ...

  5. 浅谈FTP(文件传输协议)

    FTP(文件传输协议) FTP(File Transfer Protocol) ,是一种处于应用层的用于文件传输的协议.是基于TCP协议的应用层协议,用于在网络上传输文件. 该协议使用的端口号为20和 ...

  6. Qt浅谈之一:内存泄露(总结)

    一.简介        Qt内存管理机制:Qt 在内部能够维护对象的层次结构.对于可视元素,这种层次结构就是子组件与父组件的关系:对于非可视元素,则是一个对象与另一个对象的从属关系.在 Qt 中,在 ...

  7. 浅谈hosts文件的作用

    最近学习了Nginx,做一些必要的笔记,一来是对自己学习的知识的巩固,二来对有同样问题的人有参考作用 文章目录 一 http请求过程 二 hosts文件定义 三 hosts文件作用 四 hosts文件 ...

  8. 浅谈Excel文件解析

    日常生活中,我们经常会遇到一些Excel文件,一般我们只会去用,不会去想他到底是怎样进行数据导入和导出的,今天,我们看看在java应用开发过程中,Excel文件的解析过程. 1. 使用-XSSF解析E ...

  9. 浅谈windows文件拷贝

    目录 一.前言 二.文件拷贝的几种方式 1.使用copy命令 2.使用xcopy命令 3.使用robocopy命令 4.使用powershell中的copy-item 5.使用第三方拷贝工具 一.前言 ...

  10. 交易所安全测试--信息泄露

    0x03 信息泄露 一.概述 信息泄露在安全审计中屡见不鲜,对于存有大量用户KYC信息的交易所来说影响更加深远,是非常严重的安全问题.零时科技安全团队在审计大量交易所后发现,信息泄露问题一般集中于交易 ...

最新文章

  1. Groovy初体验:构建高性能JVM应用
  2. GDCM:获取假冒的Identify File的测试程序
  3. 商业模式(一):北京秒针公司,以互联网广告监测服务为主的生财之道
  4. java开源库web3j的以太坊过滤器(filter)和智能合约事件(event)教程
  5. 总结—angularjs项目
  6. AS运行软件超时解决方法
  7. 新版网易新闻客户端应用源码
  8. sql server存储过程解密
  9. CSS3中的过渡、动画和变换
  10. 数字图像处理与分析---指纹图像增强(Python)
  11. 锋利的jquery(认识jquery)
  12. MySQL数据库索引查询
  13. 涉计算机检查记录表,西安电子科技大学保密监督检查记录表.doc
  14. 【人工智能与信息社会】题库
  15. 太原理工大学信息与计算机学院桑胜波,Direction leader: Sang Shengbo
  16. 穷与焦虑。文/江湖一剑客
  17. C#操作TMPOS58串口打印机一些心得
  18. SSM视频点播系统3.0
  19. 2018年我跑去做淘宝了(续篇)
  20. List的removeAll方法异常

热门文章

  1. Js学习之拖拉事件(drag)
  2. 齐齐哈尔计算机科学与技术学院,齐齐哈尔职工大学官网
  3. JavaScript与JScript的区别
  4. 黑莓bold模拟器无法上网问题之解决
  5. JS Module Revealing Module Pattern
  6. 台式计算机cpu ram hdd,什么是RAM?
  7. html输入QQ自动获取QQ头像,代码实现WordPress评论框输入QQ号码自动获取QQ头像和昵称...
  8. githubpage 配置 出现DNS解析失败
  9. deepin关机卡桌面_有了MyDock,我也有了一个MacBook桌面
  10. 常见ABO血型遗传规律表