robots.txt文件可以有效的屏蔽搜索引擎抓取我们不需要被抓取的页面和网站源文件,其中的好处是限制搜索引擎过多的抓取不必要的内容,减少搜索引擎蜘蛛进行不必要的网站爬寻分散,也是为了让我们的网站不必要的内容不在搜索引擎被收录,不让别人搜索到。 其中什么样的文件会被限制抓取呢?

一、是否通过robots.txt来屏蔽动态页面,减少页面的重复抓取?

其实个人建议普通网站不必要进行动态页面的屏蔽,搜索引擎一般会自动判断是否重复,普通网站内容并不是非常多,一般出现重复页面的可能性也比较低,如果是信息站和论坛站等建议屏蔽动态页面。

二、robots.txt屏蔽特殊页面,隐私内容的屏蔽。

robots.txt屏蔽特殊页面,网站隐私内容的屏蔽,其实对于一个网站来说,隐私内容比较难实现,在无程序支持的前提下,这里说的隐私是指一些不想被流传到互联网的内容,屏蔽搜索引擎蜘蛛避免在互联网被泛滥,如:网络培训班培训资料。

三、网站特殊文件夹屏蔽

特殊文件夹一般是指,网站程序安装文件,动态功能页面,多于的文件夹,后台功能等。

robots.txt文件的好处刚才也说了,就是提供搜索引擎蜘蛛看的,告诉它哪些文件你不要看,不给你的,这是它的优点,但是robots.txt在告诉搜索引擎蜘蛛的同时,也在告诉其他人,这个网站的隐私,比如:网站后台文件夹地址,相信很多站长都会在robots.txt上面填写,如:Disallow:/dede/ 从这里我们可以看错应该是织梦程序,当然我们可以更改。

网站屏蔽的安装文件地址,如:Disallow: /install/ 这一般是程序安装文件的地址,就算我们后台地址更改后一样能分析出是什么程序做出来的。

屏蔽网站后台登录地址,如:Disallow: /login.asp  这样就明显告诉有心人你的后台登录地址了。

屏蔽网站隐私内容,如:Disallow: /123.html  也只是针对搜索引擎,对人为我们还是有风险。

上面说的几点都是出于安全性的考虑,那我们还写不写robots.txt呢?

根据我个人的操作来说,robots.txt还是要些的,毕竟优化很多时候离不开他,但是对于网站安全我们也要采取一些必要的措施与手段,那我们只能在程序的安全性上做手脚了,但要怎么做这手脚是程序员发挥作用的时候了,比如会员功能等。

其次,为了不告知他人我们的隐私,那么我们可以在robots里用“*”来隐藏我们的文件名。

从上图可以见,我们可以完全不暴露自己的文件名了,同时也能够对搜索引擎蜘蛛进行屏蔽!

转载于:https://www.cnblogs.com/dodui/archive/2013/05/17/3084039.html

robots.txt限制些什么屏蔽内容与安全性的考虑相关推荐

  1. robots.txt文件里面怎样屏蔽蜘蛛

    robots.txt文件,是每个网站都可以用来跟,遵循robots协议的搜索引擎蜘蛛,进行对话的一段代码. 我们先来看一个列子,让搜索引擎抓取所有的内容,代码如下: User-agent: * All ...

  2. WP博客wordpress,robots.txt写法

    Robots.txt是放在博客根目录给搜索引擎看的一个文件,告诉搜索引擎什么链接能收录什么链接不能收录以及什么搜索引擎能够收录,在SEO中有着举足轻重的作用. WordPress本身就有很多地方是非添 ...

  3. robots.txt屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃(资源宝博客整理分享)

    屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃 robots协议 也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的蜘蛛,此网站中的哪些内 ...

  4. ROBOTS.TXT屏蔽笔记、代码、示例大全

    自己网站的ROBOTS.TXT屏蔽的记录,以及一些代码和示例: 屏蔽后台目录,为了安全,做双层管理后台目录/a/xxxx/,蜘蛛屏蔽/a/,既不透露后台路径,也屏蔽蜘蛛爬后台目录 缓存,阻止蜘蛛爬静态 ...

  5. 如何禁止同IP站点查询和同IP站点查询的原理分析 Robots.txt屏蔽BINGBOT

    很多站长工具中都有"同IP站点查询"."IP反查域名"这种服务不少人都不知道是什么原理,其实这些服务几乎都是用BING(以前的LIVE)来实现 的,BING有个 ...

  6. Robots.txt和Robots META

    Robots Text File Robots.txt robots.txt是一套指示搜索引擎(蜘蛛)如何抓取你的网页内容的一张地图,他告诉蜘蛛哪些需要抓取,哪些不要抓取(当然,这只是针对那些遵守这个 ...

  7. Robots.txt - 禁止爬虫(转)

    Robots.txt - 禁止爬虫 robots.txt用于禁止网络爬虫访问网站指定目录.robots.txt的格式采用面向行的语法:空行.注释行(以#打头).规则行.规则行的格式为:Field: v ...

  8. 织梦根目录感染abc.php,织梦SEO优化:织梦dedecms根目录下robots.txt文件设置详解! - 张俊SEO...

    对于dedecms这个建站程序,我想大多数站长都曾经用过,他功能之强大,几乎能秒杀一切内容管理系统,而且所有页面都能生成静态的html文件,对于SEO优化也是相当有优势的,说道SEO优势,就不得不提到 ...

  9. Linux企业级项目实践之网络爬虫(29)——遵守robots.txt

    Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...

最新文章

  1. 入围CVPR最佳论文,这项AI基础研究让我们对虎牙刮目相看
  2. 云存储巧解三大存储难题
  3. CentOS 7.x安装配置
  4. 【Python可视化】Windows 10系统上Pyecharts安装教程
  5. linux getdents 例子,Linux内建命令和外部命令(整理)
  6. 多传感器融合SLAM研究和学习专栏汇总
  7. 一道企业shell编程实战题-看看谁能快速搞定
  8. CSS3学习笔记之loading动画
  9. Windows Debugging之六
  10. 鸿蒙系统翻车了,鸿蒙“翻车”? 网友发现鸿蒙系统居然是安卓9.0
  11. 于飞seo:dedecms织梦文件目录说明讲解大全
  12. Beyond compare vs kdiff3
  13. BZOJ 4565 字符合并 (区间 DP 状压 DP)
  14. 【纯干货】Vue仿蘑菇街商城项目(vue+koa+mongodb)X
  15. android flex 开发环境搭建,Android6.0 MTK6737 开发环境搭建 · Younix’s Studio
  16. python数字加密资产_GitHub - ezpod/crypto-exchange-engine: 数字加密资产交易引擎的原理性实现代码,汇智网提供...
  17. 硬件故障检测以及故障模拟触发工具
  18. chrome插件安装
  19. DeFi总锁仓金额突破36亿美元, OKEx赋能DeFi大盘点
  20. 在C++中部署python深度学习-学习笔记

热门文章

  1. php 期望参数1为资源,php – imagesx()期望参数1是资源,给定布尔值
  2. 梦想cad控件 android,梦想CAD控件 2018.7.26更新
  3. linux mint 安装内核,使用Ukuu在Ubuntu/Linux Mint上安装Linux Kernel 5.0的方法
  4. sqoop从mysql导入数据到hdfs_利用Sqoop将数据从数据库导入到HDFS
  5. css手型指针_前端基础面试题(HTML+CSS部分)
  6. java servlet init方法_Servlet详解之两个init方法的作用
  7. jquery ajax html php区别,ajax与jquery的区别是什么
  8. python实现简单的http服务器_python实现简单http服务器功能
  9. 怎么判断自己启动的线程是否执行完成 java_Java面试笔记(上)
  10. 人脸验证(四)--CenterLoss