搜索引擎爬取网页内容的工具我们都称之为搜索引擎蜘蛛,如果希望屏蔽蜘蛛抓取某个页面到搜索引擎服务器中,可以通过robots.txt文件来限制蜘蛛抓取。很多朋友希望屏蔽网站后台禁止搜索引擎蜘蛛抓取,又不希望其他用户了解到网站后台地址,这时候能否通过robots.txt文件来限制呢?

首先,我们来分析一下robots.txt文件的作用以及使用方法。搜索引擎蜘蛛来到站点准备抓取网页内容之前,会先访问该网站根目录下的robots.txt文件,如果不存在该文件,则搜索引擎蜘蛛默认这个网站允许其全部抓取。robots.txt是一个简单的纯文本文件(记事本文件),搜索引擎蜘蛛通过robots.txt里的内容来判断该网站是否可以全部抓取或部分抓取。

如果你希望网站所有页面都被搜索引擎蜘蛛抓取而不屏蔽任何页面的话,你可以不上传robots.txt文件或者上传一个空的robots.txt文件。(目前大多数的内容管理系统源程序都会自带一个空的robots.txt文件)

robots.txt文件的标准格式如下:

User-agent: *

Disallow: /secret.html

Disallow: /index.php?

Disallow: /qiyecao/

如果你希望屏蔽某个页面seacert.html不被抓取,只需在robots.txt文件中加入Disallow:

/secret.html这行代码(该网页是相对网站根目录的网址,如果不是在根目录下面,请加上/xxxx/secret.html上级目录文件夹名称)。

如果你希望某个文件夹全部不被抓取,你可以通过Disallow:

/qiyecao/语法实现,但是搜索引擎蜘蛛仍然可以抓取/qiyecao.html这个页面。

注意事项:如果某个页面已经被搜索引擎抓取,你修改robots.txt文件屏蔽的话,可能需要1到2个月的时间才能被搜索引擎删除。不过你想希望加快删除速度的话,可以通过google网站管理员工具进行删除。如果你的网站首页是index.asp,最好也不要禁止抓取index.html或者index.php等页面,防止出现抓取错误。

最后解释一下本文开始提出的问题:屏蔽网站后台禁止搜索引擎蜘蛛抓取,又不希望其他用户了解到网站后台地址,这时候能否通过robots.txt文件来限制。事实上,这是无法通过robots.txt文件来限制的,因为robots.txt是一个放在网站根目录的文本文档,任何人都是可以访问的。屏蔽搜索引擎蜘蛛抓取网站后台同时又不让其他访客知道的的方法是在网站后台登陆首页中添加noindex标签。

html元素不让蜘蛛抓取,屏蔽网站后台禁止搜索引擎蜘蛛抓取的方法相关推荐

  1. 如何屏蔽网站不需要的蜘蛛

    最近查看网站日志发现了好多访问频繁的IP,详细查看后才发现是一些不认识的蜘蛛 蜘蛛有以下几种 Baiduspider百度蜘蛛 User-agent: Baiduspider Disallow: / S ...

  2. 怎么用python爬取整个网站_5分钟学会Python爬取整个网站

    本图文配套视频演示 爬取网站的步骤: 设定爬取目标 目标网站:我自己的博客,疯狂的蚂蚁 http://www.crazyant.net 目标数据:所有博客文章的 - 链接.标题.标签 2. 分析目标网 ...

  3. 阻止搜索引擎抓取网站的工具_使用PHP将抓取的网站转变为搜索引擎

    阻止搜索引擎抓取网站的工具 In the previous part of this tutorial, we used Diffbot to set up a crawljob which woul ...

  4. python爬取今日头条后台数据_爬虫爬取今日头条数据代码实现

    课程链接 讲师的公众号文章:今日头条数据抓取及持久化(完整代码版,含IP和用户代理)​mp.weixin.qq.com 课程代码 抓取并持久化user-agent工具utils.py 对于爬虫工具,需 ...

  5. python爬虫爬取58网站数据_Python爬虫,爬取58租房数据 字体反爬

    Python爬虫,爬取58租房数据 这俩天项目主管给了个爬虫任务,要爬取58同城上福州区域的租房房源信息.因为58的前端页面做了base64字体加密所以爬取比较费力,前前后后花了俩天才搞完. 项目演示 ...

  6. 蜘蛛爬取网页服务器卡死,总结搜索引擎蜘蛛抓取不到页面的原因及改善措施

    在诊断过程中,我们会遇到这样的问题.有些网页内容很好,用户可以正常访问.然而,搜索引擎蜘蛛只是不能正常访问和抓取它们,导致搜索结果覆盖率不足,这是百度等搜索引擎和网站的损失.百度称之为"抢夺 ...

  7. 系统检测到您正在使用网页抓取工具访问_SEO优化:搜索引擎蜘蛛抓取异常,原来是这个原因!...

    有一些网页内容优质,用户也可以正常访问,但是搜索引擎蜘蛛却无法正常访问并抓取,造成搜索结果覆盖率缺失,对搜索引擎对站点都是一种损失,百度把这种情况叫"抓取异常".对于大量内容无法正 ...

  8. 搜索引擎蜘蛛抓取配额是什么?

    一月份时,Google新的SEO代言人Gary Illyes在Google官方博客上发了一篇帖子:What Crawl Budget Means for Googlebot,讨论了搜索引擎蜘蛛抓取份额 ...

  9. [方法篇](禁止YisouSpider|EasouSpider|EtaoSpider)搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施...

    搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施[方法篇](禁止YisouSpider|EasouSpider|EtaoSpider) 上一遍文章<搜索引擎蜘蛛给网站带来的危害,有效指引爬虫 ...

最新文章

  1. 学计算机为什么会突发,为什么电脑会突然自动重启?
  2. spring boot使用yaml替代properties
  3. Colly实现豆瓣电影Top250爬取
  4. 《自然》年度十大人物出炉!中国科学家入选
  5. orm和mysql_orm与mysql
  6. SSM框架入门学习记录
  7. python中大括号是什么_Python中模块(Module)和包(Package)到底是什么,有什么区别?...
  8. 【MySQL 5.7 】从库1032 报错处理
  9. 关注原方案,寻找新方案
  10. 计算机视觉论文-2021-06-01
  11. 【FICO】SAP中的银行
  12. maxon motor 471486电机
  13. Excel怎么合并两个或者多个单元格里面的内容
  14. 论文笔记:EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection
  15. 智能车常用的上下位机:匿名上位机 V7,TFMiniPlus 激光雷达测距
  16. java.io.FileNotFoundException: file:/xxx/xxx.jar!/BOOT-INF/classes!/xxx.xlsx (没有那个文件或目录)
  17. NFT: 开启加密艺术时代的无限可能
  18. apm性能监控系统,现在做Android开发有前途吗?系列篇
  19. win10+vs2017配置MPI和OpenMP
  20. 通俗讲解MOSFET

热门文章

  1. 内部类(成员内部类、局部内部类、匿名内部类、静态内部类)
  2. 时间戳 和 时间的相互转换
  3. Parallels虚拟机Linux和Mac之间共享文件夹
  4. Linux 初始化网络配置ens33
  5. JavaScript事件大全补充-制作一个属于自己的单机版网页相册
  6. OpenCV VideoWriter打开失败
  7. (C语言)蓝桥杯-振兴中华
  8. md5 16位加密 java_MD5加密,MD5在线加密,MD5校验
  9. KOL运营之——如何与网文作者高效地约稿?
  10. matlab高光谱图像分类识别