浅谈:如何屏蔽百度谷歌蜘蛛?
方法一、创建robots.txt文本
对于robots.txt文本的相关概念或者是协议我就不提了,主要是直接告诉大家这个文件的写法。
文件应该同时包含2个域,“User-agent:”和“Disallow:”,每条指令独立一行。
(1)User-agent:
指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:
User-agent: Googlebot
只允许Google的蜘蛛抓取;
User-agent: *
允许所有蜘蛛抓取。
注意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。
(2)Disallow:
指定禁止蜘蛛抓取的目录或文件,如:
Disallow: /help.php
禁止抓取根目录下help.php文件;
Disallow: /admin/
禁止抓取根目录下的admin子目录中任何内容;
Disallow:
值为空时,表示不限制,蜘蛛可以抓取站内任何内容。
Disallow: /
禁止了蜘蛛抓取根目录下的所有内容。
如果需要指定多个目录或文件,可以用多个“Disallow: 文件或目录名”来指定,但必须每一项单独一行。
示例:
禁止百度蜘蛛:
User-agent: baiduspider
Disallow: /
禁止谷歌蜘蛛:
User-agent: Googlebot
Disallow: /
禁止所有蜘蛛:
User-agent: *
Disallow: /
方法二、robots Meta标签
robots.txt是放在网站中,文件级的网络蜘蛛授权;而robots Meta标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。
Meta robots标签必须放在<head>和</head>之间,格式:
<meta name=”robots” content=”index,follow” />
content中的值决定允许抓取的类型,必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。共有4个参数可选,组成4个组合:
index,follow:允许抓取本页,允许跟踪链接。
index,nofollow:允许抓取本页,但禁止跟踪链接。
noindex,follow:禁止抓取本页,但允许跟踪链接。
noindex,nofllow:禁止抓取本页,同时禁止跟踪本页中的链接。
以上1和4还有另一种写法:
index,follow可以写成all,如:
<meta name=”robots” content=”all” />
noindex,nofollow可以写成none,如:
<meta name=”robots” content=”none” />
需要注意的是,robots Meta标签很多搜索引擎是不支持的,只有少数搜索引擎能够识别并按给定的值抓取。所以,尽可能的使用robots.txt文件来限制抓取。 http://www.020bdf.com

百度与谷歌蜘蛛抓取 配置相关推荐

  1. 蜘蛛会抓取html框架,百度蜘蛛抓取网站的基本规则

    网站做优化的都是希望搜索引擎蜘蛛可以快速抓取,这些大家都是希望的.但是蜘蛛抓取SEO网站的基本规则又是怎样的? 第一:高质量内容 网站高质量内容永远是搜索引擎蜘蛛抓取的首选.不管是谷歌还是百度,高质量 ...

  2. 小牛地图矢量抓取工具_SEO优化网站sitemap需要注意哪些要点才能很好的被百度蜘蛛抓取...

    SEO优化网站sitemap需要注意哪些要点才能很好的被百度蜘蛛抓取 一.全部链接真实有效. 地图的主要目的是方便搜索引擎蜘蛛抓取的,如果地图存在死链,会影响网站在搜索引擎中网站权重的,要仔细检查有无 ...

  3. php通过函数怎么禁止百度蜘蛛抓取,怎么屏蔽百度蜘蛛抓取网站?

    百度蜘蛛抓取我们的网站是希望将我们的网页收录到它的搜索引擎里,未来当用户搜索时,能为我们带来一定的SEO流量.当然我们并不是希望搜索引擎什么都抓取. 所以,这时我们只希望我们希望在搜索引擎被搜索到的内 ...

  4. php 让百度蜘蛛抓取403,百度蜘蛛不抓取页面的解决方法

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 我们都知道我们网站的页面要想被百度收录必须经过百度蜘蛛的抓取,因此我们要经常关注我们网站页面被抓取的情况,如果遇到不被抓取的情况,那么就要引起我们的注意, ...

  5. 百度蜘蛛抓取网页过程详解

    蜘蛛抓取第一步 爬行和抓取 爬行到你的网站网页,寻找合适的资源.蜘蛛它有一个特性,那就是他的运动轨迹通常都是围绕着蜘蛛丝而走的,而我们之所以将搜索引擎的机器人命名为蜘蛛其实就是因为这个特性.当蜘蛛来到 ...

  6. php 让百度蜘蛛抓取403,百度蜘蛛抓取不存在目录 对应的解决方法

    相信大家在分析百度蜘蛛日志的时候经常会发现一个问题,就是百度蜘蛛经常会抓取一些不存在的目录,比如:我网站没有这些目录,但是百度蜘蛛一直在抓取,或者你会发现百度蜘蛛在抓取自己的隐私目录,或者说php文件 ...

  7. 美国服务器百度抓取耗时不稳定,百度或者其他搜索引擎抓取频次快慢的因素,还会受什么有影响?...

    什么是搜索引擎的抓取频次? 抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数. 对于百度搜索引擎来说非常智能: 如果百度搜索引擎对站点的抓取频次过高,就很有可能造成服务器不稳定(相对而言 ...

  8. php屏蔽蜘蛛,如何屏蔽垃圾蜘蛛抓取页面

    在服务器日常维护过程中我们经常会发现日志中有很多网络蜘蛛爬取的记录,这些蜘蛛有些是知名的并对网站收录流量有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力, ...

  9. 全文搜索引擎有哪些?_搜索引擎工作原理是什么?seo蜘蛛抓取会受到哪些因素影响?...

    seo优化就是搜索引擎优化,就是对网站进行各方面调整,使其更符合搜索引擎的算法要求,从而得到更多的流量及转化,所以做seo必须要多搜索引擎有更多的认识和了解.搜索引擎有哪些功能模块?它的工作原理是什么 ...

最新文章

  1. Spline interpolation and Savitzki-Golay smoothing
  2. python smtp模块发送邮件
  3. SNS-HDR Pro(HDR技术图像处理)中文版
  4. 中国交通建设PPP模式产业投资现状及运营前景规划咨询报告2021版
  5. HTFS.Software.v7.3-ISO 1DVD(传热模拟,最新完全解密版)
  6. linux自动应答,08. 创建 ks.cfg自动应答文件
  7. C#DateTime.ToString格式化时间字符串
  8. 中国人寿构建国内首个Silverlight企业级应用
  9. 自动将存储过程转成C#代码的过程[转]
  10. ubuntu for win10 里运行apache+php
  11. android 代码中使用dp,简单谈谈Android中SP与DP的区别
  12. DCGAN baseline
  13. element-ui主表格多选后 二级弹框表格默认全选数据
  14. 如何下载指定版本的elasticsearch和kibana
  15. python 运算符及 字符串格式化输出方式 if条件语句判断 random函数简单应用练习
  16. c语言多位数加减,两个超长正整数的加法
  17. 【算法】小团的车辆调度(美团2021校招题)
  18. 傲腾内存简介 AEP 简介
  19. 还记得最初的九九乘法表吗?
  20. 三角形边长求高的c语言函数公式,三角形内三角函数与边长计算公式

热门文章

  1. QFrame类学习笔记
  2. 创建一个银行账户的继承层次,表示银行的所有客户的账户。每个客户都能在他们的银行账户存钱,取钱。但是账户可以分为更具体的两种类型,例如,依靠存款生息的存储账户SavingsAccount类
  3. 微信朋友圈广告投放流程
  4. c 语言string类用法,C++中的string类用法简介
  5. Loam livox 论文翻译和总结
  6. 独立站精品模式占据主流
  7. 计算机“字符”,“字节”以及各单位说明
  8. Docker——Docker in Docker原理与实战
  9. Direct3D学习笔记(一)——精灵(Bomo_catcher游戏)
  10. 通过KEGG数据库获取某通路内基因list