百度蜘蛛抓取我们的网站是希望将我们的网页收录到它的搜索引擎里,未来当用户搜索时,能为我们带来一定的SEO流量。当然我们并不是希望搜索引擎什么都抓取。

所以,这时我们只希望我们希望在搜索引擎被搜索到的内容进行抓取。像用户隐私、后台信息等都不希望搜索引擎被抓取和收录。怎么屏蔽百度蜘蛛抓取网站?

解决这样的问题最好的方式有两种,如下:

robots协议文件屏蔽百度蜘蛛抓取

robots协议是一个放在网站根目录下协议文件,可以通过URL地址:http://你的域名/robots.txt进行访问。当百度蜘蛛抓取我们网站时,会先访问这个文件。因为里面告诉了蜘蛛哪些可以抓取,哪些不可以抓取。

robots协议文件的设置比较简单,可以通过User-Agent、Disallow、Allow这三个参数进行设置。

User-Agent:对不同搜索引擎的声明;

Disallow:不允许抓取的目录或页面;

Allow:允许抓取的目录或页面,一般可以省略不写,因为你不写什么是不可以抓的那就都是可以抓的;

下面我们来看一个示例,场景是我不希望百度抓取我网站所有的css文件,data目录、seo-tag.html页面

User-Agent:Baidusppider

Disallow:/*.css

Disallow:/data/

Disallow:/seo/seo-tag.html

如上,user-agent声明的蜘蛛名称,这个意思也就是说,针对百度蜘蛛。下面不能抓取”/*.css”,首先前面的/指的是根目录,也就是你的域名。*是通配符,代表任意内容。其意思就是所有文件,以.css结尾的都不能抓取。下面两个你自己体会吧。逻辑是一样的。

如果你想检测自己最后设置的robots文件对不对,可以访问这篇文章《检查robots是否正确的工具介绍》,有详细的工具能够检测你的设置。

通过403状态码,限制内容输出,屏蔽蜘蛛抓取。

403状态码,是http协议中一个网页返回状态码。当搜索引擎碰到403状态码时,就知道这类页面是又权限限制的。我是不能访问的。例如需要登录才能查看的内容,搜索引擎本身是不会登录的,那么你返回403的同时,他也知道了这都是权限设置页面,无法读取内容。自然也就不会收录。

返回403状态码的同时,应该有一个类似404页面的页面。提示用户或者蜘蛛这类页面想要做什么才能访问。两者缺一不可。你只有提示页面,状态码返回200,那对于百度蜘蛛就是大量的重复页面了。有403状态码但返回不同的内容。这也不是很友好。

最后针对robot协议,还想再补充一点:“现在搜索引擎会通过你网页的排版、布局来识别你网页的体验友好度,如果屏蔽了css文件、布局相关的js文件的抓取,那么搜索引擎就不知道你的网页布局是好是坏了。所以不建议屏蔽这些内容不让蜘蛛抓取”。

以上就是“怎么屏蔽百度蜘蛛抓取网站?”的全部内容,希望能够对你有所帮助。当然如上的两个设置除了针对百度蜘蛛外,对所有的蜘蛛都有效果的,设置时请谨慎。

php通过函数怎么禁止百度蜘蛛抓取,怎么屏蔽百度蜘蛛抓取网站?相关推荐

  1. 屏蔽垃圾蜘蛛php代码,伪静态屏蔽垃圾蜘蛛的方法

    所以这里还是建议屏蔽一些垃圾蜘蛛! 目前宝塔的防火墙UA能有效的屏蔽部分蜘蛛,但是有一些蜘蛛对这个是无效的,所以这里用修改伪静态方式有效闭屏蜘蛛,代码如下! SetEnvIfNoCase ^User- ...

  2. 百度关键词抓取工具_百度网站关键词最蜘蛛快排 - 关于网站网站死链

    原出处:最蜘蛛快排 原文链接:http://seo.zuizhizhu.com 百度网站关键词最蜘蛛快排 seo.zuizhizhu.com 网站关键词快速排名优化,支持百度快速排名,搜狗快速排名,3 ...

  3. php屏蔽蜘蛛,如何屏蔽垃圾蜘蛛抓取页面

    在服务器日常维护过程中我们经常会发现日志中有很多网络蜘蛛爬取的记录,这些蜘蛛有些是知名的并对网站收录流量有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力, ...

  4. 美国服务器百度抓取耗时不稳定,百度或者其他搜索引擎抓取频次快慢的因素,还会受什么有影响?...

    什么是搜索引擎的抓取频次? 抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数. 对于百度搜索引擎来说非常智能: 如果百度搜索引擎对站点的抓取频次过高,就很有可能造成服务器不稳定(相对而言 ...

  5. 百度,谷歌,360,搜狗,神马等蜘蛛IP段大全

    百度蜘蛛(Baiduspider)爬取是搜索引擎获得页面内容的一个重要的途径,通过蜘蛛的抓取可以得到一个页面的最主要的内容从而收录百度数据库系统,每次抓取之后都会再与数据库原有的信息进行比对,来确定页 ...

  6. 高校新闻抓取分析之百度新闻篇---数据抓取

    高校新闻抓取分析之百度新闻篇-数据抓取 tips: 本文代码使用python3编写 代码仓库 使用urllib抓取数据 百度新闻网页界面分析 在我读大学的时候(18年前),百度新闻还能基于新闻标题或者 ...

  7. 高校新闻抓取分析之百度新闻篇---数据清洗解析

    高校新闻抓取分析之百度新闻篇-数据清洗解析 tips: 本文代码使用python3编写 代码仓库 使用re抓取解析数据 前言 在上一篇文章中,成功构建URL并获取到高校新闻数据. 现在将对请求回来的数 ...

  8. 屏蔽百度蜘蛛或某一爬虫的四种方法

    今天打开自己的网站发现很卡,但是检查网站的访问量并不高,登陆服务器发现流量很高,于是查看访问日志,发现网站日志中开头的某一ip段大量频繁访问,来自一个叫Bytespider的爬虫,就在网上查找方法想屏 ...

  9. 巨头间的战争,我眼中的的“淘宝为什么屏蔽百度抓取”

    来自http://news.paidai.com/12967 作者:芜湖SEO舒扬 1.现状和思考    如今,假设在百度里搜索淘宝网,您所示结果应该是这样的,"由于该站点的robots.t ...

最新文章

  1. SQL查询结果集对注入的影响及利用
  2. 聊聊redis的HealthIndicator
  3. diou diou_nms代码分享
  4. 在vue2.x项目中怎么引入Element UI
  5. c语言ffffff错误,C语言打印16进制出现0xffffff现象的问题剖析!
  6. hdu 1892二维树状数组
  7. 详细介绍如何在win7下首次实现通过Git bash向Github提交项目
  8. [渝粤教育] 西南民族大学 数据结构 参考 资料
  9. MFC中为菜单命令添加快捷键
  10. EasyUI界面显示中文格式(日期中文格式)
  11. 不知该买哪儿的房?数据分析来为你解答哪儿的房值得买
  12. Django 3.1中的WebSockets
  13. java scavenge_Java垃圾收集器之Parallel Scavenge收集器
  14. java计算长方体面积和周长
  15. EmEditor,如何开启显示制表符
  16. php 邮件群发功能,php实现邮件群发
  17. css浮动后页面乱了怎样解决,详解浮动元素引起的问题和解决办法
  18. Selenium安装流程
  19. 微信小程序电商实战-入门篇
  20. 2022年索尼A7R4A与A7R3A如何选择?

热门文章

  1. raspberry pi_Raspberry Pi在单板计算机,新的符合FCC规则的路由器芯片等众多清单上排名第一
  2. ROS笔记(6) ROS通讯机制
  3. vuex的命名空间有哪些_javascript – vuex中模块的命名空间究竟是什么
  4. 等额本息excel模板下载_格格技能——巧用EXCEL函数,算清各种收益利率
  5. java webdriver page object_Selenium2(java)页面对象模型(Page Object) 八
  6. thinkphp 框架自动加载原理_这下你应该理解ThinkPHP的Loader自动加载了
  7. hadoop fs –ls /hbase 无内容_Hadoop大数据实战系列文章之HDFS文件系统
  8. net 架构师-数据库-sql server-003-T-SQL 基本语句
  9. 餐饮店楼梯空间的设计方案
  10. 20181030-4 每周例行报告