造成Baiduspider(百度蜘蛛)抓取网站异常的原因有哪些

有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都是一种损失,百度把这种情况叫“抓取异常”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、排序上都会受到一定程度的负面影响,影响到网站从百度获取的流量。

下面向站长介绍一些常见的抓取异常原因:

1,服务器连接异常

服务器连接异常会有两种情况:一种是站点不稳定,Baiduspider尝试连接您网站的服务器时出现暂时无法连接的情况;一种是Baiduspider一直无法连接上您网站的服务器。

造成服务器连接异常的原因通常是您的网站服务器过大,超负荷运转。也有可能是您的网站运行不正常,请检查网站的web服务器(如apache、iis)是否安装且正常运行,并使用浏览器检查主要页面能否正常访问。您的网站和主机还可能阻止了Baiduspider的访问,您需要检查网站和主机的防火墙。

2,网络运营商异常:网络运营商分电信和联通两种,Baiduspider通过电信或网通无法访问您的网站。如果出现这种情况,您需要与网络服务运营商进行联系,或者购买拥有双线服务的空间或者购买cdn服务。

3,DNS异常:当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。

4,IP封禁:IP封禁为:限制网络的出口IP地址,禁止该IP段的使用者进行内容访问,在这里特指封禁了BaiduspiderIP。当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,请检查相关设置中是否误添加了BaiduspiderIP。也有可能是您网站所在的空间服务商把百度IP进行了封禁,这时您需要联系服务商更改设置。

5,UA封禁:UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份。当网站针对指定UA的访问,返回异常页面(如403,500)或跳转到其它页面的情况,即为UA封禁。当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,useragent相关的设置中是否有Baiduspider UA,并及时修改。

6,死链:页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式:

协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。

内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。

对于死链,我们建议站点使用协议死链,并通过百度站长平台--死链工具向百度提交,以便百度更快地发现死链,减少死链对用户以及搜索引擎造成的负面影响。

7,异常跳转:将网络请求重新指向其它位置即为跳转。异常跳转指的是以下几种情况:

1)当前该页面为无效页面(内容已删除、死链等),直接跳转到前一目录或者首页,百度建议站长将该无效页面的入口超链接删除掉

2)跳转到出错或者无效页面

注意:对于长时间跳转到其它域名的情况,如网站更换域名,百度建议使用301跳转协议进行设置。

8,其它异常:

1)针对百度refer的异常:网页针对来自百度的refer返回不同于正常内容的行为。

2)针对百度ua的异常:网页对百度UA返回不同于页面原内容的行为。

3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况。

4)压力过大引起的偶然封禁:百度会根据站点的规模、访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁。这种情况下,请在返回码中返回503(其含义是“Service Unavailable”),这样Baiduspider会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。

系统检测到您正在使用网页抓取工具访问_造成Baiduspider(百度蜘蛛)抓取网站异常的原因有哪些...相关推荐

  1. 系统检测到您正在使用网页抓取工具访问_SEO优化:搜索引擎蜘蛛抓取异常,原来是这个原因!...

    有一些网页内容优质,用户也可以正常访问,但是搜索引擎蜘蛛却无法正常访问并抓取,造成搜索结果覆盖率缺失,对搜索引擎对站点都是一种损失,百度把这种情况叫"抓取异常".对于大量内容无法正 ...

  2. 系统检测到您正在使用网页抓取工具访问_从网站抓取数据的3种最佳方法

    halo,大家好,我是特仑苏,今天呢给大家分享一些Python从网站抓取数据的一些方法,希望可以给大家带来一些帮助! 原作者:Octoparse团队 原出处:作品文(从网站抓取数据的3种最佳方法)/网 ...

  3. php通过函数怎么禁止百度蜘蛛抓取,怎么屏蔽百度蜘蛛抓取网站?

    百度蜘蛛抓取我们的网站是希望将我们的网页收录到它的搜索引擎里,未来当用户搜索时,能为我们带来一定的SEO流量.当然我们并不是希望搜索引擎什么都抓取. 所以,这时我们只希望我们希望在搜索引擎被搜索到的内 ...

  4. php 让百度蜘蛛抓取403,百度蜘蛛不抓取页面的解决方法

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 我们都知道我们网站的页面要想被百度收录必须经过百度蜘蛛的抓取,因此我们要经常关注我们网站页面被抓取的情况,如果遇到不被抓取的情况,那么就要引起我们的注意, ...

  5. 小牛地图矢量抓取工具_SEO优化网站sitemap需要注意哪些要点才能很好的被百度蜘蛛抓取...

    SEO优化网站sitemap需要注意哪些要点才能很好的被百度蜘蛛抓取 一.全部链接真实有效. 地图的主要目的是方便搜索引擎蜘蛛抓取的,如果地图存在死链,会影响网站在搜索引擎中网站权重的,要仔细检查有无 ...

  6. 百度蜘蛛网站分两个服务器,SEOer需要将百度蜘蛛抓取时间降低到1秒以下

    网站加载速度过度一定会被搜索引擎惩罚,所以当我们一个站优化之初就应该非常严格地控制百度蜘蛛抓取诊断结果在1秒以内.今天,错误博客( cuowu.com )分享的内容为<SEOer需要将百度蜘蛛抓 ...

  7. php 让百度蜘蛛抓取403,百度蜘蛛抓取不存在目录 对应的解决方法

    相信大家在分析百度蜘蛛日志的时候经常会发现一个问题,就是百度蜘蛛经常会抓取一些不存在的目录,比如:我网站没有这些目录,但是百度蜘蛛一直在抓取,或者你会发现百度蜘蛛在抓取自己的隐私目录,或者说php文件 ...

  8. 系统检测到您正在使用网页抓取工具_【安全】58反抓取简介

    0x00 介绍 网络爬虫,常又被称呼为Spider,网络机器人,主要模拟网络交互协议,长时间,大规模的获取目标数据. 普通爬虫会从网站的一个链接开始,不断收集网页资源,同时不断延伸抓取新获取的URL以 ...

  9. 系统检测到您疑似使用网页抓取工具访问本_12款最常使用的网络爬虫工具推荐...

    网络爬虫在当今的许多领域得到广泛应用.它的作用是从任何网站获取特定的或更新的数据并存储下来.网络爬虫工具越来越为人所熟知,因为网络爬虫简化并自动化了整个爬取过程,使每个人都可以轻松访问网站数据资源.使 ...

最新文章

  1. 深度学习难分样本挖掘(Hard Mining)
  2. java08 Set
  3. 【Arduino】HX711驱动程序
  4. Tomcat上具有JAX-WS的Web服务
  5. python 结尾回车_理解不了Python正则表达式?我帮你搞定
  6. 源三:聊聊注册中心在蚂蚁集团的降本提效之路
  7. Python调用百度接口(情感倾向分析)和讯飞接口(语音识别、关键词提取)处理音频文件...
  8. (转)基于Metronic的Bootstrap开发框架经验总结(3)--下拉列表Select2插件的使用...
  9. 剑指Offer值和为S的两个数字
  10. 产品经理与程序员段子都是从哪来的
  11. python地理数据处理库geopy
  12. java执行复杂linux,解决java使用Runtime.exec执行linux复杂命令不成功问题
  13. 【程序员学习运筹学】什么是运筹学
  14. 从零开始学android:认识Android
  15. itx机箱尺寸_讲解 ATX M-ATX ITX 各种主板尺寸
  16. 谈谈我对证券公司一些部门的理解——前、中、后台(转)
  17. 普通最小二乘法平面直线回归问题的三种实现(Python)
  18. java接入支付宝支付api
  19. 【转载】专访罗升阳:老罗的Android之旅
  20. linux切换内核版本

热门文章

  1. 深度学习在医学影像的创新
  2. PS系列之 -- 利用蒙版取消图片衔接的痕迹
  3. Blender:下载并安装文本编辑器(Text Editor)代码自动补全插件
  4. 我为什么卸载了百度手机助手(我们应不应该抵制百度的这种不要脸的推广行为)
  5. python井字棋小游戏代码_python实现井字棋小游戏
  6. 微信办公的痛苦,正在成为创业公司的机会
  7. 皇御贵金属:黄金价格趋势图分析方法有哪些?
  8. android8.0画中画功能,支持画中画功能:华为Mate 9运行安卓8.0亮相
  9. 在Word从指定页插入页眉 页眉内容自动填充为章节标题
  10. 百度云上传(离线)接口,备份数据到百度云