原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://jimmyli.blog.51cto.com/3190309/1183766
搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施(最准确搜索引擎蜘蛛名称)

简要:
1.搜索引擎爬虫的危害,蜘蛛对网站的负面影响。
2.有效指引搜索引擎对应的措施,及解决方法。
3.收集最新最准确各大搜索引擎蜘蛛名称。

一、搜索引擎的蜘蛛,是不是爬得越多越好?

     当然不是!不论什么搜索引擎的爬虫,来抓取你网站的页面的时候,肯定在消耗你的网站资源,例如网站的连接数、网络带宽资源(空间流量)、服务器的负载。
另外,搜索引擎的爬虫来抓取你的页面数据后,它也不一定收用数据。只代表它“到此一游”留下痕迹而已。因此你的网站为它“服务过、接待过”。
对于一个原创内容丰富,URL结构合理易于爬取的网站来说,简直就是各种爬虫的盘中大餐,很多网站的访问流量构成当中,爬虫带来的流量要远远超过真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级。像提高网站有效利用率虽然设置了相当严格的反爬虫策略,但是网站处理的动态请求数量仍然是真实用户访问流量的2倍。可以肯定的说,当今互联网的网络流量至少有2/3的流量爬虫带来的。因此反爬虫是一个值得网站长期探索和解决的问题。

搜索引擎的主要工作流程(图)

搜索引擎爬虫对网站的负面影响。

1.网站有限的带宽资源,而爬虫的量过多,导致正常用户访问缓慢。
例如,原本虚拟主机主机的连接数受限,带宽资源也是有限。这种情况搜索引擎爬虫受影响呈现更明显。
2.搜索引擎爬虫过频密,抓取扫描很多无效页面。甚至抓页面抓到服务器报502、500 、504 等服务器内部错误了,蜘蛛爬虫还在不停使劲抓取。
不论是实际生产监控,还是网友反映,部分搜索引擎爬虫可用几个词来形容“坏蜘蛛”“恶爬虫”。很多讨论搜索引擎相关的文章,已经将它们列过排行榜。有兴趣的可更多了解它。
百度蜘蛛工作图
3.与网站主题不相关的搜索引擎爬虫消耗资源。
例如,典型的例子搜索引擎“一淘网蜘蛛(EtaoSpider)为一淘网抓取工具。”被各大电子商务购物网站屏蔽。拒绝一淘网抓取其商品信息及用户产生的点评内容。被禁止的原因首先应该是它们之间没有合作互利的关系,还有就是EtaoSpider爬虫是一个抓取最疯狂的蜘蛛。统计发现EtaoSpider爬虫的一天爬行量比“百度蜘蛛:Baiduspider”“360蜘蛛:360Spider”“SOSO蜘蛛:Sosospider”等主流蜘蛛爬虫多几倍,并且是远远的多。重点是EtaoSpider被抓取只会消耗你的网站资源,它不会给你带来访问量,或者其它对你有利用的。中文成语词典可用一个词来形容,这个词留给大家想吧。
4.一些搜索引擎开发程序员,它们写的爬虫程序在测试爬行。你懂的...
5.robots.txt文件不是万能!
肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。
不错正规的搜索引擎会遵守规则,且不会及时生效。实际中某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt。也可能它抓取后不一定留用;或者它只是统计信息,收集互联网行业趋势分析统计。
6.还有一种它们不是蜘蛛,但其有蜘蛛的特性。例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具,等等,只有你想不到的工具,没有它做不到的...
二、有效指引搜索引擎对应的措施,及解决方法:

1.依据空间流量实际情况,就保留几个常用的屏蔽掉其它蜘蛛以节省流量。以暂时空间流量还足够使用,先保证正常浏览器优先。

2.从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP。这是最直接、有效的屏蔽方法。

3.WWW服务器层面做限制。例如Nginx,Squid,Lighttpd,直接通过“http_user_agent”屏蔽搜索引擎爬虫。

4.最后robots.txt文件做限制。搜索引擎国际规则还是要遵循规则的,让robots.txt明示公布于众。
后续文章会详细介绍该方法,包括如果发现蜘蛛,从网站的日志里统计蜘蛛,发现未知的蜘蛛。针对不同的蜘蛛,屏蔽蜘蛛、禁止爬虫怎么样更高效,更快捷。并且通过实例来介绍。
象形图示蜘蛛,爬虫机器人(图)
三、收集最新最准确各大搜索引擎蜘蛛名称
信息来源线上:最新最准确

根据线上空间的访问日志来整理常见的蜘蛛名称,不求最全,但力求爬虫信息资料最新最准确。以下搜索引擎蜘蛛名称都是根据线上空间日志亲手提取。
各种搜索引擎的蜘蛛爬虫会不断地访问抓取我们站点的内容,也会消耗站点的一定流量,有时候就需要屏蔽某些蜘蛛访问我们的站点。
其实有效常用的搜索引擎就那么几个,只要在robots.txt文件里把常用的几个搜索引擎蜘蛛允许放行就好了,其它的爬虫统统通过通配符(*)禁止掉,屏蔽某些蜘蛛。
现况:

从网上获取的搜索引擎蜘蛛名称,几乎都是原文复制粘贴的转载又转载的文章,而且很多的资料都是过期的了,这些旧资料根本就没修正和更新(实际用处不大),并且关于蜘蛛名称、大小写众说不一,根本就获取不到一个准确无误的资料信息。
最新最准确各大搜索引擎蜘蛛名称:
1、百度蜘蛛:Baiduspider
网上的资料百度蜘蛛名称有BaiduSpider、baiduspider等,都洗洗睡吧,那是旧黄历了。百度蜘蛛最新名称为Baiduspider。日志中还发现了Baiduspider-p_w_picpath这个百度旗下蜘蛛,查了下资料(其实直接看名字就可以了……),是抓取图片的蜘蛛。
常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-p_w_picpath(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。
注:以上百度蜘蛛目前常见的是Baiduspider和Baiduspider-p_w_picpath两种。
2、谷歌蜘蛛:Googlebot
这个争议较少,但也有说是GoogleBot的。谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”。还发现了Googlebot-Mobile,看名字是抓取wap内容的。
3、360蜘蛛:360Spider,它是一个很“勤奋抓爬”的蜘蛛。
4、SOSO蜘蛛:Sosospider,也可为它颁一个“勤奋抓爬”奖的蜘蛛。
5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!
名称中带“Slurp”和空格,名称有空格robots里名称可以使用“Slurp”或者“Yahoo”单词描述,不知道有效无效。
6、有道蜘蛛:YoudaoBot,YodaoBot(两个名字都有,中文拼音少了个U字母读音差别很大嘎,这都会少?)
7、搜狗蜘蛛:Sogou News Spider
搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,
(参考一些网站的robots文件,搜狗蜘蛛名称可以用Sogou概括,无法验证不知道有没有效)
看看最权威的百度的robots.txt ,http://www.baidu.com/robots.txt 就为Sogou搜狗蜘蛛费了不少字节,占了一大块领地。
“Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前6个,名称都带空格。
线上常见"Sogou web spider/4.0" ;"Sogou News Spider/4.0" ;"Sogou inst spider/4.0" 可以为它颁个“占名为王”奖。
8、MSN蜘蛛:msnbot,msnbot-media(只见到msnbot-media在狂爬……)
9、必应蜘蛛:bingbot
线上(compatible; bingbot/2.0;)
10、一搜蜘蛛:YisouSpider
11、Alexa蜘蛛:ia_archiver
12、宜搜蜘蛛:EasouSpider
13、即刻蜘蛛:JikeSpider
14、一淘网蜘蛛:EtaoSpider
"Mozilla/5.0 (compatible; EtaoSpider/1.0; http://省略/EtaoSpider)"
根据上述蜘蛛中选择几个常用的允许抓取,其余的都可以通过robots屏蔽抓取。如果你暂时空间流量还足够使用,等流量紧张了就保留几个常用的屏蔽掉其它蜘蛛以节省流量。至于那些蜘蛛抓取对网站能带来有利用的价值,网站的管理者眼睛是雪亮的。
另外还发现了如 YandexBot、AhrefsBot和ezooms.bot这些蜘蛛,据说这些蜘蛛国外噶,对中文网站用处很小。那不如就节省下资源。
小结:
这次分析了对搜索引擎爬虫的危害,蜘蛛对网站的负面影响;如何有效指引搜索引擎对应的措施,及解决方法;收集来源线上最新最准确各大搜索引擎蜘蛛名称。

本文出自 “Jimmy Li我站在巨人肩膀上” 博客,请务必保留此出处http://jimmyli.blog.51cto.com/3190309/1183766

转载于:https://blog.51cto.com/night820/1261842

搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施(最准确搜索引擎蜘蛛名称)...相关推荐

  1. [方法篇](禁止YisouSpider|EasouSpider|EtaoSpider)搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施...

    搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施[方法篇](禁止YisouSpider|EasouSpider|EtaoSpider) 上一遍文章<搜索引擎蜘蛛给网站带来的危害,有效指引爬虫 ...

  2. 常见的网站漏洞以及会对网站带来的危害

    一.漏洞类型说明 1. 高危漏洞 高危漏洞包括:SQL注入漏洞.XSS跨站脚本漏洞.页面存在源代码泄露.网站存在备份文件.网站存在包含SVN信息的文件.网站存在Resin任意文件读取漏洞. SQL注入 ...

  3. 搜索引擎蜘蛛及网站robots.txt文件详解

    搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提 ...

  4. 根服务器能当蜘蛛种子网站吗,网站被对方镜像有什么危害,该怎么处理?_蜘蛛技巧_超级蜘蛛池...

    镜像网站对于企业网站来说,危害是很大,自己这边刚发布文章,那边几秒就复制过去了,如果别人的权重较高,收录也比你网站快,那我们发布的文章就不收录.做镜像站不利于SEO行业的发展.首先镜像网站是将一个完全 ...

  5. 上海网络推广为大家讲解细节标签能给网站带来的作用与效果!

    上海网络推广表示,网站设置的一些标签对网站的优化非常重要,有时标签能帮助蜘蛛更轻松的爬行到网站优化所到的位置,还能有助于提高网站流量,帮助网站关键词排名提升,但有时候,站长们总是会忽略掉一些细节优化技 ...

  6. 根服务器能当蜘蛛种子网站吗,网站秒收录经验分享,利用蜘蛛池你也能做到

    最蜘蛛池www.zuizhizhu.com三十五台智能化网络服务器,每日超干万搜索引擎蜘蛛爬取,让您的连接收录率和排行迅速提高.现阶段有:百度搜索蜘蛛池.搜狗搜索蜘蛛池.360蜘蛛池.甚么蜘蛛池.繁育 ...

  7. SEO快速优化为网站带来靠前排名

    如何快速优化为网站带来靠前排名,因企业竞争的趋势日益加剧,很多传统企业都开始通过网上寻求更好的出路,通过网站建设的方式来开启互联网营销模式.当然,在seo快速排名的时候,大多数有实力的企业都希望能够建 ...

  8. 专业网络推广浅析蜘蛛对网站有抓取但没收录的现象

    专业网络推广很有多优化人员每天都钻研有关蜘蛛爬行的规律.时间.喜好等等规则,想要从中获得更精准高效的优化技巧,从而帮助网站提高收录,提高关键词排名的几率.也有优化人员表示,在观察一定数据的时候,发现了 ...

  9. 开展网络营销推广能为企业网站带来怎样的网络营销推广优势?

    自从企业发现以传统营销方式并不能在当下市场中足够的营销利润就开始转向网络营销推广,旨在通过搭建企业网站在互联网市场中获取用户资源为企业带来更加省时省力的获取利润效果.那么相比于过往的传统营销,当下的网 ...

最新文章

  1. html每个段落空前空两格,科普:为什么段落开始要空两格(两个汉字)?
  2. docker学习系列14 使用haproxy实现mysql集群的负载均衡...
  3. 快速排序算法_常用排序算法专题—快速排序
  4. java main 参数传递参数_Java千问:Java语言如何给main方法传递参数?
  5. 开启注册 | AAAI 2022论文北京预讲会,21场报告+24个Poster等你来
  6. 从零单排之玩转Python安全编程(II)
  7. 俄罗斯方块 Tetris
  8. 做春节海报没有思路?传统节日年味十足,PSD分层模板,给你灵感!
  9. JavaScript 代码简洁之道
  10. 使用NUnit进行DotNet程序测试
  11. 2 Advanced Read/Write Splitting with PHP’s MySQLnd
  12. 小甲鱼c语言-P21-指针
  13. 基于GEE使用Landsat 8和Landsat 5影像计算RSEI
  14. vue ui创建项目的常见错误
  15. 无刷直流电机正反转 原理 分析
  16. win10 华硕ASUS USB AC56 无线网卡 欧版 5G 信号不全 问题修复
  17. 一键获取谷歌网盘(Google Drive)真实直链下载地址
  18. 【关于Java方法的学习】
  19. 计算机语言表示教师节快乐,教师节英文祝福语(精选50句)
  20. 关于单片机使用继电器时为什么要在继电器电路上加接二极管

热门文章

  1. 魔鬼作坊第一部实践----第九课
  2. 【洛谷P1774】最接近神的人
  3. 一套小学生的试卷。。。
  4. HDOJ(HDU) 1994 利息计算(简单题目)
  5. php preg_match正则匹配中文-有深意
  6. Numpy统计计算、数组比较,看这篇就够了
  7. Python实操:手把手教你用Matplotlib把数据画出来
  8. python的map函数求取每个元素的平方根_python的map函数的使用方法详解以及使用案例(处理每个元素的自增、自减、平方等)......
  9. 建站用什么cms_我想做独立站,我应该用什么建站工具?
  10. Spring Boot 实现登录拦截器,这才是正确的姿势!!