如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间

如何控制Yahoo! Slurp蜘蛛的抓取频度
2009年08月13日 星期四 5:56

上周末豆瓣的阿北给我电话:最近你们雅虎的蜘蛛(Yahoo! Slurp)对豆瓣网的抓取频度非常高,导致服务器的速度有些慢,如何才能让Slurp降低抓取频度呢?

我首先想到的建议是在网站的robots.txt中增加Crawl-delay: 设置,这个设置是目前Slurp独有的,用来告诉Slurp蜘蛛2次访问之间的间隔,单位是秒。

剩下的问题就是Crawl-delay的值该设置多大,这个要看网站自身可以承受的负载,假设你希望Slurp每10秒来访问一次,这个设置就是:

User-agent: *

Crawl-delay: 10

我推荐使用 User-agent: * 万一有其他引擎逐步也支持这个配置呢,而不支持这个配置的引擎也会跳过这句。

可实际上我从自己网站的日志中看到:Slurp的压力却不止10秒一次,原因是这样:雅虎美国和雅虎中国有2套蜘蛛在运行,因此实际的访问可能是这样:

1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China

2.2.2.2 30/Jun/2006:00:00:04 Yahoo! Slurp

1.1.1.1 30/Jun/2006:00:00:13 Yahoo! Slurp China

每个蜘蛛都是遵循Crawl-delay间隔的,因此为了进一步降低Slurp压力,希望达到10秒一次请求的频道 实际的Crawl-delay配置就要*2。

但是实际上我看到的雅虎的蜘蛛是分布在很多台服务器上的:而多个服务器集群之间也是不相互协调同一网站的抓取频度的

1.1.1.1 30/Jun/2006:00:00:03 Yahoo! Slurp China

2.2.2.2 30/Jun/2006:00:00:04 Yahoo! Slurp

1.1.1.1 30/Jun/2006:00:00:13 Yahoo! Slurp China

1.1.1.2 30/Jun/2006:00:00:13 Yahoo! Slurp China

1.1.1.1 30/Jun/2006:00:00:23 Yahoo! Slurp China

1.1.1.2 30/Jun/2006:00:00:27 Yahoo! Slurp China

我统计了一下:Slurp来源于40多个IP网段,同网段内的蜘蛛协调抓取频度。因此:实际的Slurp设置,需要设置为10*40 = 400秒,才能达到期望的Slurp每10秒访问一次频度。

给豆瓣推荐的Crawl-delay: 100 平均2.5秒访问一次,应该没有问题了。

注:我查了一下Slurp的意思,就是咂吧嘴的声音,发音听着很像在吃面条吧?

如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间相关推荐

  1. java网络文章博客抓取系统_java 后端博客系统文章系统——No3

    工具 IDE为idea16* JDK环境为1.8 gradle构建,版本:2.14.1 Mysql版本为5.5.27 Tomcat版本为7.0.52 流程图绘制(xmind) 建模分析软件PowerD ...

  2. java网络文章博客抓取系统_java 后端博客系统文章系统——No6

    工具 IDE为idea16 JDK环境为1.8 gradle构建,版本:2.14.1 Mysql版本为5.5.27 Tomcat版本为7.0.52 流程图绘制(xmind) 建模分析软件PowerDe ...

  3. 浅谈屏蔽搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路

    在大部分情况下,网站开发完成后,在运营期间,都希望搜索引擎收录网站的内容越多越好,但是有的时候为了安全期间不希望搜索引擎收录网页内容,比如在外网部署的监控系统等:  以下列举了屏蔽主流搜索引擎爬虫(蜘 ...

  4. 重庆SEO优化:网站通过SEO优化会有哪些好处以及【SEO优化】 深度了解蜘蛛spider抓取原理-专业SEO技术教程

    网站通过SEO优化会有哪些好处       SEO优化自产生以来,受到了众多网络推广人员的的欢迎.其实通过SEO进行优化是有很大的好处的.虽然不是很全面但是还是可以提供一定的帮助.接下来就为大家网络就 ...

  5. 如何提升蜘蛛的抓取频率?

    网站在优化的过程中,想要提高网站关键词排名,首先就要有一定的收录量,一般情况下网站抓取的频率高,网站的收录情况也会很好,那么怎样才能提升网站的抓取频率呢?影响网站抓取频率的因素有哪些呢?下面一起来了解 ...

  6. 系统检测到您正在使用网页抓取工具访问_造成Baiduspider(百度蜘蛛)抓取网站异常的原因有哪些...

    造成Baiduspider(百度蜘蛛)抓取网站异常的原因有哪些 有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都 ...

  7. 简单介绍使用Nginx限制百度蜘蛛频繁抓取的问题

    这篇文章主要介绍了使用Nginx限制百度蜘蛛频繁抓取的问题,百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高,经常收到警告信息,每分钟允许百度蜘蛛抓取200次,超过频率限制的返回503,对Ngi ...

  8. 四川网络推广介绍什么样的网站架构更能吸引蜘蛛爬行抓取?

    众所周知,四川网络推广网站架构搭建的越好,就越能吸引蜘蛛的爬行和抓取,同时也能更吸引用户浏览.四川网络推广优化人员也需要注意其中更多的细节来帮助网站架构设计的越来越好,从而帮助网站提升收录,提升排名的 ...

  9. SEO如何做会更受蜘蛛喜爱抓取,达到事半功倍的效果?

    只有让搜索引擎给网站更高的排名,才可以更多的将网站显示在用户面前,提升用户点击率,提升网站的知名度以及更有效的促进用户转化率,所以,想要做好SEO优化,就需要对搜索引擎规则了解透彻,只做取悦搜索引擎的 ...

最新文章

  1. 你离时间管理大师,就差这副眼镜了
  2. [译] 使用 Web3 和 Vue.js 来创建你的第一个以太坊 dAPP(第二部分)
  3. 使用maven时报错Dynamic Web Module 3.1 requires Java 1.7 or newe
  4. windows安装logstash6.2.3
  5. 【clickhouse】clickhouse Exception: Table is in readonly mode
  6. linux下简易搭建svnserver
  7. 常用计算机的外部组成设备有哪些,9计算机外部设备..doc
  8. apache iotdb_高性能轻体量物联网数据库Apache IoTDB
  9. 启明星系统字体的演变
  10. Microsoft Office Visio 2007 下载
  11. echarts制作两个纵轴的折线图
  12. 微软拼音开启小鹤双拼
  13. math.floor()函数
  14. BM25算法——(他人写)
  15. Java基础 第二天
  16. 服务端使用Axis2-1.6.3发布webservice服务、客户端使用Axis1.4实现调用
  17. GOF23设计模式-创建型模式4-原型模式
  18. ChatGPT不止是对话机器人
  19. 3 Kong 管理运维
  20. 滴滴服务分计算机制,滴滴司机,如何避免扣除服务分?服务分到底有多重要?...

热门文章

  1. vba结束本次循环进行下次_VBA掌握循环结构,包你效率提高500倍
  2. vscode用鼠标滚轮_前端开发神器 VSCode 使用总结
  3. Telnet 爆破 kail_【UZI|SN输给DWG后,AD选手被爆破,弹幕刷了半小时Uzi】英雄联盟S10于10月31日终于正式落幕了_科技资讯...
  4. pycharm中配置r语言_【R语言】R语言中的循环
  5. java 生成随机数_Java 生成随机数的 N 种方法
  6. lnmp环境搭建完全手册(四)——lnmp搭建(源码安装)
  7. 互联网晚报 | 3月25日 星期五 |​ ​​私募大佬但斌疑似空仓;蔚来和小米汽车拟采用比亚迪电池...
  8. 分支和循环结构的应用(习题)
  9. PHP中使用八进制 可以在前面加,PHP学习笔记(二)
  10. java的修饰符_java默认的修饰符是什么