爬虫网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

首先声明一点，如果网站能够承受爬虫的高频次访问，那是一件好事，这样有利于网站页面收录，提升网站来自搜索的访问量。但一旦承受不了，我们可以进行如下的操作。

方法一

第一步，注册并登录百度站长平台

第二步，提交网站并验证归属，具体验证网站归属方法可见帮助文档

第三步，选择左侧“站点管理”

第四步，在已认证归属的站点列表中选择需要查询的站点

第五步，选择左侧“抓取压力反馈”

第六步，得到站点抓取压力曲线图及压力调整入口页面

第七步，选取站点压力反馈，调整滑块至您想要压力值，提交反馈

(注：当前数值，是网站当前在百度的有效抓取压力上限值。压力上限是指一天内baiduspider抓取的最多网页数量。)

第八步，查看反馈记录，百度会以最新的反馈信息为准，对网站的抓取压力进行调整

方法二

优化robots.txt

很多建站新手对robots.txt文件的重要作用不是很清楚，利用这篇文章普及一下WordPress站点robots.txt文件编写知识。

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

搜索引擎机器人访问网站时，首先会寻找站点根目录有没有 robots.txt文件，如果有这个文件就根据文件的内容确定收录范围，如果没有就按默认访问以及收录所有页面。另外，当搜索蜘蛛发现不存在robots.txt文件时，会产生一个404错误日志在服务器上，从而增加服务器的负担，因此为站点添加一个robots.txt文件还是很重要的。

知道Robots协议的作用后，下面具体说一下WordPress站点如何编写robots.txt文件。

WordPress站点默认在浏览器中输入：http://你的域名/robots.txt，会显示如下内容：

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

这是由WordPress自动生成的，意思是告诉搜索引擎不要抓取后台程序文件。

但这是远远不够的，比较完整的WordPress站点robots.txt文件内容如下：

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

Disallow: /*/comment-page-*

Disallow: /*?replytocom=*

Disallow: /category/*/page/

Disallow: /tag/*/page/

Disallow: /*/trackback

Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

Disallow: /?s=*

Disallow: /*/?s=*\

Disallow: /*?*

Disallow: /attachment/

使用方法：新建一个名称为robots.txt文本文件，将上面的内容放进去，然后上传到网站根目录即可。

下面分别解释一下各项的作用：

1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/

用于告诉搜索引擎不要抓取后台程序文件页面。

2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*

禁止搜索引擎抓取评论分页等相关链接。

3、Disallow: /category/*/page/和Disallow: /tag/*/page/

禁止搜索引擎抓取收录分类和标签的分页。

4、Disallow: /*/trackback

禁止搜索引擎抓取收录trackback等垃圾信息

5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed

禁止搜索引擎抓取收录feed链接，feed只用于订阅本站，与搜索引擎无关。

6、Disallow: /?s=*和Disallow: /*/?s=*\

禁止搜索引擎抓取站内搜索结果

7、Disallow: /*?*

禁止搜索抓取动态页面

8、Disallow: /attachment/

禁止搜索引擎抓取附件页面，比如毫无意义的图片附件页面。

上面只是些基本的写法，当然还有很多，不过够用了。

爬虫网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题相关推荐

Python爬虫编程思想（6）：实战案例：抓取所有的网络资源
Python爬虫编程思想(7):实战案例:抓取博客文章列表到现在为止,我们已经对网络爬虫涉及到的基本知识有了一个初步的了解.本文会编写一个简单的爬虫应用,以便让读者对爬虫有一个基本的认识.本节要编写 ...
python抓取内存中的网页_『爬虫四步走』手把手教你使用Python抓取并存储网页数据！...
爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...
更换服务器百度抓取显示有跳转,网站更换服务器4天了，百度站长后台抓取诊断一直失败，还是抓...
网站更换服务器4天了,百度站长后台抓取诊断一直失败,还是抓取之前的服务器IP,但是之前的服务器ip已经挂了,打不开了,有不有什么好的办法处理一下,让百度尽快的反应过来抓取新的服务器ip. 因为现在百度 ...
linux 硬盘繁忙,icinga2 借助check_iostat.sh抓取linux服务器的diskIO（硬盘繁忙度）
icinga2 借助check_iostat.sh抓取linux服务器的diskIO(硬盘繁忙度) 下载地址:https://exchange.nagios.org/directory/Plugins ...
goroutine中使用recover，解决协程中出现panic，导致程序崩溃的问题。recover panic 协程的错误处理
package mainimport ("fmt""time" )//goroutine中使用recover,解决协程中出现panic,导致程序崩溃的问题. f ...
robots.txt屏蔽海外无用蜘蛛，防止大量蜘蛛抓取导致网站崩溃（资源宝博客整理分享）
屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃 robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的蜘蛛,此网站中的哪些内 ...
php取网页内容乱码,如何解决php用file_get_contents方法抓取网页数据出现乱码
我们都经常碰到在抓取数据时碰到乱码现象,让人崩溃.今天主要和大家探讨如何解决php用file_get_contents方法抓取网页数据出现乱码的问题,需要的朋友可以参考下,希望能帮助到大家.下面跟随小 ...
抓取app服务器证书,APP爬虫-双向认证抓包的两种方法
证书认证分单向认证和双向认证,双向认证是相较于单向认证而言的,单向认证就是只在 APP 侧做证书校验,单向认证有现成的解决方法,比如用各种 bypass ssl 校验的 hook 脚本既可让单向认证失 ...
[Python爬虫] 之二十二：Selenium +phantomjs 利用 pyquery抓取界面网站数据
一.介绍本例子用Selenium +phantomjs爬取界面(https://a.jiemian.com/index.php?m=search&a=index&type=news& ...

爬虫网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

爬虫网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题相关推荐

最新文章

热门文章

爬虫 网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

爬虫 网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题相关推荐

最新文章

热门文章

爬虫网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

爬虫网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题相关推荐