如何解决搜索爬虫高频次抓取导致服务器崩溃的问题

首先声明一点,如果网站能够承受爬虫的高频次访问,那是一件好事,这样有利于网站页面收录,提升网站来自搜索的访问量。但一旦承受不了,我们可以进行如下的操作。

方法一

第一步,注册并登录百度站长平台

第二步,提交网站并验证归属,具体验证网站归属方法可见帮助文档

第三步,选择左侧“站点管理”

第四步,在已认证归属的站点列表中选择需要查询的站点

第五步,选择左侧“抓取压力反馈”

第六步,得到站点抓取压力曲线图及压力调整入口页面

第七步,选取站点压力反馈,调整滑块至您想要压力值,提交反馈

(注:当前数值,是网站当前在百度的有效抓取压力上限值。压力上限是指一天内baiduspider抓取的最多网页数量。)

第八步,查看反馈记录,百度会以最新的反馈信息为准,对网站的抓取压力进行调整

方法二

优化robots.txt

很多建站新手对robots.txt文件的重要作用不是很清楚,利用这篇文章普及一下WordPress站点robots.txt文件编写知识。

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外,当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。

知道Robots协议的作用后,下面具体说一下WordPress站点如何编写robots.txt文件。

WordPress站点默认在浏览器中输入:http://你的域名/robots.txt,会显示如下内容:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

这是由WordPress自动生成的,意思是告诉搜索引擎不要抓取后台程序文件。

但这是远远不够的,比较完整的WordPress站点robots.txt文件内容如下:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

Disallow: /*/comment-page-*

Disallow: /*?replytocom=*

Disallow: /category/*/page/

Disallow: /tag/*/page/

Disallow: /*/trackback

Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

Disallow: /?s=*

Disallow: /*/?s=*\

Disallow: /*?*

Disallow: /attachment/

使用方法:新建一个名称为robots.txt文本文件,将上面的内容放进去,然后上传到网站根目录即可。

下面分别解释一下各项的作用:

1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/

用于告诉搜索引擎不要抓取后台程序文件页面。

2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*

禁止搜索引擎抓取评论分页等相关链接。

3、Disallow: /category/*/page/和Disallow: /tag/*/page/

禁止搜索引擎抓取收录分类和标签的分页。

4、Disallow: /*/trackback

禁止搜索引擎抓取收录trackback等垃圾信息

5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed

禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。

6、Disallow: /?s=*和Disallow: /*/?s=*\

禁止搜索引擎抓取站内搜索结果

7、Disallow: /*?*

禁止搜索抓取动态页面

8、Disallow: /attachment/

禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。

上面只是些基本的写法,当然还有很多,不过够用了。

爬虫 网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题相关推荐

  1. Python爬虫编程思想(6):实战案例:抓取所有的网络资源

    Python爬虫编程思想(7):实战案例:抓取博客文章列表 到现在为止,我们已经对网络爬虫涉及到的基本知识有了一个初步的了解.本文会编写一个简单的爬虫应用,以便让读者对爬虫有一个基本的认识.本节要编写 ...

  2. python抓取内存中的网页_『爬虫四步走』手把手教你使用Python抓取并存储网页数据!...

    爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...

  3. 更换服务器 百度抓取显示有跳转,网站更换服务器4天了,百度站长后台抓取诊断一直失败,还是抓...

    网站更换服务器4天了,百度站长后台抓取诊断一直失败,还是抓取之前的服务器IP,但是之前的服务器ip已经挂了,打不开了,有不有什么好的办法处理一下,让百度尽快的反应过来抓取新的服务器ip. 因为现在百度 ...

  4. linux 硬盘繁忙,icinga2 借助check_iostat.sh抓取linux服务器的diskIO(硬盘繁忙度)

    icinga2 借助check_iostat.sh抓取linux服务器的diskIO(硬盘繁忙度) 下载地址:https://exchange.nagios.org/directory/Plugins ...

  5. goroutine中使用recover,解决协程中出现panic,导致程序崩溃的问题。recover panic 协程的错误处理

    package mainimport ("fmt""time" )//goroutine中使用recover,解决协程中出现panic,导致程序崩溃的问题. f ...

  6. robots.txt屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃(资源宝博客整理分享)

    屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃 robots协议 也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的蜘蛛,此网站中的哪些内 ...

  7. php取网页内容乱码,如何解决php用file_get_contents方法抓取网页数据出现乱码

    我们都经常碰到在抓取数据时碰到乱码现象,让人崩溃.今天主要和大家探讨如何解决php用file_get_contents方法抓取网页数据出现乱码的问题,需要的朋友可以参考下,希望能帮助到大家.下面跟随小 ...

  8. 抓取app服务器证书,APP爬虫-双向认证抓包的两种方法

    证书认证分单向认证和双向认证,双向认证是相较于单向认证而言的,单向认证就是只在 APP 侧做证书校验,单向认证有现成的解决方法,比如用各种 bypass ssl 校验的 hook 脚本既可让单向认证失 ...

  9. [Python爬虫] 之二十二:Selenium +phantomjs 利用 pyquery抓取界面网站数据

    一.介绍 本例子用Selenium +phantomjs爬取界面(https://a.jiemian.com/index.php?m=search&a=index&type=news& ...

最新文章

  1. Nginx缓存设置教程
  2. python Matplotlib.pyplot 如何绘制三维折线图, 散点图, 线框图, 表面图, 柱状图, 箭头图, 2D转3D图, 文本图, 3D拼图, 网状图, 直方图, 角面片图, 条状图?
  3. 【floyd模板】哈利·波特的考试 (25 分)
  4. Javascript的面对对象的理解 【下】(prototype的使用)
  5. 改善代码可读性的5种方法
  6. IP地址开启https
  7. Java JavaBean
  8. AcWing 1884. COW(前缀和)
  9. c语言代码大全表解释_正点原子Linux第十章C语言版LED灯实验
  10. lsb_release -a linux查看版本未找到命令
  11. 毕设题目:Matlab人脸识别
  12. asp.net中使用mschart控件
  13. 设计师谈中望CAD2010应用心得 作者:刘国勤
  14. 通过qmh启动qt应用
  15. fatal error C1083: 无法打开包括文件: “afx.h”: No such file or directory
  16. 数据防泄漏 | 禁止PrintScreen键
  17. 重谈联想5G编码投票事件
  18. TL5000系列可调谐激光器
  19. Android 10 新增物理按键
  20. ipfs星际文件系统初体验

热门文章

  1. 手机怎么删除计算机搜索记录,怎样删除搜索记录
  2. 预习:图书信息管理系统的设计与实现
  3. 新东方签下第一份电子劳动合同
  4. 计算机三级数据库安全管理(一)、授权语句、WITH GRANT OPTION、guest、用户定义的数据库角色、Oracle安全管理、收权语句、安全管理、数据库用户、角色、用户分类、GRANT
  5. 前后端分离架构中的接口安全(上篇)
  6. win10电脑桌面无法右键其他地方可以解决方式
  7. 平衡树【Splay树】学习小记
  8. 1.14各类存储器芯片
  9. 二倍角公式(二倍角公式有哪些)
  10. 论坛discuz建站视频教程共90集