爬虫 网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题
如何解决搜索爬虫高频次抓取导致服务器崩溃的问题
首先声明一点,如果网站能够承受爬虫的高频次访问,那是一件好事,这样有利于网站页面收录,提升网站来自搜索的访问量。但一旦承受不了,我们可以进行如下的操作。
方法一
第一步,注册并登录百度站长平台
第二步,提交网站并验证归属,具体验证网站归属方法可见帮助文档
第三步,选择左侧“站点管理”
第四步,在已认证归属的站点列表中选择需要查询的站点
第五步,选择左侧“抓取压力反馈”
第六步,得到站点抓取压力曲线图及压力调整入口页面
第七步,选取站点压力反馈,调整滑块至您想要压力值,提交反馈
(注:当前数值,是网站当前在百度的有效抓取压力上限值。压力上限是指一天内baiduspider抓取的最多网页数量。)
第八步,查看反馈记录,百度会以最新的反馈信息为准,对网站的抓取压力进行调整
方法二
优化robots.txt
很多建站新手对robots.txt文件的重要作用不是很清楚,利用这篇文章普及一下WordPress站点robots.txt文件编写知识。
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外,当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。
知道Robots协议的作用后,下面具体说一下WordPress站点如何编写robots.txt文件。
WordPress站点默认在浏览器中输入:http://你的域名/robots.txt,会显示如下内容:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
这是由WordPress自动生成的,意思是告诉搜索引擎不要抓取后台程序文件。
但这是远远不够的,比较完整的WordPress站点robots.txt文件内容如下:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*?*
Disallow: /attachment/
使用方法:新建一个名称为robots.txt文本文件,将上面的内容放进去,然后上传到网站根目录即可。
下面分别解释一下各项的作用:
1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面。
2、Disallow: /*/comment-page-*和Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。
3、Disallow: /category/*/page/和Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页。
4、Disallow: /*/trackback
禁止搜索引擎抓取收录trackback等垃圾信息
5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed
禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。
6、Disallow: /?s=*和Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果
7、Disallow: /*?*
禁止搜索抓取动态页面
8、Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。
上面只是些基本的写法,当然还有很多,不过够用了。
爬虫 网站服务器瘫痪,如何解决搜索爬虫高频次抓取导致服务器崩溃的问题相关推荐
- Python爬虫编程思想(6):实战案例:抓取所有的网络资源
Python爬虫编程思想(7):实战案例:抓取博客文章列表 到现在为止,我们已经对网络爬虫涉及到的基本知识有了一个初步的了解.本文会编写一个简单的爬虫应用,以便让读者对爬虫有一个基本的认识.本节要编写 ...
- python抓取内存中的网页_『爬虫四步走』手把手教你使用Python抓取并存储网页数据!...
爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...
- 更换服务器 百度抓取显示有跳转,网站更换服务器4天了,百度站长后台抓取诊断一直失败,还是抓...
网站更换服务器4天了,百度站长后台抓取诊断一直失败,还是抓取之前的服务器IP,但是之前的服务器ip已经挂了,打不开了,有不有什么好的办法处理一下,让百度尽快的反应过来抓取新的服务器ip. 因为现在百度 ...
- linux 硬盘繁忙,icinga2 借助check_iostat.sh抓取linux服务器的diskIO(硬盘繁忙度)
icinga2 借助check_iostat.sh抓取linux服务器的diskIO(硬盘繁忙度) 下载地址:https://exchange.nagios.org/directory/Plugins ...
- goroutine中使用recover,解决协程中出现panic,导致程序崩溃的问题。recover panic 协程的错误处理
package mainimport ("fmt""time" )//goroutine中使用recover,解决协程中出现panic,导致程序崩溃的问题. f ...
- robots.txt屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃(资源宝博客整理分享)
屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃 robots协议 也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的蜘蛛,此网站中的哪些内 ...
- php取网页内容乱码,如何解决php用file_get_contents方法抓取网页数据出现乱码
我们都经常碰到在抓取数据时碰到乱码现象,让人崩溃.今天主要和大家探讨如何解决php用file_get_contents方法抓取网页数据出现乱码的问题,需要的朋友可以参考下,希望能帮助到大家.下面跟随小 ...
- 抓取app服务器证书,APP爬虫-双向认证抓包的两种方法
证书认证分单向认证和双向认证,双向认证是相较于单向认证而言的,单向认证就是只在 APP 侧做证书校验,单向认证有现成的解决方法,比如用各种 bypass ssl 校验的 hook 脚本既可让单向认证失 ...
- [Python爬虫] 之二十二:Selenium +phantomjs 利用 pyquery抓取界面网站数据
一.介绍 本例子用Selenium +phantomjs爬取界面(https://a.jiemian.com/index.php?m=search&a=index&type=news& ...
最新文章
- Nginx缓存设置教程
- python Matplotlib.pyplot 如何绘制三维折线图, 散点图, 线框图, 表面图, 柱状图, 箭头图, 2D转3D图, 文本图, 3D拼图, 网状图, 直方图, 角面片图, 条状图?
- 【floyd模板】哈利·波特的考试 (25 分)
- Javascript的面对对象的理解 【下】(prototype的使用)
- 改善代码可读性的5种方法
- IP地址开启https
- Java JavaBean
- AcWing 1884. COW(前缀和)
- c语言代码大全表解释_正点原子Linux第十章C语言版LED灯实验
- lsb_release -a linux查看版本未找到命令
- 毕设题目:Matlab人脸识别
- asp.net中使用mschart控件
- 设计师谈中望CAD2010应用心得 作者:刘国勤
- 通过qmh启动qt应用
- fatal error C1083: 无法打开包括文件: “afx.h”: No such file or directory
- 数据防泄漏 | 禁止PrintScreen键
- 重谈联想5G编码投票事件
- TL5000系列可调谐激光器
- Android 10 新增物理按键
- ipfs星际文件系统初体验