解决屏蔽流氓蜘蛛抓取,如MJ12bot 、DotBot 、BLEXBot 、PetalBot 、DataForSeoBot碰到这些流氓蜘蛛直接双屏蔽,不要相信他们会准守robots协议(不要太天真了)

1、robots文件屏蔽

User-agent: MJ12bot
Disallow: /
User-agent:DotBot
Disallow: /
User-agent:BLEXBot
Disallow: /
User-agent:PetalBot
Disallow: /
User-agent:DataForSeoBot
Disallow: /

2、NG等服务器规则屏蔽

if ($http_user_agent ~*  (MJ12bot|DotBot|BLEXBot|PetalBot|DataForSeoBot) )
{return 403;
}

3、然后来个合集:

if ($http_user_agent ~* (YandexBot|spbot|DnyzBot|Researchscan|semrushbot|yahoo|AhrefsBot|DotBot|Uptimebot|MJ12bot|MegaIndex.ru|ZoominfoBot|Mail.Ru|SeznamBot|BLEXBot|ExtLinksBot|aiHitBot|Barkrowler)){return 403;
}

解决屏蔽流氓蜘蛛抓取,如MJ12bot 、DotBot 、BLEXBot 、PetalBot 、DataForSeoBot相关推荐

  1. php通过函数怎么禁止百度蜘蛛抓取,怎么屏蔽百度蜘蛛抓取网站?

    百度蜘蛛抓取我们的网站是希望将我们的网页收录到它的搜索引擎里,未来当用户搜索时,能为我们带来一定的SEO流量.当然我们并不是希望搜索引擎什么都抓取. 所以,这时我们只希望我们希望在搜索引擎被搜索到的内 ...

  2. php屏蔽蜘蛛,如何屏蔽垃圾蜘蛛抓取页面

    在服务器日常维护过程中我们经常会发现日志中有很多网络蜘蛛爬取的记录,这些蜘蛛有些是知名的并对网站收录流量有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力, ...

  3. html元素不让蜘蛛抓取,屏蔽网站后台禁止搜索引擎蜘蛛抓取的方法

    搜索引擎爬取网页内容的工具我们都称之为搜索引擎蜘蛛,如果希望屏蔽蜘蛛抓取某个页面到搜索引擎服务器中,可以通过robots.txt文件来限制蜘蛛抓取.很多朋友希望屏蔽网站后台禁止搜索引擎蜘蛛抓取,又不希 ...

  4. js和css被屏蔽了,是否屏蔽蜘蛛抓取JS和CSS文件

    做网站的人都知道,在查看日志的时候,会发现JS.CSS文件被蜘蛛抓取的频率特别高,于是有人便考虑在robots.txt屏蔽蜘蛛抓取js和css文件,节省蜘蛛时间给其他页面.是否屏蔽蜘蛛抓取JS和CSS ...

  5. php 让百度蜘蛛抓取403,百度蜘蛛不抓取页面的解决方法

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 我们都知道我们网站的页面要想被百度收录必须经过百度蜘蛛的抓取,因此我们要经常关注我们网站页面被抓取的情况,如果遇到不被抓取的情况,那么就要引起我们的注意, ...

  6. php 让百度蜘蛛抓取403,百度蜘蛛抓取不存在目录 对应的解决方法

    相信大家在分析百度蜘蛛日志的时候经常会发现一个问题,就是百度蜘蛛经常会抓取一些不存在的目录,比如:我网站没有这些目录,但是百度蜘蛛一直在抓取,或者你会发现百度蜘蛛在抓取自己的隐私目录,或者说php文件 ...

  7. robots.txt屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃(资源宝博客整理分享)

    屏蔽海外无用蜘蛛,防止大量蜘蛛抓取导致网站崩溃 robots协议 也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的蜘蛛,此网站中的哪些内 ...

  8. 全文搜索引擎有哪些?_搜索引擎工作原理是什么?seo蜘蛛抓取会受到哪些因素影响?...

    seo优化就是搜索引擎优化,就是对网站进行各方面调整,使其更符合搜索引擎的算法要求,从而得到更多的流量及转化,所以做seo必须要多搜索引擎有更多的认识和了解.搜索引擎有哪些功能模块?它的工作原理是什么 ...

  9. 网站推广收录少?网站推广专员浅析可能是蜘蛛抓取出现问题

    从事过网站优化相关工作的人士都了解,企业网站想要在搜索引擎中获取良好的排名,没有充足的收录量作为基础很难实现.在网站优化期间,网站收录量有太多可影响因素,那么针对收录量偏低的网站来说,如果是搜索引擎蜘 ...

最新文章

  1. SAP SD基础知识之SD常用BAPI
  2. linux中通过命令生成hex值
  3. Java 类中可以覆盖静态方法吗?
  4. matlab白噪声模块,matlab白噪声实现
  5. 利用CSS、JavaScript及Ajax实现图片预加载的三大方法
  6. 中国电子技术标准化研究院与Linux基金会战略合作签约仪式圆满落幕
  7. linux 文本编辑器Vim/Vi详细介绍
  8. 关于腾讯云搭建Socks5多IP代理服务器实现游戏单窗口单IP完美搭建教程附带工具
  9. COSMOS认证咨询,COSMOS认证推出了天然有机化妆品的标签认证法
  10. 浅谈韦达定理的“来龙去脉”
  11. 开源数值计算软件OCTAVE 、SCILAB、R、Matlab简介
  12. Golang--Go语言 五百行后台代码实现一简约的个人博客网站-TinyBlog
  13. Openlayers 6 零基础教程
  14. Pycharm安装后打开提示:此应用无法在你的电脑上运行,若要找到合适于你的电脑的版本,请咨询发布者。
  15. TM1637数码管显示 HAL库
  16. 免费的网络学习工具【eNSP】
  17. Redis高可用架构
  18. 从键盘输入一个字符,如果是小写字母,则将其转换成大写字母输出;如果是大写字母,则将其转换成小写字母输出;如果是其它字符,则原样输出。
  19. 计算机专业本科毕业生去当兵,本科毕业去当兵如何?过来人是这么说的,很有道理!...
  20. 16周监考---期末考试...

热门文章

  1. 15岁黑进北美防空司令部,社工界的鼻祖如何社工?
  2. 我屮艸芔茻!!!什么情况,就刚才,百年之功废于一旦!!博客园,你TM想吃翔了吧!...
  3. Apache中 RewriteRule 规则参数介绍
  4. 微信公众号授权绑定第三方应用
  5. Excel中比vlookup函数还要好用的自动填表功能
  6. 【OpenCV 学习笔记】第二十章: 角点检测之:harris算法以及Shi-Tomasi算法
  7. 浮动的简介——CSS
  8. sketch使用教程:高效的快捷方式
  9. 中国IC设计Fabless排行榜 TOP100
  10. Linux小技巧: nmtui ——(你们推)图形界面网卡编辑