有的时候打开后台会发现网站后台有各种莫名其妙的蜘蛛UA,而不是搜索引擎来过的,那么可能是被别人给爬取了,可以用下面方法来屏蔽不明的蜘蛛UA,可根据网站实际情况来修改要屏蔽的蜘蛛UA

对付这种垃圾的蜘蛛,最好的方法就是按照访问规则,查看对应的UA,按照UA规则,进行禁止访问,那么我们应该怎么做呢?

一:找到垃圾蜘蛛的UA特征

我使用的是宝塔面板。通过宝塔面板上的网站监控报表,可以看到对应网站的Nginx日志。如果你使用的不是宝塔面板,你可以将网站的日志下载下来。用notepad++或者其他代码编辑软件打开。

二:针对特定UA进行屏蔽

屏蔽UA功能,是写在对应网站的nginx的配置文件中的。

如果你使用的是宝塔面板。配置路径如下:

Nginx将以下代码加入到配置文件server里:

if ($http_user_agent ~ "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" )
{
return 444;
}

IIS7/IIS8/IIS10及以上web服务请在网站根目录下创建web.config文件,并写入如下代码即可:

<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<system.webServer>
<rewrite>
<rules>
<rule name="Block spider">
<match url="(^robots.txt$)"
ignoreCase="false" negate="true" />
<conditions>
<add input="{HTTP_USER_AGENT}" pattern="MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$"
ignoreCase="true" />
</conditions>
<action type="AbortRequest" />
</rule>
</rules>
</rewrite>
</system.webServer>
</configuration>

IIS6请在isapi重写组件中添加以下规则:

#Block spider
RewriteCond %{HTTP_USER_AGENT} (MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$) [NC]
RewriteRule !(^/robots.txt$) - [F]

Apache请在.htaccess文件中添加如下规则:

<IfModule mod_rewrite.c>
RewriteEngine On
#Block spider
RewriteCond %{HTTP_USER_AGENT} "MegaIndex|MegaIndex.ru|BLEXBot|Qwantify|qwantify|semrush|Semrush|serpstatbot|hubspot|python|Bytespider|Go-http-client|Java|PhantomJS|SemrushBot|Scrapy|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|perl|Python|Wget|Xenu|ZmEu|^$" [NC]
RewriteRule !(^robots\.txt$) - [F]
</IfModule>

服务器IIS6/IIS7、Nginx、Apache屏蔽垃圾爬虫UA禁止垃圾爬虫,屏蔽指定UA相关推荐

  1. 转: 三大WEB服务器对比分析(apache ,lighttpd,nginx) (2008年的旧文,仅供参考之用)...

    from:  http://www.blogjava.net/daniel-tu/archive/2008/12/29/248883.html 三大WEB服务器对比分析(apache ,lighttp ...

  2. [转载]三大WEB服务器软件比较(Apache ,Lighttpd,Nginx)对比分析

    一.软件介绍(apache  lighttpd  nginx) 1. lighttpd Lighttpd是一个具有非常低的内存开销,cpu占用率低,效能好,以及丰富的模块等特点.lighttpd是众多 ...

  3. 三大WEB服务器对比分析(apache ,lighttpd,nginx)

    一.软件介绍(apache  lighttpd  nginx) 1. lighttpd Lighttpd是一个具有非常低的内存开销,cpu占用率低,效能好,以及丰富的模块等特点.lighttpd是众多 ...

  4. 屏蔽百度蜘蛛或某一爬虫的四种方法

    今天打开自己的网站发现很卡,但是检查网站的访问量并不高,登陆服务器发现流量很高,于是查看访问日志,发现网站日志中开头的某一ip段大量频繁访问,来自一个叫Bytespider的爬虫,就在网上查找方法想屏 ...

  5. Nginx/Apache/PHP 防止恶意User-Agent方法

    ------------------------------------------------------------------------ !!!以下配置方法(简单易通) ----------- ...

  6. GoAccess日志分析工具,适用于Nginx/Apache/IIS 等

    最近了解到一款Nginx日志分析工具GoAccess ,这里记录一下. 1 介绍 GoAccess 是一款开源(MIT许可证)的且具有交互视图界面的实时 Web 日志分析工具,通过你的 Web 浏览器 ...

  7. Nginx+Apache Yii2.0 配置方案

    最近用Yii2.0框架做了个小项目,虽然项目本身业务逻辑不复杂,但是由于本身业务逻辑的特殊性,在上午9点到12点之间系统访问量会突然上升(浏览量和用户上传文件量).导致系统单纯的部署在Apache下, ...

  8. phpinfo查看可以解析的后缀_配置nginx,Apache支持pathinfo模式-什么是phpinfo模式

    我也配置了很多次了,前面都快放弃了,最近在学习resuful框架写api,代码实现上没出现啥问题,倒是这个path_info的环境配置把我弄的比较郁闷 你一定见过类似这样的路径:http://www. ...

  9. Nginx 笔记与总结(15)nginx 实现反向代理 ( nginx + apache 动静分离)

    在 nginx 中,proxy 用来实现反向代理,upstream 用来实现负载均衡. 例如有两台服务器,nginx 服务器作为代理服务器,执行 .html 文件,apache 服务器上执行 .php ...

  10. apache http server 停止工作_配置nginx,Apache支持pathinfo模式-什么是phpinfo模式

    我也配置了很多次了,前面都快放弃了,最近在学习resuful框架写api,代码实现上没出现啥问题,倒是这个path_info的环境配置把我弄的比较郁闷 你一定见过类似这样的路径:http://www. ...

最新文章

  1. tickcount()修改成小时分钟_推出一分钟追剧新模式 首部真人漫改竖屏番《通灵妃》开播...
  2. java list 不包含_java判断list是否包含某个值
  3. java基础(八) 深入解析常量池与装拆箱机制
  4. python矩阵_Python 矩阵相关
  5. 13道BGP属性面试题
  6. 【渝粤题库】陕西师范大学209006教育政策与法规作业(高起专、高起本)
  7. 命令行 java文本编辑工具 重载 内存区域 栈 堆
  8. jquery常用技巧及常用方法列表
  9. 【Elasticsearch】我们如何在 5 天内在同一个 Elasticsearch 集群中重新索引 360 亿份文档
  10. JS 一张图理解prototype、proto和constructor的关系
  11. Qt4_使用窗口部件
  12. engine.POST()处理POST请求
  13. C# 只允许运行一个实例
  14. Tomcat导入J2EE项目教程
  15. 计算机用户导入导出,使用csvde批量添加,导入,导出用户
  16. OSChina 周一乱弹 —— 程序猿到底是多有才?
  17. 【Java编程规范】阿里巴巴编程考试规范+真题答案+考试感悟
  18. 基于xsh的vbs脚本的使用(简介)
  19. RK3399平台开发系列讲解(电源管理篇)11.10、PMIC(生产者)驱动数据结构体
  20. 捷豹:车到用时方知养,可知彼时恨太迟

热门文章

  1. [AHK]定时运行脚本
  2. 网吧服务器磁盘性能,网吧游戏服务端显示磁盘已满怎么解决
  3. ArcGIS模拟3D洪水
  4. JS 的内联模式与外联模式
  5. 赶快来了解一下职场达人进化论吧,它都有哪些实战技巧?
  6. 关闭windows defender
  7. 洛谷P4234 最小差值生成树 题解
  8. [iOS]Xcode8 搭建 .framework
  9. 程序员在囧途之风投五宗罪
  10. angular 万年历_jQuery实现的简单日历组件定义与用法示例