现在的网络爬虫越来越多,有很多爬虫都是初学者写的,和搜索引擎的爬虫不一样,他们不懂如何控制速度,结果往往大量消耗服务器资源,导致带宽白白浪费了。

其实Nginx可以非常容易地根据User-Agent过滤请求,我们只需要在需要URL入口位置通过一个简单的正则表达式就可以过滤不符合要求的爬虫请求:

    ...location / {if ($http_user_agent ~* "python|curl|java|wget|httpclient|okhttp") {return 503;}# 正常处理...}...

变量$http_user_agent是一个可以直接在location中引用的Nginx变量。~*表示不区分大小写的正则匹配,通过python就可以过滤掉80%的Python爬虫。

使用Nginx过滤网络爬虫相关推荐

  1. nginx 日志过滤网络爬虫

    分析nginx日志的时候,比较头疼的是有许多蜘蛛爬虫的痕迹. 鉴于多数蜘蛛爬虫都是叫xx-bot或者xx-spider,下面的方法可以给爬虫单独写日志: 1 2 3 4 5 location / { ...

  2. nginx+lua 实现的免费网站站长工具-防网络爬虫,自动推送百度,批量添加站长统计

    github5站长助手 介绍 基于lua开发的开源站长助手, 实现常见的站长功能: 智能防爬虫 批量添加站长统计 批量替换网页内容 智能管理网站有效链接 批量生成robots.txt 批量屏蔽网站错误 ...

  3. Python网络爬虫(一):爬虫基础

    Python网络爬虫(一)爬虫基础 一.爬虫基础 1.HTTP基本原理 1.1URI和URL URI,全称:Uniform Resource Identifier,即统一资源标志符:URL,全称:Un ...

  4. python网络爬虫初识_python爬虫(一)初识爬虫

    什么是爬虫? 中文名(网络爬虫) 外文名(web crawler) 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程 ...

  5. python网络爬虫程序技术,Python网络爬虫程序技术

    spContent=该课程是2018年广东省精品在线开放课程.课程主要以爬取学生信息.爬取城市天气预报.爬取网站图像.爬起图书网站图书.爬取商城网站商品等5个项目为依托,讲解Web.正则表达式.Bea ...

  6. python之网络爬虫

    一.演绎自已的北爱 踏上北漂的航班,开始演奏了我自已的北京爱情故事 二.爬虫1 1.网络爬虫的思路 首先:指定一个url,然后打开这个url地址,读其中的内容. 其次:从读取的内容中过滤关键字:这一步 ...

  7. 开发网络爬虫应该怎样选择爬虫框架?

    2019独角兽企业重金招聘Python工程师标准>>> 有些人问,开发网络爬虫应该选择Nutch.Crawler4j.WebMagic.scrapy.WebCollector还是其他 ...

  8. java爬虫面试题_使用Java实现网络爬虫

    网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 另外一些不常使用的名字还有蚂蚁.自动索引.模 ...

  9. java 网络爬虫 正则表达式_【干货】Java网络爬虫基础知识

    原标题:[干货]Java网络爬虫基础知识 引言 Java 网络爬虫具有很好的扩展性可伸缩性,其是目前搜索引擎开发的重要组成部分.例如,著名的网络爬虫工具 Nutch 便是采用 Java 开发,该工具以 ...

最新文章

  1. 【lidar】3D目标检测PointPillars:论文解读、代码解读、部署实现(2)
  2. 掌握哪些机器学习工具更受企业青睐?
  3. LeetCode Rectangle Area
  4. 远程访问ubuntu下mysql的问题
  5. AngularJS学习笔记(一)
  6. linux怎么修改sftp默认端口,转:linux 修改sftp服务默认提供者sshd的session timeout
  7. [leedcode][409][java]
  8. IDEA入门(一):简介、安装
  9. 为什么有人宁愿每年买一部千元机,也不愿一次买部高端机?
  10. C#实战之CAD二次开发005:打印pdf
  11. 80端口为什么要备案_搞网站的你,不了解一下共享虚拟主机和备案问题
  12. [Python人工智能] 四.神经网络和深度学习入门知识
  13. 神之bug 嵌套RecyclerView谜之滚动
  14. 你还不知道钉钉服务端API全局错误码吗?
  15. 一种简单的将图一-1变成图1-1的方式
  16. alc236黑苹果驱动_黑苹果核心显卡驱动教程
  17. tomcat服务器报503
  18. 如何将ip修改成域名
  19. AnyConnect苹果IOS系统Iphone手机的设置教程
  20. excel表格打开灰色,没有内容

热门文章

  1. 程序员如何克服焦虑?
  2. 模型与logit_基础方法 | 如何用Logit回归模型写论文?
  3. web api接口开发实例_C# 物联网开发API接口系列(4)
  4. php首页下雪源码代码,HTML5实现下雪效果的实例代码分享
  5. ios textview间距_iOS 设置TextView控件内容行间距
  6. 需求调研计划_干货!如何做好一个BI项目的规划和需求定义?
  7. python做成绩表_自学Python笔记:用Python做成绩分析(2)
  8. 计算机组装与维护 授课计划,计算机课程教学计划
  9. 小辣椒2019_小辣椒红辣椒7X尊享版(6GB 64GB)参数大全,好便宜的联发科手机
  10. 【JQuery】 触发元素的change事件