文章目录

  • 通过 IP 限制反爬
    • 实验介绍
      • 知识点
      • 课程环境
    • IP 限制实战
      • 用 Nginx 限制特定 IP
      • 关于 allow 和 deny 的使用说明
      • Nginx 限制 IP 访问频率
      • Python Flask 模拟 IP 黑名单
    • 实验总结

通过 IP 限制反爬

实验介绍

在常规的反爬手段中,IP 限制是应用广泛且比较有效的,但其存在一定的 误杀,因同一 IP 下可能不止一位用户。本实验从 Nginx 限制特定 IP 的配置开始学习,然后扩展到限制 IP 访问频次,最后通过文本文件模拟了黑名单 IP 库限制爬虫 IP 这一技术点。

知识点

  • Nginx 限制 IP 访问
  • Nginx 控制 IP 访问频次
  • 用 Python Flask 配合黑名单限制 IP

课程环境

蓝桥提供的 Ubuntu20+ 系统,系统内置 Nginx,内置 sublime text3 编辑器,Python3+ 版本。

课程实战参见 玩转 16 种反爬虫技巧

IP 限制实战

用 Nginx 限制特定 IP

首先学习利用 Nginx 配置限制特定 IP 访问我们的站点,限制 IP 有两种机制,即黑/白名单

  • 黑名单:在名单中的 IP 无法访问;
  • 白名单:在名单中的 IP 可以访问。

反爬中常见的是应用 IP 黑名单技术,假设你的网站安全等级较高,可以启用 IP 白名单机制。

下面为大家详细说明黑名单机制。

为了配合 Nginx 配置,先使用 Python Flask 获取一下蓝桥系统中本地环境的 IP。

在 Code 目录中中创建一个新目录 03_demo,然后创建 index.py 文件,输入如下代码。

import logging
from flask import Flask, render_template, requestapp = Flask(__name__)@app.route('/')
def index():ip = request.remote_addrlogging.debug(ip)return render_template('index.html', user_ip=ip)if __name__ == '__main__':# 注意蓝桥环境不能使用 80 端口,会出现异常app.run(host="0.0.0.0", port=8080)

在项目根目录 templates 中新建 index.html 文件,然后输入如下代码:

<!DOCTYPE html>
<html><head> </head><body><div class="container"><div class="header"><h3 class="text-muted">获取用户IP</h3></div><hr /><div>IP 地址是: <strong>{{user_ip}}</strong><hr /></div></div></body>
</html>

运行代码得到如下内容,由于 Flask 运行后可以使用两个 IP 地址访问,即 127.0.0.1192.168.42.3 ,所以后续限制 IP 时,也可以拿这两个 IP 下手。

到这里我们获取到了本地 IP,接下来就可以在 Nginx 中进行限制了。

打开 /etc/nginx/conf.d/default.conf 文件,然后参考下图进行配置。

location / {root   /usr/share/nginx/html;index  index.html index.htm;allow  192.168.42.3;deny all;
}

配置输入位置截图:

修改 default.conf 文件之后,注意重新加载配置文件,命令如下:

# 重新加载配置
sudo /etc/init.d/nginx reload

接下来在 终端 使用 wget 关键字进行测试。

# 测试 127.0.0.1
wget http://127.0.0.1# 测试 192.168.42.3
wget http://192.168.42.3

得到的结果如下所示:

由于我们设置了仅允许(allow)IP 地址为 192.168.42.3 时,才可以访问目标站点,所以第一次请求 127.0.0.1 时,系统返回 403 禁止。

关于 allow 和 deny 的使用说明

屏蔽操作的关键字是 deny

屏蔽单个 IP

deny 127.0.0.1;

屏蔽多个 IP

deny 127.0.0.1;
deny 127.0.0.1;

屏蔽全部 IP

deny all;

屏蔽 IP 段访问

# deny ip/mask
# 屏蔽 192.0.0.0 到 192.255.255.254 访问的命令
deny 192.0.0.0/8;# 屏蔽 192.168.0.0 到 192.168.255.254 访问的命令
deny 192.168.0.0/16;#屏蔽 192.168.6.1 到 192.168.6.254 访问的命令
deny 192.168.6.0/24;

扩展知识点 192.168.0.0/16 为 CIDR 的表示语法,学有余力的同学可以继续学习一下。

此时你应该发现,如果 IP 地址过多,每次都屏蔽一个会非常繁琐,因此 blockip.conf 就出现了,它可以一次屏蔽多个 IP,而且在单独文件配置。

blockip.conf 文件需创建在 default.conf 同目录 /etc/nginx/conf.d/ 中,所以提前修改该目录读写权限。

sudo chmod 777 /etc/nginx/conf.d/

blockip.conf 文件内容如下所示:

allow  192.168.42.3;
deny all;

保存之后在 default.conf 导入该文件即可。

include blockip.conf;

修改配置之后,使用 sudo /etc/init.d/nginx reload 重新加载配置。

再次测试,发现与前文结果一致,证明导入配置文件已经生效。

允许操作的关键字是 allow

允许单个 IP

allow 127.0.0.1;

允许所有 IP

allow all;

其余内容与上文 拒绝 操作一致。

需要注意的事项

Nginx 配置会从上至下依次判断,写在前面的语句会屏蔽后续的语句,具体配置如下所示:

# 先禁止所有,后续允许的也无法访问
deny all;
allow 127.0.0.1;
allow 192.168.42.3;

解决上述问题的方式就是,将允许的 IP 配置前置。

allow 127.0.0.1;
allow 192.168.42.3;
deny all;

Nginx 限制 IP 访问频率

使用 Nginx 可以控制 IP 访问频率,涉及的两个配置,分别如下所示:

limit_req_zone $binary_remote_addr zone=one:10m rate=2r/s;

该配置需要写到 /etc/nginx 目录中的 nginx.conf 文件内,具体位置如下所示:

参数说明如下:

  • limit_req_zone :该变量用于限制请求频率,只能在 http 使用;
  • $binary_remote_addr:二进制远程地址;
  • zone=one:定义一个名称为 one 的记录区,总容量为 10 M;
  • rate:每秒的请求为 2 个(测试用,实战中适当调高)。

除了上述配置外,还需要在 default.conf 中的 location 块配置如下内容:

limit_req zone=one burst=3 nodelay;

参数说明如下:

  • zone=one :设置使用哪个配置区域来做限制,与上面 limit_req_zonename 对应;
  • burst=3burst 配置在这里,我们设置了一个大小为 3 的缓冲区,当有大量请求过来时,超过访问频次限制的请求,先放到缓冲区内等待,但不能超过 3 个,否则超过的请求会直接报 503 的错误然后返回,其中的 3 可自行设置;
  • nodelay :该参数表示超过的请求不被延迟处理。

该配置完成后,需要重启 Nginx 服务,否则配置不生效。

sudo /etc/init.d/nginx restart

测试使用 Python 代码实现:

import requestsprint(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))

运行代码之后,得到如下响应状态码,可以看到从第 5 个请求开始,返回的是 503,你可以修改上文提及的配置值,将其调大,然后继续模拟不同数量的请求。

Python Flask 模拟 IP 黑名单

使用 Python 去限制 IP,最佳的解决方案是使用 Python + Redis,但本系列实验的重点是反爬逻辑,所以本实验用普通的 txt 文件代替 redis 存储。

首先在 03_demo 目录创建一个 ban.txt 文件,该文件记录 IP 黑名单数据,每行存储一个 IP 地址,例如:

127.0.0.1
183.247.199.114
183.247.211.50
……

接下来就可以在程序中读取该文件,然后通过判断请求端的 IP 地址是否存在于黑名单中,存在即返回 403 状态码。

在前文创建的 index.py 文件中编入下述代码。

import logging
from flask import Flask, render_template, requestapp = Flask(__name__)def get_ban_ip():with open('ban.txt',"r") as f:ip_list = f.readlines()# 去除空格,并转换为集合set_ip = {ip.strip() for ip in ip_list}return set_ip@app.route('/')
def index():# 获取客户端 IPip = request.remote_addrips = get_ban_ip()if ip in ips:# 判断 IP 是否在黑名单中,存在返回 403return "forbidden",403return render_template('index.html', user_ip=ip)if __name__ == '__main__':app.run(host="0.0.0.0", port=8080)

以上代码核心检测函数是 get_ban_ip(),它读取黑名单文件,并将其结果存储到集合中,然后通过 in 运算符进行检测。

运行代码之后,你可以分别访问下述请求地址,获取结果。

http://127.0.0.1:8080 # 被禁止
http://192.168.42.3:8080 # 可以访问

实验总结

本实验前部分主要集中讲解了 Nginx 对于 IP 限制的相关配置,在反爬实战中可以作为应急使用,第二部分的 Python Flask + IP 黑名单更加通用一些,而且在实际工作中,你可以构建一个 IP 和请求次数的键值对,然后设置每 IP 每秒访问频次瓶颈,当超过设置预设值时,进行屏蔽。

实战中还会碰到一种场景,爬虫程序不断切换代理 IP 访问我们的服务器,此时你需要做的是尽力维护好 IP 黑名单库,并且将 IP 与频次控制进行合理结合,恰当的判定对方是否为爬虫,然后封禁。

IP 封禁很容易造成误伤,实战中要反复测试判定程序,尽量不放过一个爬虫程序,也不误伤一个正常用户。

如何通过限制 IP 相关信息 | 控制用户访问站点频率相关推荐

  1. SQLServer控制用户访问权限表

    一.需求 在管理数据库过程中,我们经常需要控制某个用户访问数据库的权限,比如只需要给这个用户访问某个表的权限,甚至是CRUD的权限,更小粒度的还可以去到某几个字段的访问权限.写这篇文章就是说明下这个操 ...

  2. 信息收集域名、IP、端口服务、指纹识别相关信息

    信息收集域名.IP.端口服务.指纹识别.Googlehacking.目录信息.Githack相关信息 域名相关的信息 域名是什么 域名的分类 国际域名 国别域名 新顶级域名 域名联系人信息 whois ...

  3. 如何评价网络的好坏及IP相关知识

    下文属于半原创,主要还是引用大家的内容,毕竟看到一个大佬科普的内容非常好. 1 上传与下载 网络数据传输分为发送数据和接收数据两部分.上传就是向外部发送数据,下载为从外部接收数据.通俗一点说,下载速度 ...

  4. 根据ip或者自动识别当前用户所在国家、地区、城市

    今天给大家来点干货! 完整需求:根据用户所在地的不同,网站自动切换最适合用户的语言 解析需求: 1.我们需要根据ip获取用户所在地,其中获取IP具体有三种方法: (1).在项目中引入搜狐这个组件库 然 ...

  5. 华硕路由器信息发现服务器,研究人员发现华硕路由器收集用户访问记录等隐私数据...

    基于网络发展和使用需求已经越来越多的用户开始选择智能路由器, 但智能归智能安全性倒是非常值得关注. 日前就有安全研究人员发现了华硕路由器使用的 ASUSWRT 存在收集用户的网页访问记录并与趋势科技共 ...

  6. 域用户桌面显示计算机名,用Bginfo设置域客户端桌面显示主机名和IP地址信息

    老林同学那天给老师部署了个作业,说在维护工作中,经常要问用户他们的主机名或IP地址是多少,大多数用户难以找到这些信息,如果能将主机名显示在"我的电脑"下面就好了,结果,这个作业小徐 ...

  7. COBIT信息及相关技术控制目标认证

    『课程背景:掌握IT治理实践,获取国际认证,"助力职业发展"』   COBIT(Control Objectives for Information andrelated Tech ...

  8. 金蝶EAS登录获取用户相关信息失败、EAS默认用户名、密码

    1.sql2005,新装的EAS7.0服务器,新建一个帐套,都弄好了以后,客户端登陆的时候提示错误:获取用户相关信息失败!  日志里说该游标未声明 解决方法:在SQL SERVER执行alter ta ...

  9. 通过bginfo小工具让用户自己查看用户名与IP地址信息

    通过bginfo小工具让用户自己查看用户名与IP地址信息 https://blog.51cto.com/wangzhaowei/1337848 王兆伟1390人评论3390人阅读2013-12-07 ...

最新文章

  1. # 遍历结构体_C#学习笔记05--枚举/结构体
  2. 当我们群嘲假博士时,不要忘了真博士们的艰辛
  3. 模式匹配算法----KMP算法以及next数组的解法
  4. LeetCode OJ1:Reverse Words in a String
  5. 【图论】【poj 3020】Antenna Placement
  6. excel手机版_excel仓库管理手机版导出软件
  7. 步进电机驱动器细分功能的介绍以及设置
  8. 浪潮服务器销售案例ppt,浪潮服务器上架安装.ppt
  9. 直播上市潮 未上市平台未来不可期?
  10. 微型计算机系统的五大组成部分,计算机系统的组成计算机硬件的五大部分是什么...
  11. 个人网站音乐服务器,自己的私人音乐流媒体服务,这才是多少音乐者的梦寐以求的...
  12. apt-get指令的autoclean,clean,autoremove的区别
  13. 在学习JAVA过程中,你遇到的最大的困难是什么?
  14. 五种提高 SQL 性能的方法 [来源:MSDN Johnny Papa]
  15. 表格号码归属地查询的正确检测方式
  16. Java实现拼图小游戏(7)—— 计步功能及菜单业务的实现
  17. 关于人工智能行业寒冬的思考
  18. OJ:Bad Cowtractors(最大生成树)
  19. Myeclipse --The type java.lang.CharSequence cannot be resolved. It is indirectly referenced ---
  20. JavaScript前端开发小游戏之智能拼图

热门文章

  1. uni-app如何使用vant-ui的坑
  2. 哈工大C语言程序设计精髓第三周
  3. shelljs库使用js达到linux命令操作
  4. 基于FPGA的信号发生器
  5. 深入理解JVM的PC寄存器(Program Counter Register)
  6. mysql数据库性能优化—my.cnf详解
  7. c语言魔法书,C语言编程魔法书:基于C11标准
  8. Spring事务的传播机制
  9. 亿可控_第1章_系统分析与设计
  10. 最详细的MOS管讲解