如何通过限制 IP 相关信息 | 控制用户访问站点频率
文章目录
- 通过 IP 限制反爬
- 实验介绍
- 知识点
- 课程环境
- IP 限制实战
- 用 Nginx 限制特定 IP
- 关于 allow 和 deny 的使用说明
- Nginx 限制 IP 访问频率
- Python Flask 模拟 IP 黑名单
- 实验总结
通过 IP 限制反爬
实验介绍
在常规的反爬手段中,IP 限制是应用广泛且比较有效的,但其存在一定的 误杀
,因同一 IP 下可能不止一位用户。本实验从 Nginx 限制特定 IP 的配置开始学习,然后扩展到限制 IP 访问频次,最后通过文本文件模拟了黑名单 IP 库限制爬虫 IP 这一技术点。
知识点
- Nginx 限制 IP 访问
- Nginx 控制 IP 访问频次
- 用 Python Flask 配合黑名单限制 IP
课程环境
蓝桥提供的 Ubuntu20+ 系统,系统内置 Nginx,内置 sublime text3 编辑器,Python3+ 版本。
课程实战参见 玩转 16 种反爬虫技巧
IP 限制实战
用 Nginx 限制特定 IP
首先学习利用 Nginx 配置限制特定 IP 访问我们的站点,限制 IP 有两种机制,即黑/白名单。
- 黑名单:在名单中的 IP 无法访问;
- 白名单:在名单中的 IP 可以访问。
反爬中常见的是应用 IP 黑名单技术,假设你的网站安全等级较高,可以启用 IP 白名单机制。
下面为大家详细说明黑名单机制。
为了配合 Nginx 配置,先使用 Python Flask 获取一下蓝桥系统中本地环境的 IP。
在 Code 目录中中创建一个新目录 03_demo
,然后创建 index.py
文件,输入如下代码。
import logging
from flask import Flask, render_template, requestapp = Flask(__name__)@app.route('/')
def index():ip = request.remote_addrlogging.debug(ip)return render_template('index.html', user_ip=ip)if __name__ == '__main__':# 注意蓝桥环境不能使用 80 端口,会出现异常app.run(host="0.0.0.0", port=8080)
在项目根目录 templates
中新建 index.html
文件,然后输入如下代码:
<!DOCTYPE html>
<html><head> </head><body><div class="container"><div class="header"><h3 class="text-muted">获取用户IP</h3></div><hr /><div>IP 地址是: <strong>{{user_ip}}</strong><hr /></div></div></body>
</html>
运行代码得到如下内容,由于 Flask 运行后可以使用两个 IP 地址访问,即 127.0.0.1
和 192.168.42.3
,所以后续限制 IP 时,也可以拿这两个 IP 下手。
到这里我们获取到了本地 IP,接下来就可以在 Nginx 中进行限制了。
打开 /etc/nginx/conf.d/default.conf
文件,然后参考下图进行配置。
location / {root /usr/share/nginx/html;index index.html index.htm;allow 192.168.42.3;deny all;
}
配置输入位置截图:
修改 default.conf
文件之后,注意重新加载配置文件,命令如下:
# 重新加载配置
sudo /etc/init.d/nginx reload
接下来在 终端 使用 wget
关键字进行测试。
# 测试 127.0.0.1
wget http://127.0.0.1# 测试 192.168.42.3
wget http://192.168.42.3
得到的结果如下所示:
由于我们设置了仅允许(allow
)IP 地址为 192.168.42.3 时,才可以访问目标站点,所以第一次请求 127.0.0.1 时,系统返回 403 禁止。
关于 allow 和 deny 的使用说明
屏蔽操作的关键字是 deny
:
屏蔽单个 IP
deny 127.0.0.1;
屏蔽多个 IP
deny 127.0.0.1;
deny 127.0.0.1;
屏蔽全部 IP
deny all;
屏蔽 IP 段访问
# deny ip/mask
# 屏蔽 192.0.0.0 到 192.255.255.254 访问的命令
deny 192.0.0.0/8;# 屏蔽 192.168.0.0 到 192.168.255.254 访问的命令
deny 192.168.0.0/16;#屏蔽 192.168.6.1 到 192.168.6.254 访问的命令
deny 192.168.6.0/24;
扩展知识点 192.168.0.0/16 为 CIDR 的表示语法,学有余力的同学可以继续学习一下。
此时你应该发现,如果 IP 地址过多,每次都屏蔽一个会非常繁琐,因此 blockip.conf
就出现了,它可以一次屏蔽多个 IP,而且在单独文件配置。
blockip.conf
文件需创建在 default.conf
同目录 /etc/nginx/conf.d/
中,所以提前修改该目录读写权限。
sudo chmod 777 /etc/nginx/conf.d/
blockip.conf
文件内容如下所示:
allow 192.168.42.3;
deny all;
保存之后在 default.conf
导入该文件即可。
include blockip.conf;
修改配置之后,使用 sudo /etc/init.d/nginx reload
重新加载配置。
再次测试,发现与前文结果一致,证明导入配置文件已经生效。
允许操作的关键字是 allow
:
允许单个 IP
allow 127.0.0.1;
允许所有 IP
allow all;
其余内容与上文 拒绝 操作一致。
需要注意的事项
Nginx 配置会从上至下依次判断,写在前面的语句会屏蔽后续的语句,具体配置如下所示:
# 先禁止所有,后续允许的也无法访问
deny all;
allow 127.0.0.1;
allow 192.168.42.3;
解决上述问题的方式就是,将允许的 IP 配置前置。
allow 127.0.0.1;
allow 192.168.42.3;
deny all;
Nginx 限制 IP 访问频率
使用 Nginx 可以控制 IP 访问频率,涉及的两个配置,分别如下所示:
limit_req_zone $binary_remote_addr zone=one:10m rate=2r/s;
该配置需要写到 /etc/nginx
目录中的 nginx.conf
文件内,具体位置如下所示:
参数说明如下:
- limit_req_zone :该变量用于限制请求频率,只能在 http 使用;
- $binary_remote_addr:二进制远程地址;
- zone=one:定义一个名称为
one
的记录区,总容量为 10 M; - rate:每秒的请求为 2 个(测试用,实战中适当调高)。
除了上述配置外,还需要在 default.conf
中的 location
块配置如下内容:
limit_req zone=one burst=3 nodelay;
参数说明如下:
- zone=one :设置使用哪个配置区域来做限制,与上面 limit_req_zone 的
name
对应; - burst=3:burst 配置在这里,我们设置了一个大小为 3 的缓冲区,当有大量请求过来时,超过访问频次限制的请求,先放到缓冲区内等待,但不能超过 3 个,否则超过的请求会直接报 503 的错误然后返回,其中的 3 可自行设置;
- nodelay :该参数表示超过的请求不被延迟处理。
该配置完成后,需要重启 Nginx 服务,否则配置不生效。
sudo /etc/init.d/nginx restart
测试使用 Python 代码实现:
import requestsprint(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
print(requests.get('http://127.0.0.1'))
运行代码之后,得到如下响应状态码,可以看到从第 5 个请求开始,返回的是 503,你可以修改上文提及的配置值,将其调大,然后继续模拟不同数量的请求。
Python Flask 模拟 IP 黑名单
使用 Python 去限制 IP,最佳的解决方案是使用 Python + Redis,但本系列实验的重点是反爬逻辑,所以本实验用普通的 txt 文件代替 redis 存储。
首先在 03_demo
目录创建一个 ban.txt
文件,该文件记录 IP 黑名单数据,每行存储一个 IP 地址,例如:
127.0.0.1
183.247.199.114
183.247.211.50
……
接下来就可以在程序中读取该文件,然后通过判断请求端的 IP 地址是否存在于黑名单中,存在即返回 403 状态码。
在前文创建的 index.py
文件中编入下述代码。
import logging
from flask import Flask, render_template, requestapp = Flask(__name__)def get_ban_ip():with open('ban.txt',"r") as f:ip_list = f.readlines()# 去除空格,并转换为集合set_ip = {ip.strip() for ip in ip_list}return set_ip@app.route('/')
def index():# 获取客户端 IPip = request.remote_addrips = get_ban_ip()if ip in ips:# 判断 IP 是否在黑名单中,存在返回 403return "forbidden",403return render_template('index.html', user_ip=ip)if __name__ == '__main__':app.run(host="0.0.0.0", port=8080)
以上代码核心检测函数是 get_ban_ip()
,它读取黑名单文件,并将其结果存储到集合中,然后通过 in
运算符进行检测。
运行代码之后,你可以分别访问下述请求地址,获取结果。
http://127.0.0.1:8080 # 被禁止
http://192.168.42.3:8080 # 可以访问
实验总结
本实验前部分主要集中讲解了 Nginx 对于 IP 限制的相关配置,在反爬实战中可以作为应急使用,第二部分的 Python Flask + IP 黑名单更加通用一些,而且在实际工作中,你可以构建一个 IP 和请求次数的键值对,然后设置每 IP 每秒访问频次瓶颈,当超过设置预设值时,进行屏蔽。
实战中还会碰到一种场景,爬虫程序不断切换代理 IP 访问我们的服务器,此时你需要做的是尽力维护好 IP 黑名单库,并且将 IP 与频次控制进行合理结合,恰当的判定对方是否为爬虫,然后封禁。
IP 封禁很容易造成误伤,实战中要反复测试判定程序,尽量不放过一个爬虫程序,也不误伤一个正常用户。
如何通过限制 IP 相关信息 | 控制用户访问站点频率相关推荐
- SQLServer控制用户访问权限表
一.需求 在管理数据库过程中,我们经常需要控制某个用户访问数据库的权限,比如只需要给这个用户访问某个表的权限,甚至是CRUD的权限,更小粒度的还可以去到某几个字段的访问权限.写这篇文章就是说明下这个操 ...
- 信息收集域名、IP、端口服务、指纹识别相关信息
信息收集域名.IP.端口服务.指纹识别.Googlehacking.目录信息.Githack相关信息 域名相关的信息 域名是什么 域名的分类 国际域名 国别域名 新顶级域名 域名联系人信息 whois ...
- 如何评价网络的好坏及IP相关知识
下文属于半原创,主要还是引用大家的内容,毕竟看到一个大佬科普的内容非常好. 1 上传与下载 网络数据传输分为发送数据和接收数据两部分.上传就是向外部发送数据,下载为从外部接收数据.通俗一点说,下载速度 ...
- 根据ip或者自动识别当前用户所在国家、地区、城市
今天给大家来点干货! 完整需求:根据用户所在地的不同,网站自动切换最适合用户的语言 解析需求: 1.我们需要根据ip获取用户所在地,其中获取IP具体有三种方法: (1).在项目中引入搜狐这个组件库 然 ...
- 华硕路由器信息发现服务器,研究人员发现华硕路由器收集用户访问记录等隐私数据...
基于网络发展和使用需求已经越来越多的用户开始选择智能路由器, 但智能归智能安全性倒是非常值得关注. 日前就有安全研究人员发现了华硕路由器使用的 ASUSWRT 存在收集用户的网页访问记录并与趋势科技共 ...
- 域用户桌面显示计算机名,用Bginfo设置域客户端桌面显示主机名和IP地址信息
老林同学那天给老师部署了个作业,说在维护工作中,经常要问用户他们的主机名或IP地址是多少,大多数用户难以找到这些信息,如果能将主机名显示在"我的电脑"下面就好了,结果,这个作业小徐 ...
- COBIT信息及相关技术控制目标认证
『课程背景:掌握IT治理实践,获取国际认证,"助力职业发展"』 COBIT(Control Objectives for Information andrelated Tech ...
- 金蝶EAS登录获取用户相关信息失败、EAS默认用户名、密码
1.sql2005,新装的EAS7.0服务器,新建一个帐套,都弄好了以后,客户端登陆的时候提示错误:获取用户相关信息失败! 日志里说该游标未声明 解决方法:在SQL SERVER执行alter ta ...
- 通过bginfo小工具让用户自己查看用户名与IP地址信息
通过bginfo小工具让用户自己查看用户名与IP地址信息 https://blog.51cto.com/wangzhaowei/1337848 王兆伟1390人评论3390人阅读2013-12-07 ...
最新文章
- # 遍历结构体_C#学习笔记05--枚举/结构体
- 当我们群嘲假博士时,不要忘了真博士们的艰辛
- 模式匹配算法----KMP算法以及next数组的解法
- LeetCode OJ1:Reverse Words in a String
- 【图论】【poj 3020】Antenna Placement
- excel手机版_excel仓库管理手机版导出软件
- 步进电机驱动器细分功能的介绍以及设置
- 浪潮服务器销售案例ppt,浪潮服务器上架安装.ppt
- 直播上市潮 未上市平台未来不可期?
- 微型计算机系统的五大组成部分,计算机系统的组成计算机硬件的五大部分是什么...
- 个人网站音乐服务器,自己的私人音乐流媒体服务,这才是多少音乐者的梦寐以求的...
- apt-get指令的autoclean,clean,autoremove的区别
- 在学习JAVA过程中,你遇到的最大的困难是什么?
- 五种提高 SQL 性能的方法 [来源:MSDN Johnny Papa]
- 表格号码归属地查询的正确检测方式
- Java实现拼图小游戏(7)—— 计步功能及菜单业务的实现
- 关于人工智能行业寒冬的思考
- OJ:Bad Cowtractors(最大生成树)
- Myeclipse --The type java.lang.CharSequence cannot be resolved. It is indirectly referenced ---
- JavaScript前端开发小游戏之智能拼图