Python-常见的反爬虫手段
Python-常见的反爬虫手段
对于静态页面针对爬虫的手段常常为Headers验证及针对IP的用户行为分析。
一、Headers反爬虫机制
Headers反爬虫机制常常为验证Headers中的信息,常需要验证的信息为UserAgent或X-Token等。针对UserAgent的反爬虫手段,通过导入 fake_useragent 包随机选择UserAgent的方式进行请求。
import requests
from fake_useragent import UserAgentbase_url = 'http://icanhazip.com'
ua = UserAgent()
# User-Agent 采用随机选取的方式
headers = {'X-Token': 'eyJhbGciOiJIUzI1NiJ9.eyJpYXQiOjE2MTQ4NDY3MTksImp0aSI6IjVhMmMwYWMyLTAzNTYtNDQ5ZXXXXX', 'Cookie': 'JSESSIONID=3555BE5F1XXXXXX', 'User-Agent': ua.random
}
response = requests.get(base_url, headers=headers)
二、针对IP进行用户行为分析的反爬虫机制
针对单个IP的用户行为分析,需要使用切换不同代理IP间断的拉取数据,从而避免被网站屏蔽。若资源充足,还可以使用分布式爬虫。
import requests"""
1.需要将代理IP加入数组
2.使用 url 验证代理IP是否可用
3.使用代理IP访问需要爬取的网站
"""
url = 'http://icanhazip.com'
proxies = [{'http': 'http://107.151.182.247:80'},{'http': 'http://206.253.164.101:80'}
]
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit''/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
# proxies = random.choice(proxies)for ips in proxies:try:# 设置重连次数requests.adapters.DEFAULT_RETRIES = 3res = requests.get(url, headers=headers, timeout=3, proxies=ips)# 查看是否为代理IPprint(res.text)except:print("1代理IP无效!")
后续更新
Python-常见的反爬虫手段相关推荐
- Python 常见的反爬手段和解决思路
学习目标: 1.了解 服务器反爬的原因: 2.了解 服务器常反什么样的爬虫: 3.了解 反爬虫领域常见的一些概念: 4.了解 反爬的三个方向: 5.了解 常见基于身份识别进行反爬: 6.了解 常见基于 ...
- python网络爬虫系列(八)——常见的反爬手段和解决方法
常见的反爬手段和解决思路 学习目标 了解 服务器反爬的原因 了解 服务器常反什么样的爬虫 了解 反爬虫领域常见的一些概念 了解 反爬的三个方向 了解 常见基于身份识别进行反爬 了解 常见基于爬虫行为进 ...
- 大型企业都在用的Python反爬虫手段,破了它!
SVG 映射反爬虫 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这 ...
- 大厂在用的Python反爬虫手段,破了它!
SVG 映射反爬虫 SVG 是用于描述二维矢量图形的一种图形格式.它基于 XML 描述图形,对图形进行放大或缩小操作都不会影响图形质量.矢量图形的这个特点使得它被广泛应用在 Web 网站中. 接下来我 ...
- 【爬虫进阶】常见的反爬手段和解决方法(建议收藏)
爬虫进阶:常见的反爬手段和解决思路 1 服务器反爬的原因 2 服务器常反什么样的爬虫 3 反爬虫领域常见的一些概念 4 反爬的三个方向 5 常见基于身份识别进行反爬 5.1 通过headers字段来反 ...
- python爬虫之逆向破解_这种python反爬虫手段有点意思,看我怎么破解
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...
- 这种python反爬虫手段有点意思,看我怎么P解
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...
- 【实战案例】这种python反爬虫手段有点意思,看我怎么P解
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...
- Python之反爬虫手段(User-Agent,Cookie,Referer,time.sleep(),IP代理池)
现在的爬虫越来越难,各大网站为了预防不间断的网络爬虫,都相应地做出了不同的反爬机制,那么如何能够在不被封IP的情况,尽可能多得爬取数据呢?这里主要介绍到一些通用的反爬措施,虽然不一定适合所有网站,但是 ...
- 这种反爬虫手段有点意思,看我怎么把他秒破了
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...
最新文章
- [Cocoa, 医疗]Dicom Image Viewer for iPad
- 从AppStore提取ipa
- mybatis generator用法
- POJ 2114 - Boatherds
- contentwindow无法搜索对象_面试官:讲一下Jvm中如何判断对象的生死?
- cmakelists语法_CMakeList语法知识
- struts.properties文件
- 程式CSCMSV4黑色炫酷DJ音乐门户模板 音乐网源码
- reduce python3_python3中reduce函数的使用
- 模板模式(Template Pattern)
- 安卓系统校园招聘平台APP答辩PPT免费下载
- 基于人脸识别的课堂签到管理系统(三)---实时时间显示以及百度AI人脸识别
- hdu 1232 经典并查集应用
- 74hc138译码器实验c语言程序,实验二74HC138译码器实验学生
- python定义函数及调用函数
- Intel CPU发展史
- cv2.resize()函数不同插值方法比较
- 学Java到底要不要上培训班?
- 常见的12个深度学习面试问题(提高篇)
- 一篇文章说完Flutter页面路由导航及传参