Python爬虫 | 反爬机制:IP限制高匿代理 IP 突破(爬虫 IP 被禁怎么办?)
一、 什么是代理?
二、 代理服务器的作用
可以进行请求的响应和转发
三、 在爬虫中为何要使用代理
如果我们使用爬虫对一个网站在一段时间内发起一个高频请求,该网站会检测出这个异常的现象,并将异常的请求 IP 获取,将 IP 加入到黑名单,然后改 IP 在近期就无法再次对该网站进行访问。
四、 代理的匿名度
匿名度 | 是否知道使用代理 | 是否知道真实IP |
---|---|---|
透明 | 是 | 是 |
匿名 | 是 | 否 |
高匿 | 否 | 否 |
五、 代理的类型
类型 | 功能 |
---|---|
http | 只能转发http协议的请求 |
https | 只能转发https协议的请求 |
一般的代理服务器两种类型均支持
六、 如何使用代理
1. 购(bai)买(piao)IP
条条大路通罗马,自己的 IP 被封了不能用,就得买别人的 IP
当然也是可以白嫖的,点击下方图片进入网站,注册登录之后,可以每天白嫖10个1-5分钟的ip,如果需要更多,就只能自己买了,看起来很便宜的样子。
2. 提取 IP
大概这么配置一下,即可生成一个 API 接口,需要 IP 的时候调用一下就可以了,具体怎么选择,看个人需求。
def get_proxies():url_ip_port = """API""" # 此处填写获取的APIip_port_json = requests.get(url_ip_port).json()print('已获取新ip_port:{ip_port},到期时间:{ExpireTime}'.format(ip_port=ip_port_json['data'][0]['IP'],ExpireTime=ip_port_json['data'][0]['ExpireTime']))proxies = {"https": 'http://{}'.format(ip_port_json['data'][0]['IP']),}return proxies
使用 IP
搜狗主页代码里可以获取到本机 IP 地址
语法:
在请求中添加一个为 proxies 的参数
值为:{“https”: ‘http://【ip:port】’,}
if __name__ == '__main__':User_Agent_list = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763','Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4292.2 Safari/537.36']headers = {'User_Agent': random.choice(User_Agent_list)}# 本机访问sogou_index = requests.get(url='https://www.sogou.com/', headers=headers,).texttree = etree.HTML(sogou_index)print(tree.xpath('/html/head/script[1]//text()'))# 代理服务器访问sogou_index = requests.get(url='https://www.sogou.com/', headers=headers, proxies=get_proxies()).texttree = etree.HTML(sogou_index)print(tree.xpath('/html/head/script[1]//text()'))
进阶操作
用 Redis 搭一个 IP 池,需要时从 Redis 里随机取一个出来,定时自动删除,简直不要太舒服。
Python爬虫 | 反爬机制:IP限制高匿代理 IP 突破(爬虫 IP 被禁怎么办?)相关推荐
- 爬虫(三):爬取西刺高匿代理
抓取西刺高匿代理,并验证IP的可用性,存储到本地文件中. 代码如下 # 导入模块 import requests import chardet import random from scrapy.se ...
- 关于爬虫反爬机制处理方法(整合)
常见得反爬机制及解决办法 1.针对请求头做出得反爬 简介:网站通过去检查headers中的User-Agent字段来反爬,如果我们没有设置请求头,那么headers默认是python这样就会出现访问失 ...
- 爬虫反爬机制及反爬策略
参考:https://www.cnblogs.com/LLBFWH/articles/10902533.html 爬虫是一种模拟浏览器对网站发起请求,获取数据的方法.简单的爬虫在抓取网站数据的时候,因 ...
- python爬虫反爬机制_浅谈爬虫及绕过网站反爬取机制之Python深度应用
我们中公优就业的老师希望能给那些面临困境的朋友们带来一点帮助!(相关阅读推荐:Python学习就看这里!) 爬虫是什么呢,简单而片面的说,爬虫就是由计算机自动与服务器交互获取数据的工具.爬虫的最基本就 ...
- python爬虫反爬机制_Python Scrapy突破反爬虫机制(项目实践)
对于 BOSS 直聘这种网站,当程序请求网页后,服务器响应内容包含了整个页面的 HTML 源代码,这样就可以使用爬虫来爬取数据.但有些网站做了一些"反爬虫"处理,其网页内容不是静态 ...
- python爬取高匿代理IP(再也不用担心会进小黑屋了)
一起进步 为什么要用代理IP 很多数据网站,对于反爬虫都做了一定的限制,这个如果写过一些爬虫程序的小伙伴应该都深有体会,其实主要还是IP进了小黑屋了,那么为了安全,就不能使用自己的实际IP去爬取人家网 ...
- python爬虫进阶,突破反脚本机制(反爬机制)
前言 相信大家在做爬虫或者自动化脚本时或多或少的都能遇到反爬机制(或者说反脚本机制),最常见的反脚本机制都是在登录时进行验证,据本人大量实战(帮粉丝写脚本)发现,基本上只要有点水平的网站都会有反脚本的 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- Python爬虫实战——反爬机制的解决策略【阿里】
这一次呢,让我们来试一下"CSDN热门文章的抓取". 话不多说,让我们直接进入CSND官网. (其实是因为我被阿里的反爬磨到没脾气,不想说话--) 一.URL分析 输入" ...
最新文章
- 每日一皮:当项目完工,开发进行演示时
- POJ - 2400 Supervisor, Supervisee(KM+打印方案)
- aws rds同步_将数据从Python同步到AWS RDS
- 深入理解DOM节点类型第六篇——特性节点Attribute
- div元素显示隐藏切换,点击空白位置消失
- MySQL利用磁盘缓存写入_MySQL写入缓冲区在数据库中的作用( Change Buffer )
- 如何用报表解决销售工作衡量问题
- 拍照手抖有救了!DeblurGAN消除运动模糊效果惊人 | 附论文+代码
- 【BZOJ22233524】PATULJCI [主席树]
- STM32f103正点原子小白 FLYMcu串口
- python去除图片复杂背景_去掉图片黑背景输出为透明背景
- 微信小程序笔记 -- 数据库
- JSP+实验室设备管理 毕业设计-附源码191409
- 七、微信小程序运行报错:Error: AppID 不合法,invalid appid
- leetcode No5. Longest Palindromic Substring
- 十张图,看数据分析如何赋能销售
- 让项目经理受用终身的8个道理
- 航运大数据——机遇和挑战
- python3跑通smpl模型_SMPL模型改用python3+numpy计算
- 超级简单易懂的决策树介绍:什么是决策树,如何构建决策树