selenium+python设置爬虫代理IP
selenium+python设置爬虫代理IP
1. 背景
在使用selenium浏览器渲染技术,爬取网站信息时,一般来说,速度是很慢的。而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP的访问频率应该有相当的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:
- 第一,提高抓取频率,出现验证信息时进行破解,一般是验证码或者用户登录。
- 第二,使用多线程 + 代理IP, 这种方式,需要电脑有足够的内存和充足稳定的代理IP 。
2. 为chrome设置代理IP
from selenium import webdriver
chromeOptions = webdriver.ChromeOptions()# 设置代理
chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")
# 一定要注意,=两边不能有空格,不能是这样--proxy-server = http://202.20.16.82:10152
browser = webdriver.Chrome(chrome_options = chromeOptions)# 查看本机ip,查看代理是否起作用
browser.get("http://httpbin.org/ip")
print(browser.page_source)# 退出,清除浏览器缓存
browser.quit()
- 注意事项:
- 第一,代理IP最好是稳定的固定IP,不要选动态IP。我们常用的爬虫IP是高匿名动态IP,是通过拨号动态产生的,时效性很短,一般在1~3分钟。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。
- 第二,代理IP的速度。因为selenium爬虫采用的是浏览器渲染技术,本身速度就很慢。如果选择的代理IP速度较慢,就会大大增加爬取的时间。
- 第三,电脑内存要够大。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。
- 第四,在程序结束时,调用 browser.quit( ) 清除浏览器缓存。
3. 需要用户名密码验证的代理
- 参考文章:
- Selenium chrome配置代理Python版:https://www.cnblogs.com/roystime/p/6935543.html
- GitHub:https://github.com/RobinDev/Selenium-Chrome-HTTP-Private-Proxy
selenium+python设置爬虫代理IP相关推荐
- selenium+python设置爬虫代理IP的方法
1. 设置背景 在使用selenium浏览器渲染技术,当我们爬取某个网站的信息的时候,在一般情况下速度都不是特别的快.而且需要利用selenium浏览器渲染技术爬取的网站,反爬虫的应对技术都比较厉害, ...
- Python+Selenium设置爬虫代理IP的方法
首先新建proxy.zip文件夹,里面包含两个文件background.js.manifest.json background.js(需要配置:host.port.username.password) ...
- Python自助爬虫代理ip模块
短小无比的前言: 代理对于爬虫来说可是很重要的一环,尤其在对于大量数据的时候,一不小心自己ip挂了,要么你换网,要么你等个几小时恢复 之后你上网查阅了种种办法,跨越种种艰难险阻,数以堆计的bug终于修 ...
- Python爬虫:爬虫所需要的爬虫代理ip是什么?
当我们对某些网站进行爬去的时候,我们经常会换IP来避免爬虫程序被封锁.代理ip地址如何获取?其实也是一个比较简单的操作,目前网络上有很多IP代理商,例如西刺,芝麻,犀牛等等.这些代理商一般都会提供透明 ...
- python 代理ip池_GitHub - xuan525/proxy_pool: Python爬虫代理IP池(proxy pool)
ProxyPool 爬虫代理IP池 ______ ______ _ | ___ \_ | ___ \ | | | |_/ / \__ __ __ _ __ _ | |_/ /___ ___ | | | ...
- python:从零开始教你建立爬虫代理ip池
一.为什么需要建立爬虫代理ip池 在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑.在一段时间内被禁止访问.这种时候,可以 ...
- Windows上利用Python自动切换代理IP的终极方案!
转载:http://www.jianshu.com/p/49c444d9a435 文/solomonxie(简书作者) 原文链接:http://www.jianshu.com/p/49c444d9a4 ...
- Python之免费代理ip的抓取与使用
Python之免费代理ip的抓取与使用 使用爬虫不可避免的就会遇到网站的各种封ip操作,因此就需要我们找寻代理,通过代理进行操作,屏蔽自己真实ip. 本文直接从网站中抓取代理ip地址,进行测试,并将测 ...
- 搭建一个自己的百万级爬虫代理ip池.
做爬虫抓取时,我们经常会碰到网站针对IP地址封锁的反爬虫策略.但只要有大量可用的代理IP资源,问题自然迎刃而解. 以前尝试过自己抓取网络上免费代理IP来搭建代理池,可免费IP质量参差不齐,不仅资源少. ...
最新文章
- CSS的几个属性display,float,clear,overflow,visibility
- php+mysqli,php+mysqli数据库连接的两种方式
- 从数组创建ArrayList
- python关系运算符实例_python编程中最常用的比较运算符实例
- 博弈论Python仿真(二)
- chrome分辨率测试工具
- 软件质量管理QM、QA、QC的区别
- python add sheet_Python系列(6)——使用openpyxl将三种类型的数据添加进新sheet及已有的sheet中且不覆盖原数据...
- 清华小学上册计算机教学案例,创新型教学案例.doc
- 一个IOS音乐播放器源码
- 如何制作调查问卷、问卷报告
- Linux学习134 Unit 5
- 手机sd卡恢复工具android版,SD卡数据恢复软件
- python中type dtype astype 的用法
- golang办公工作流workflow js-ojus/flow包介绍——系列一
- 最全Pycharm教程(1)——定制外观
- 前端vue使用vue-socket.io与socket.io-client与后台使用netty-socketio建立实时通信
- 时序数据库:TimescaleDB的安装
- 第一次ACM校赛_记录
- GEE 形态学运算Morphological Operations
热门文章
- easyrecovery数据恢复软件免费版最新下载,以及磁盘数据怎么恢复
- Flowable入门系列文章35 - Activity解读 11
- [直流有刷电机步进电机]驱动芯片AS4950完美替代A4950/DRV8870/AT8870/TMI8870/G2057
- EE308 LAB2
- C++中内存块置0的三种方法:memset, ZeroMemory和SecurZeroMemory
- 毕业论文管理系统(类图、ER图)、时序图
- 谷歌浏览器查看当前网页默认字体大小及其他样式
- 专利修改:ps换填充色
- MFC中使用OpenCasCade示例
- 华为服务器修改root密码,华为esc服务器root密码