selenium+python设置爬虫代理IP的方法

1. 设置背景

在使用selenium浏览器渲染技术，当我们爬取某个网站的信息的时候，在一般情况下速度都不是特别的快。而且需要利用selenium浏览器渲染技术爬取的网站，反爬虫的应对技术都比较厉害，对IP访问频率有很高程度的限制。所以，如果想提升selenium抓取数据的速度，可以从两个方面出发：

第一方面，抓取频率要提高，破解出现的验证信息，一般都是验证码或者是用户登陆。

第二方面，使用多线程 + 代理IP，这种方式，需要电脑有足够的内存和充足稳定的代理IP 。

2. 为chrome设置代理IP

from selenium import webdriver

chromeOptions = webdriver.ChromeOptions()

# 设置代理

chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")

# 一定要注意，=两边不能有空格，不能是这样--proxy-server = http://202.20.16.82:10152

browser = webdriver.Chrome(chrome_options = chromeOptions)

# 查看本机ip，查看代理是否起作用

browser.get("http://httpbin.org/ip")

print(browser.page_source)

# 退出，清除浏览器缓存

browser.quit()

注意事项：

第一，选择稳定的固定的代理IP。不要选择动态代理IP。我们常用的爬虫IP代理通常都是具有高度保密性质的高匿名动态IP，是通过拨号动态产生的，时效性非常的短，一般都是在3分钟左右。对于scrapy这种并发度很高，又不需要登录的爬虫来说，非常合适，但是在浏览器渲染类爬虫中并不适用。

第二，选择速度较快的代理IP。因为selenium爬虫采用的是浏览器渲染技术，这种浏览器渲染技术速度就本身就很慢。如果选择的代理IP速度较慢，爬取的时间就会进一步增加。

第三，要有足够大的电脑内存。因为chrome占内存较大，在并发度很高的情况下，容易造成浏览器崩溃，也就是程序崩溃。

第四，在程序结束时，调用 browser.quit( ) 清除浏览器缓存。

3. 需要用户名密码验证的代理

参考文章：

Selenium chrome配置代理Python版：https://www.jb51.net/article/151634.htm

GitHub：https://github.com/RobinDev/Selenium-Chrome-HTTP-Private-Proxy

转载于:https://www.cnblogs.com/xiniudaili/p/10213149.html

selenium+python设置爬虫代理IP的方法相关推荐

selenium+python设置爬虫代理IP
selenium+python设置爬虫代理IP 1. 背景在使用selenium浏览器渲染技术,爬取网站信息时,一般来说,速度是很慢的.而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP ...
Python+Selenium设置爬虫代理IP的方法
首先新建proxy.zip文件夹,里面包含两个文件background.js.manifest.json background.js(需要配置:host.port.username.password) ...
Python自助爬虫代理ip模块
短小无比的前言: 代理对于爬虫来说可是很重要的一环,尤其在对于大量数据的时候,一不小心自己ip挂了,要么你换网,要么你等个几小时恢复之后你上网查阅了种种办法,跨越种种艰难险阻,数以堆计的bug终于修 ...
python爬虫设置代理ip池——方法（一）
""" 在使用python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网 ...
python设置http代理_python中设置HTTP代理的方法
什么是HTTP代理 HTTP代理本质上是一个Web应用,它和其他普通Web应用没有根本区别.HTTP代理收到请求后,根据Header中Host字段的主机名和Get/POST请求地址综合判断目标主机,建 ...
python写socket代理_为python设置socket代理的方法
首先,你得下载SocksiPy这个.解压出来之后里面会有一个socks.py文件.然后你可以把这个文件复制到python安装目录里面的Libsite-packages中.或者把这个文件复制到程序所在的 ...
python：从零开始教你建立爬虫代理ip池
一.为什么需要建立爬虫代理ip池在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑.在一段时间内被禁止访问.这种时候,可以 ...
Python爬虫：爬虫所需要的爬虫代理ip是什么？
当我们对某些网站进行爬去的时候,我们经常会换IP来避免爬虫程序被封锁.代理ip地址如何获取?其实也是一个比较简单的操作,目前网络上有很多IP代理商,例如西刺,芝麻,犀牛等等.这些代理商一般都会提供透明 ...
python 代理ip池_GitHub - xuan525/proxy_pool: Python爬虫代理IP池(proxy pool)
ProxyPool 爬虫代理IP池 ______ ______ _ | ___ \_ | ___ \ | | | |_/ / \__ __ __ _ __ _ | |_/ /___ ___ | | | ...

selenium+python设置爬虫代理IP的方法

selenium+python设置爬虫代理IP的方法相关推荐

最新文章

热门文章