1. 设置背景

在使用selenium浏览器渲染技术,当我们爬取某个网站的信息的时候,在一般情况下速度都不是特别的快。而且需要利用selenium浏览器渲染技术爬取的网站,反爬虫的应对技术都比较厉害,对IP访问频率有很高程度的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:

第一方面, 抓取频率要提高,破解出现的验证信息,一般都是验证码或者是用户登陆 。

第二方面,使用多线程 + 代理IP, 这种方式,需要电脑有足够的内存和充足稳定的代理IP 。

2. 为chrome设置代理IP

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
from selenium import webdriver
chromeOptions = webdriver.ChromeOptions()
# 设置代理
chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")
# 一定要注意,=两边不能有空格,不能是这样--proxy-server = http://202.20.16.82:10152
browser = webdriver.Chrome(chrome_options = chromeOptions)
# 查看本机ip,查看代理是否起作用
browser.get("http://httpbin.org/ip")
print(browser.page_source)
# 退出,清除浏览器缓存
browser.quit()

注意事项:

第一,选择稳定的固定的代理IP。不要选择动态代理IP。我们常用的爬虫IP代理通常都是具有高度保密性质的高匿名动态IP,是通过拨号动态产生的,时效性非常的短,一般都是在3分钟左右。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。

第二,选择速度较快的代理IP。因为selenium爬虫采用的是浏览器渲染技术,这种浏览器渲染技术速度就本身就很慢。如果选择的代理IP速度较慢,爬取的时间就会进一步增加。

第三,要有足够大的电脑内存。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。

第四,在程序结束时,调用 browser.quit( ) 清除浏览器缓存。

3. 需要用户名密码验证的代理

参考文章:

Selenium chrome配置代理Python版:https://www.jb51.net/article/151634.htm

GitHub:https://github.com/RobinDev/Selenium-Chrome-HTTP-Private-Proxy

转载于:https://www.cnblogs.com/xiniudaili/p/10213149.html

selenium+python设置爬虫代理IP的方法相关推荐

  1. selenium+python设置爬虫代理IP

    selenium+python设置爬虫代理IP 1. 背景 在使用selenium浏览器渲染技术,爬取网站信息时,一般来说,速度是很慢的.而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP ...

  2. Python+Selenium设置爬虫代理IP的方法

    首先新建proxy.zip文件夹,里面包含两个文件background.js.manifest.json background.js(需要配置:host.port.username.password) ...

  3. Python自助爬虫代理ip模块

    短小无比的前言: 代理对于爬虫来说可是很重要的一环,尤其在对于大量数据的时候,一不小心自己ip挂了,要么你换网,要么你等个几小时恢复 之后你上网查阅了种种办法,跨越种种艰难险阻,数以堆计的bug终于修 ...

  4. python爬虫设置代理ip池——方法(一)

    """ 在使用python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网 ...

  5. python设置http代理_python中设置HTTP代理的方法

    什么是HTTP代理 HTTP代理本质上是一个Web应用,它和其他普通Web应用没有根本区别.HTTP代理收到请求后,根据Header中Host字段的主机名和Get/POST请求地址综合判断目标主机,建 ...

  6. python写socket代理_为python设置socket代理的方法

    首先,你得下载SocksiPy这个.解压出来之后里面会有一个socks.py文件.然后你可以把这个文件复制到python安装目录里面的Libsite-packages中.或者把这个文件复制到程序所在的 ...

  7. python:从零开始教你建立爬虫代理ip池

    一.为什么需要建立爬虫代理ip池 在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑.在一段时间内被禁止访问.这种时候,可以 ...

  8. Python爬虫:爬虫所需要的爬虫代理ip是什么?

    当我们对某些网站进行爬去的时候,我们经常会换IP来避免爬虫程序被封锁.代理ip地址如何获取?其实也是一个比较简单的操作,目前网络上有很多IP代理商,例如西刺,芝麻,犀牛等等.这些代理商一般都会提供透明 ...

  9. python 代理ip池_GitHub - xuan525/proxy_pool: Python爬虫代理IP池(proxy pool)

    ProxyPool 爬虫代理IP池 ______ ______ _ | ___ \_ | ___ \ | | | |_/ / \__ __ __ _ __ _ | |_/ /___ ___ | | | ...

最新文章

  1. ZJU-java进阶笔记 第六周(抽象与接口)
  2. 签消费贷合同免费领取苹果手机? 捷信、马上等多家消费金融“躺枪”
  3. 计算机语言里的笑脸,设备类型显示笑脸
  4. Java中synchronized同步块的执行流程
  5. Notes of the scrum meeting(2013/10/23)
  6. oracle比较两个字段相似度,比较两个字符串的相似度
  7. 虚拟主机中,不修改IIS设置,在IIS6下运行MVC架构的网站
  8. 3万亿巨大市场,难怪马云、刘强东要抢着去养猪
  9. 在OS X 10.9上安装Java(Mavericks)
  10. 管理感悟:职责明确的结果,必然是无人管事
  11. 问卷统计前奏【SPSS 072期】
  12. java---servlet与filter的联系与区别
  13. 由于dns服务为启动导致的GI集群启动故障
  14. 清除SQL Sever 2008数据库日志
  15. python菜鸟教程w-【读书】Django教程(菜鸟教程)
  16. 为什么很多单片机的工作电压是5v?
  17. 树莓派能否替代linux开发板,12 个可替代树莓派的单板机 | Linux 中国
  18. python argparse bool_python argparse 解析命令行参数
  19. pdf转换成jpg python_怎样利用python将pdf转换成jpg格式
  20. SpringBoot的幕后推手,五年Java开发者小米、阿里面经

热门文章

  1. 电脑音频服务未运行怎么解决_【电脑技能】女生专属,学会这几招也可以修好你的电脑...
  2. HTML5div css入门案例,div+css教学教案(学习入门到精通~)详细讲解.doc
  3. 路由 命令 linux,linux路由命令
  4. 事务不是与当前连接无关联就是已完成_mysql索引锁事务
  5. AcWing 891. Nim游戏(nim博弈)
  6. linux程序安装包怎么用,制作Linux下程序安装包——使用脚本打包bin、run等安装包...
  7. java 标识变量_Java变量与数据类型之一:Java编程规范,关键字与标识符
  8. sklearn+gensim︱jieba分词、词袋doc2bow、TfidfVectorizer
  9. Win10下安装gcc、g++、make
  10. nuxt.js部署vue应用到服务端过程