selenium+python设置爬虫代理IP

1. 背景

在使用selenium浏览器渲染技术,爬取网站信息时,一般来说,速度是很慢的。而且一般需要用到这种技术爬取的网站,反爬技术都比较厉害,对IP的访问频率应该有相当的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:

  • 第一,提高抓取频率,出现验证信息时进行破解,一般是验证码或者用户登录。
  • 第二,使用多线程 + 代理IP, 这种方式,需要电脑有足够的内存和充足稳定的代理IP 。

2. 为chrome设置代理IP

from selenium import webdriver
chromeOptions = webdriver.ChromeOptions()# 设置代理
chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")
# 一定要注意,=两边不能有空格,不能是这样--proxy-server = http://202.20.16.82:10152
browser = webdriver.Chrome(chrome_options = chromeOptions)# 查看本机ip,查看代理是否起作用
browser.get("http://httpbin.org/ip")
print(browser.page_source)# 退出,清除浏览器缓存
browser.quit()
  • 注意事项:

    • 第一,代理IP最好是稳定的固定IP,不要选动态IP。我们常用的爬虫IP是高匿名动态IP,是通过拨号动态产生的,时效性很短,一般在1~3分钟。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。
    • 第二,代理IP的速度。因为selenium爬虫采用的是浏览器渲染技术,本身速度就很慢。如果选择的代理IP速度较慢,就会大大增加爬取的时间。
    • 第三,电脑内存要够大。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。
    • 第四,在程序结束时,调用 browser.quit( ) 清除浏览器缓存。

3. 需要用户名密码验证的代理

  • 参考文章:

    • Selenium chrome配置代理Python版:https://www.cnblogs.com/roystime/p/6935543.html
    • GitHub:https://github.com/RobinDev/Selenium-Chrome-HTTP-Private-Proxy

selenium+python设置爬虫代理IP相关推荐

  1. selenium+python设置爬虫代理IP的方法

    1. 设置背景 在使用selenium浏览器渲染技术,当我们爬取某个网站的信息的时候,在一般情况下速度都不是特别的快.而且需要利用selenium浏览器渲染技术爬取的网站,反爬虫的应对技术都比较厉害, ...

  2. Python+Selenium设置爬虫代理IP的方法

    首先新建proxy.zip文件夹,里面包含两个文件background.js.manifest.json background.js(需要配置:host.port.username.password) ...

  3. Python自助爬虫代理ip模块

    短小无比的前言: 代理对于爬虫来说可是很重要的一环,尤其在对于大量数据的时候,一不小心自己ip挂了,要么你换网,要么你等个几小时恢复 之后你上网查阅了种种办法,跨越种种艰难险阻,数以堆计的bug终于修 ...

  4. Python爬虫:爬虫所需要的爬虫代理ip是什么?

    当我们对某些网站进行爬去的时候,我们经常会换IP来避免爬虫程序被封锁.代理ip地址如何获取?其实也是一个比较简单的操作,目前网络上有很多IP代理商,例如西刺,芝麻,犀牛等等.这些代理商一般都会提供透明 ...

  5. python 代理ip池_GitHub - xuan525/proxy_pool: Python爬虫代理IP池(proxy pool)

    ProxyPool 爬虫代理IP池 ______ ______ _ | ___ \_ | ___ \ | | | |_/ / \__ __ __ _ __ _ | |_/ /___ ___ | | | ...

  6. python:从零开始教你建立爬虫代理ip池

    一.为什么需要建立爬虫代理ip池 在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑.在一段时间内被禁止访问.这种时候,可以 ...

  7. Windows上利用Python自动切换代理IP的终极方案!

    转载:http://www.jianshu.com/p/49c444d9a435 文/solomonxie(简书作者) 原文链接:http://www.jianshu.com/p/49c444d9a4 ...

  8. Python之免费代理ip的抓取与使用

    Python之免费代理ip的抓取与使用 使用爬虫不可避免的就会遇到网站的各种封ip操作,因此就需要我们找寻代理,通过代理进行操作,屏蔽自己真实ip. 本文直接从网站中抓取代理ip地址,进行测试,并将测 ...

  9. 搭建一个自己的百万级爬虫代理ip池.

    做爬虫抓取时,我们经常会碰到网站针对IP地址封锁的反爬虫策略.但只要有大量可用的代理IP资源,问题自然迎刃而解. 以前尝试过自己抓取网络上免费代理IP来搭建代理池,可免费IP质量参差不齐,不仅资源少. ...

最新文章

  1. CSS的几个属性display,float,clear,overflow,visibility
  2. php+mysqli,php+mysqli数据库连接的两种方式
  3. 从数组创建ArrayList
  4. python关系运算符实例_python编程中最常用的比较运算符实例
  5. 博弈论Python仿真(二)
  6. chrome分辨率测试工具
  7. 软件质量管理QM、QA、QC的区别
  8. python add sheet_Python系列(6)——使用openpyxl将三种类型的数据添加进新sheet及已有的sheet中且不覆盖原数据...
  9. 清华小学上册计算机教学案例,创新型教学案例.doc
  10. 一个IOS音乐播放器源码
  11. 如何制作调查问卷、问卷报告
  12. Linux学习134 Unit 5
  13. 手机sd卡恢复工具android版,SD卡数据恢复软件
  14. python中type dtype astype 的用法
  15. golang办公工作流workflow js-ojus/flow包介绍——系列一
  16. 最全Pycharm教程(1)——定制外观
  17. 前端vue使用vue-socket.io与socket.io-client与后台使用netty-socketio建立实时通信
  18. 时序数据库:TimescaleDB的安装
  19. 第一次ACM校赛_记录
  20. GEE 形态学运算Morphological Operations

热门文章

  1. easyrecovery数据恢复软件免费版最新下载,以及磁盘数据怎么恢复
  2. Flowable入门系列文章35 - Activity解读 11
  3. [直流有刷电机步进电机]驱动芯片AS4950完美替代A4950/DRV8870/AT8870/TMI8870/G2057
  4. EE308 LAB2
  5. C++中内存块置0的三种方法:memset, ZeroMemory和SecurZeroMemory
  6. 毕业论文管理系统(类图、ER图)、时序图
  7. 谷歌浏览器查看当前网页默认字体大小及其他样式
  8. 专利修改:ps换填充色
  9. MFC中使用OpenCasCade示例
  10. 华为服务器修改root密码,华为esc服务器root密码