Python网络爬虫使用代理proxy
代理类型(proxy)分为:透明代理 匿名代理 混淆代理和高匿代理.
urllib 模块使用代理
urllib/urllib2使用代理比较麻烦, 需要先构建一个ProxyHandler的类, 随后将该类用于构建网页打开的opener的类,再在request中安装该opener.
代理格式是"http://127.0.0.1:80",如果要账号密码则格式是"http://user:password@127.0.0.1:80"
proxy="http://127.0.0.1:80"
# 创建一个ProxyHandler对象
proxy_support=urllib.request.ProxyHandler({'http':proxy})
# 创建一个opener对象
opener = urllib.request.build_opener(proxy_support)
# 给request装载opener
urllib.request.install_opener(opener)
# 打开一个url
r = urllib.request.urlopen('http://youtube.com',timeout = 500)
requests 模块 使用代理
requests使用代理要比urllib简单多了…这里以单次代理为例. 多次的话可以用session一类构建.
如果需要使用代理,你可以通过为任意请求方法提供 proxies 参数来配置单个请求:
import requests
proxies = {"http": "http://127.0.0.1:3128","https": "http://127.0.0.1:2080",
}
r=requests.get("http://youtube.com", proxies=proxies)
print r.text
也可以通过环境变量 HTTP_PROXY 和 HTTPS_PROXY 来配置代理
export HTTP_PROXY="http://127.0.0.1:3128"
export HTTPS_PROXY="http://127.0.0.1:2080"
python
>>> import requests
>>> r=requests.get("http://youtube.com")
>>> print r.text
若你的代理需要使用HTTP Basic Auth,可以使用 http://user:password@host/ 语法
proxies = {"http": "http://user:pass@127.0.0.1:3128/",
}
python的代理使用,重要的是要找一个网络稳定可靠的代理,免费代理网站也有不少,比如高匿http://www.xicidaili.com/nn/,上面的一些免费代理ip一般能用
Python网络爬虫使用代理proxy相关推荐
- Python网络爬虫之代理IP
Python网络爬虫之代理IP 反爬机制:封IP.单个IP设置访问次数阈值,超过阈值,禁止该IP访问. 代理:破解封IP这种反爬机制. 什么是代理? --代理服务器,代理网络用户获取服务器信息. 代理 ...
- (十三)python网络爬虫(理论+实战)——IP代理、构建IP代理池
系列文章: python网络爬虫专栏 目录 序言 本节学习目标 特别申明 5 ip代理
- Python网络爬虫(一):爬虫基础
Python网络爬虫(一)爬虫基础 一.爬虫基础 1.HTTP基本原理 1.1URI和URL URI,全称:Uniform Resource Identifier,即统一资源标志符:URL,全称:Un ...
- python 网络爬虫
一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一 ...
- python网络爬虫教程(四):强大便捷的请求库requests详解与编程实战
上一章中,我们了解了urllib的基本用法,详情可浏览如下链接python网络爬虫教程(三):详解urllib库,但其中确实有不方便的地方,为此,我们可以使用更方便更简洁的HTTP请求库request ...
- Python网络爬虫(三) 爬虫进阶
###目录: Python网络爬虫(一)- 入门基础 Python网络爬虫(二)- urllib爬虫案例 Python网络爬虫(三)- 爬虫进阶 Python网络爬虫(四)- XPath Python ...
- Python 网络爬虫与数据采集(二)
Python 网络爬虫与数据采集 第二部分 初章 网络爬虫初识 4. 网络爬虫请求篇 4.1 requests 库简介 4.1.1 Requests 的安装 4.1.2 Requests 基本使用 4 ...
- python爬虫文件代码大全-Python网络爬虫实战项目代码大全(长期更新,欢迎补充)...
WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...
- 精通python网络爬虫-精通python网络爬虫
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 作者:韦玮 转载请注明出处 随着大数据时代的到来,人们对数据资源的需求越来越多, ...
最新文章
- 程序员应学习蜡笔小新的心态
- Docker学习总结(23)——Docker搭建大规模测试环境的实践
- 好用的Mac数据恢复软件在这里
- AKKA:大数据下的并发编程模型
- cron 在线表达式
- 【PFC】PFC测试指令
- 现代心理与教育统计学 第一章
- 2020.9.2丨个体重测序、KASP分型产品介绍
- CF1467B Hills And Valleys 题解
- 建设银行对银行系金融科技转型的战略与思考
- 信息技术助推智能建造和建筑企业数字化转型
- 【转】VB6和VB.NET的区别
- ORA-01012: not logged on 解决办法记录错误
- 不忘初心 牢记使命 拉卡拉支付积极履行社会责任
- 现在Python就业很难吗?百万程序员都在关心的问题
- [USACO13NOV]Crowded Cows
- Bia布刷题日记2022/2/17
- PCM 单双声道转换
- WPF 给文本框TextBlock以及密码框PassWord加背景水印实现用户登录提示
- ES6 深入理解 ${ } 模版
热门文章
- iphone退款申请教程_【揭秘】朋友圈卖的iOS退款、王者荣耀0元撸点券教程
- linux 打开db文件怎么打开方式,linux服务器打开数据库文件
- java 点击改变_java 单击按钮改变背景颜色
- ubuntu系统安装python hello_ubuntu 下python安装及hello world
- 禁用计算机外部设备,在桌面办公系统中, ()能够阻止外部主机对本地计算机的端口扫描。...
- react navtagion api
- 29.C++- 异常处理
- 关于VC预定义常量_WIN32,WIN32,_WIN64等预定义宏的介绍(整理、转载)
- UIScrollView加约束
- Android Studio中Gradle使用详解