爬虫之proxy(代理)
proxy简介
proxy即为代理,我们爬虫的时候肯定会有频繁访问某一网站的情况,这个时候有些服务器会识别到我们是非正常访问,就会把我们的IP禁掉,这个时候就需要用代理了。
就好比现实生活中,我需要向A借一件东西,但是我跟A是仇人,直接向他借的话他不会借给我,这个时候我就让B帮我像A借,就说他要用,然后B借到东西之后再把东西给我用,这时,B就是我的代理了。
常用的免费代理网站:http://www.goubanjia.com/。
爬虫应该选择什么样的代理?
- 针对不需要用户登录,cookie验证的网站,一般选择动态高匿代理。
- 对于需要用户登录,身份认证的。一般选择静态IP
使用proxy的步骤
- 设置代理地址
1
proxy
=
{
'http'
:
'52.187.162.198:3128'
}
- 创建ProxyHeader
1
proxyHeader
=
request.ProxyHandler(proxy)
- 创建Opener
1
opener
=
request.build_opener(proxyHeader)
- 安装Opener
1
request.install_opener(opener)
示例
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
from urllib import request
# 设置代理地址
proxy = { 'http' : '52.187.162.198:3128' }
# 创建ProxyHeader
proxyHeader = request.ProxyHandler(proxy)
# 创建Opener
opener = request.build_opener(proxyHeader)
# 安装Opener
request.install_opener(opener)
# 然后剩下的就跟正常使用差不多,只不过此时的request已经是绑定了代理之后的request
url = 'https://www.taobao.com/'
req = request.Request(url)
response = request.urlopen(req)
print (response.read().decode())
|
爬虫之proxy(代理)相关推荐
- 爬虫之使用代理ip爬取
爬虫之代理ip的应用 在爬虫的过程中,我们经常会遇见很多网站采取了防爬虫技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力. 如果一直用同一个代理ip爬取这个网 ...
- python使用代理爬虫_python爬虫requests使用代理ip
python爬虫requests使用代理ip 一.总结 一句话总结: a.请求时,先将请求发给代理服务器,代理服务器请求目标服务器,然后目标服务器将数据传给代理服务器,代理服务器再将数据给爬虫. b. ...
- python 爬虫如何使用代理IP
python3 爬虫如何使用代理IP 前言 众所周知,爬虫速度过快,频繁访问都会被封IP,怎么解决这个问题呢?再去换一台设备?先不说数据是否同步,仅仅换个设备的成本就不低,这个时候就需要代理IP了.以 ...
- Lum proxy代理IP如何在AdsPower浏览器上使用
从事互联网广告.跨境电商.社媒营销行业的朋友们都会需要IP来进行爬虫数据采集.进行广告验证.开网店.海外社交平台运营推广等等. 所以市面上现在很多代理也被人们熟知,比如Lum proxy.KOOKEE ...
- 怎样使用python爬虫获得免费代理IP
怎样使用python爬虫获得免费代理IP 进行爬取和测试有效性 总结 爬虫一直是python使用的一个重要部分,而许多网站也为此做了许多反爬措施,其中爬虫访问过于频繁直接封ip地址也作为一种" ...
- (廿九)Python爬虫:IP代理池的开发
作为一个爬虫开发者,使用IP代理是必要的一步,我们可以在网上找到免费的高匿IP,比如西刺代理.但是,这些免费的代理大部分都是不好用的,经常会被封禁.所以我们转而考虑购买付费代理.可是,作为一个程序员首 ...
- Proxy代理 和 Reflect反射(反射的是obj)的概念
1. Proxy代理 // 供应商(原始对象)let obj = {time:'2018-01-03',name:'net',_r: "123"}// 创建代理商,传入obj数据l ...
- es6的Proxy(代理)
es6的Proxy(代理) Proxy可以监听对象身上发生了什么事情,并在这些事情发生后执行一些相应的操作.一下子让我们对一个对象有了很强的追踪能力,同时在数据绑定方面也很有用处 //代理: var ...
- 分布式系统——zabbix 用 onealert实现报警、agent主动模式、proxy代理
实验环境 物理机: rhel 7.3系统--172.25.54.250 server1:rhel 7.3系统--172.25.54.1 server2:rhel 6.5系统--172.25.54.11 ...
- 关于Vue 3.0 的改进 Proxy 代理实现数据驱动视图
Vue 3.0 中使用了 Proxy 对象代理进行拦截实现了数据绑定视图的驱动操作.弥补了vue2.0中的局限,比如属性删除增加监听.对数组基于下标的修改.长度变化等等. 参考一下网上流传的机制图 P ...
最新文章
- android 电视关闭动画,Activity 展开和关闭动画
- 分享人生第一个游戏源代码
- linux的apache安装在哪个目录,在linux系统下apache的默认安装路径在哪
- MapReduce论文
- iOS底层探索之KVC
- 小白白红队初成长(2)主动信息收集
- 网络/Network - 应用层 - HTTP - GET 通过 Body 来发送数据 - 学习/实践
- linux之scp命令学习
- Splitter和Joiner使用手册
- 3.关联查询和属性文件
- matlab命令 elempro,装好MATLAB后,The markup in the document preceding the root elem
- 极具发展潜力的20项油气勘探开发新技术
- quartz - 宕机后的设置
- 【XSY3898】强度(期望dp)
- 杰理之VM 概述【篇】
- [审核]App Store审核指南
- 【小贴士】合肥工业大学本科毕业答辩tips
- 辽宁省盘锦市谷歌高清卫星地图下载
- 全国计算机二级c++上机试题.cpp,计算机二级考试C++上机考试试题
- 基于MATLAB车牌图像识别的设计与实现
热门文章
- OpenCV放大图像:单输出
- C++SEG TREE线段树的实现算法(附完整源码)
- C语言素数筛选法(prime seive) 算法(附完整源码)
- json lib java_Json-lib 进行java与json字符串转换之二
- 「Ubuntu」系统常用命令
- hive中存Array类型的数据的案例,将字符串的数组格式转成数组的字符串,自定义函数方式处理‘[12,23,23,34]‘字符串格式的数据为array<int>格式的数据。
- B06_NumPy 切片和索引
- mongodb中的副本集搭建实践(转自:http://www.cnblogs.com/visionwang/p/3290435.html)
- 7.MongoDB java CRUD
- 04-Servlet入门+http协议