很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。
所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取
使用代理流程
代理的使用大概可以分为四步
1.构建处理器handler(代理IP)
2.使用处理器构建连接方法(build_opener)
3.构建请求
4.使用连接方法中的open函数打开请求
其中最重要的是第一步构建处理器的ProxyHandler函数
爬取数据
这一步,你要明确要得到的内容是什么?是HTML源码,还是Json格式的字符串等。
最基本的爬取
抓取大多数情况属于get请求,即直接从对方服务器上获取数据。
首先,Python中自带urllib及urllib2这两个模块,基本上能满足一般的页面抓取。另外,requests也是非常有用的包,与此类似的,还有httplib2等等。
import requests
url = http://current.ip.16yun.cn:802
response = requests.get(url)
content = requests.get(url).content
print(“response headers:”, response.headers)
print(“content:”, content)
此外,对于带有查询字段的url,get请求一般会将来请求的数据附在url之后,以?分割url和传输数据,多个参数用&连接。
import requests
data = {‘wd’:‘nike’, ‘ie’:‘utf-8’}
url=‘https://www.baidu.com’
response = requests.get(url=url, params=data)
如何配置动态的代理ip
这里使用的是收费的代理ip了,你可以使用亿牛云云代理服务商提供的服务,当你注册并缴费之后,会给你一个域名端口和用户名密码,这里直接看代码吧!最后,如果你的时间不是很紧张,并且又想快速的python提高,最重要的是不怕吃苦,建议你可以架尉♥信(同音):2028979958 ,那个真的很不错,很多人进步都很快,需要你不怕吃苦哦!大家可以去添加上看一下~
#! – encoding:utf-8 –
import requests
import random
# 要访问的目标页面
targetUrl = “http://httpbin.org/ip”
# 要访问的目标HTTPS页面
# targetUrl = “https://httpbin.org/ip”
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = “t.16yun.cn”
proxyPort = “31111”
# 代理隧道验证信息
proxyUser = “username”
proxyPass = “password”
proxyMeta = “http://%(user)s:%(pass)s@%(host)s:%(port)s” % {
“host” : proxyHost,
“port” : proxyPort,
“user” : proxyUser,
“pass” : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
“http” : proxyMeta,
“https” : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {“Proxy-Tunnel”: str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
http://current.ip.16yun.cn:802
这是一个检测代理是否使用成功的网站

python爬虫如何配置动态爬虫代理相关推荐

  1. Python3网络爬虫之requests动态爬虫:拉钩网

    操作环境: Windows10.Python3.6.Pycharm.谷歌浏览器 目标网址: https://www.lagou.com/jobs/list_Python/p-city_0?px=def ...

  2. 前端工程化之动态数据代理

    引言 在前端开发过程中,开发者通常都会遇到前端数据不能正常获取的问题,这就需要开发者之间'想办法'搞到这些数据:开发过程中我们可能遇到的场景: 后端接口数据开发中暂时不可用,需要前端在自己本地mock ...

  3. python headers 随机_0基础学Python之反爬虫利器,搭建HTTP代理~~

    大数据时代,随着互联网的普及与高速发展,人们对于网络的依赖也愈加强.大部分人依靠互联网工作和生活,掌握庞大的数据信息显得尤为重要. 而网络爬虫的作用就取决于采集分析这些大数据信息,各领域具有更强的发展 ...

  4. python爬虫教程:爬虫时如何知道是否代理ip伪装成功

    python爬虫教程:爬虫时如何知道是否代理ip伪装成功 有时候我们的爬虫程序添加了代理,但是我们不知道程序是否获取到了ip,尤其是动态转发模式的,这时候就需要进行检测了,以下是一种代理是否伪装成功的 ...

  5. Python爬虫热点项目之实现代理IP池(IP proxy pool)

    代理池概述 代理池就是由多个稳定可用代理IP组成的池子.用来应对ip反爬,而网上的免费代理稳定可用的极少,更有甚者连收费的也不都是稳定可用. 开发环境: windous,python3,sublime ...

  6. chrome动态ip python_用Python爬虫爬取动态网页,附带完整代码,有错误欢迎指出!...

    系统环境: 操作系统:Windows8.1专业版 64bit Python:anaconda.Python2.7 Python modules:requests.random.json Backgro ...

  7. Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片

    Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...

  8. Python爬虫-IP隐藏技术与代理爬取

    文章目录 前言 IP 隐藏 Proxifier 免费代理 自动爬取 前言 在渗透测试或者爬虫运行过程中,目标服务器会记录下我们的IP,甚至会封锁我们的IP,所以我们需要隐藏自己的IP.这时就需要用到代 ...

  9. Python爬虫爬取动态网页

    系统环境: 操作系统:Windows8.1专业版 64bit Python:anaconda.Python2.7 Python modules:requests.random.json Backgro ...

最新文章

  1. mysql 代替intersect_MySQL不支持INTERSECT和MINUS及其替代方法_MySQL
  2. 数据结构与算法笔记 —— 十大经典排序及算法的稳定性
  3. Fliptile (二进制压缩)
  4. 单片机复位后为什么要对sp重新赋值_51单片机系列之2点亮第一个led小灯
  5. centos7 mysql创建表_centos7下创建数据库和用户
  6. 关于 AWR/ASH 故障分析,我有 9 个问题不知当不当问?
  7. iPhone 13 系列不再齐「芯」,苹果为什么要造三款不同的 A15 处理器?
  8. Python以字符形式打印双色图片中的文字
  9. 小白学习vuex的超级全面版本
  10. seaJS 模块加载过程分析
  11. 浅谈css中一个元素如何在其父元素居中显示
  12. java电子书大全 下载
  13. 关于破解广州天翼校园 + 小米路由器实现自动上网 突破wifi限制
  14. linux系统触摸板双击,在Ubuntu 18.04系统中搞定触摸板多点触控
  15. 投影法快速求二叉树的三种遍历
  16. kubernetes源码剖析读后感(二)
  17. 浅谈偏光镜使用与选购[机器视觉系列]
  18. 使用postman注册登录后,原先记录消失
  19. OSError: [WinError 87]参数错误
  20. 2009成渝微型计算机处于空白,2020届广州市高三年级调研测试文综地理试题(5页)-原创力文档...

热门文章

  1. 一个「PPT」框架,让超大模型调参变简单:清华刘知远、黄民烈团队力作
  2. Kaggle金牌拿Offer有多简单?
  3. Python 四大基本语法
  4. 【每日一算法】唯一摩尔斯密码词
  5. 送书!送书!送书!重要的事情说三遍
  6. Scrapy框架的概念、作用和工作流程
  7. 网警信息安全!_只愿与一人十指紧扣_新浪博客
  8. 干货|理解attention机制本质及self-attention
  9. 光测力学-栅线投影/面结构光技术
  10. 构建神经网络前你需要先考虑这10件事