为什么需要代理？

我们爬取数据的时候，开始可以正常爬取，但是过了一段时间，网站可能就会提示“您的IP访问频率过高”，然后就无法正常访问网站。
这是因为网站采取了反爬策略，某个ip访问频率超过一个阈值后，就会被禁止访问。
这时候我们就可以利用代理ip，来正常访问该网站。（或者，你可以等第二天，ip恢复正常后再访问）

使用代理

首先你要获取一个代理，获取方法很多，网上有免费和付费的代理。
这里我使用的是utanshu.com。免费版单日ip上限是5000个，足够个人使用了。用手机号注册，完成职业认证和身份认证就可以使用了。（这个认证是防止滥用ip做一些违法的事情）

目前这个网站主要功能就是提供分布式代理池，后面估计其它的两个功能也会开放。

我已经申请了一个账号。登陆后选择分布式代理池，网页会有一个提取API选项,
通过网页访问该API（或requests.get(api_url)）就会返回一个txt或json格式的数据。
里面包含了ip和port。

将下面代码中的代理ip、代理端口、代理账号、代理密码替换成自己的即可使用代理获取网页。

import requests
import timeurl='http://www.httpbin.org/get'
proxyaddr = "代理IP地址"    #代理IP地址
proxyport = 57114               #代理IP端口
proxyusernm = "代理帐号t"        #代理帐号
proxypasswd = "代理密码"        #代理密码
#name = input();
proxyurl="http://"+proxyusernm+":"+proxypasswd+"@"+proxyaddr+":"+"%d"%proxyportt1 = time.time()
r = requests.get(url,proxies={'http':proxyurl,'https':proxyurl},headers={"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8","Accept-Encoding":"gzip, deflate","Accept-Language":"zh-CN,zh;q=0.9","Cache-Control":"max-age=0","User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"})
r.encoding='gb2312't2 = time.time()print(r.text)
print("时间差:" , (t2 - t1));

打印的内容包含了请求ip地址，发现该地址变成了代理ip，而不是自己的本机ip了。

Python爬虫基础-使用代理相关推荐

python基础代码库-python爬虫基础教程：requests库（二）代码实例
get请求简单使用 import requests ''' 想要学习Python?Python学习交流群:973783996满足你的需求,资料都已经上传群文件,可以自行下载! ''' respons ...
python爬虫——基础知识
python爬虫--基础知识一.网页基础知识二.爬虫的思路 1.HTML文档(超文本) 三.ROBOTS协议四.浏览器发送HTTP请求的过程 1.http请求过程 2.请求五.SSL连接错误 ...
python爬虫基础（二）
文章目录 python爬虫 1.异步爬虫异步爬虫之多进程and多线程(不建议使用) 异步爬虫之线程池and进程池(适当使用) 单线程+异步协程(推荐) 补充:回调函数补充:yield 多任务异步协 ...
python基础知识整理-python爬虫基础知识点整理
首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 根据我的经验,要学习Python爬虫 ...
python爬虫基础(一)～爬虫概念和架构
目录 1. 爬虫 1.1 概念 1.2 分类 2. 爬虫架构 2.1 url管理器 2.2 网页(html)下载(download)器 2.2.1 urllib下载html源码 2.2.2 reque ...
掌握Python爬虫基础，仅需1小时！
随着互联网的发展,google.百度等搜索引擎让我们获取信息愈加方便.但需求总会不断涌现,纯粹地借助百度等收集信息是远远不够的,因此编写爬虫爬取信息的重要性就越发凸显. 比如有人为了炒股,专门爬取了多 ...
Day2：python爬虫基础学习（大嘘）
Day2:python爬虫基础学习(大嘘)) 教材&参考: 学习过程 Sublime配置教程下载&安装语言(设置中文) 设置字体/配色配置Python环境使用python官方编 ...
结构化数据丨Python爬虫基础入门系列(7)
提示:文末有福利!最新Python爬虫资料/学习指南>>戳我直达文章目录前言 JSON 1. json.loads() 2. json.dumps() 3. json.dump() 4 ...
Python爬虫基础-如何获取网页源代码
Python爬虫基础-如何获取网页源代码网络爬虫(Web Crawler),又称网页蜘蛛(Web Spider),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.爬虫程序根据一组特定的规则 ...

Python爬虫基础-使用代理

为什么需要代理？

使用代理

Python爬虫基础-使用代理相关推荐

最新文章

热门文章