Scrapy爬虫设置代理ip

在应用爬虫的时候我们经常会遇到ip被封的情况，这样我们想要的数据就不能及时下载下来，那么怎么办呢？当然是使用代理ip了，下面来看看scrapy中怎么使用代理ip。
一、开放代理

import random
class IpProxyDownloadMiddleware(object):'''定义代理ip的类,这是开放代理的应用'''PROXIES = ['182.111.64.8:53364']def process_request(self, request, spider):proxy = random.choice(self.PROXIES)request.meta['proxy'] = proxy

二、使用独享代理

import base64class IpProxyDownloadMiddleware(object):'''独享代理ip的应用方法，需要解码'''def process_request(self, request, spider):proxy = 'ip:端口'user_password = '用户名:密码'request.meta['proxy'] = proxyb64_user_password = base64.b64encode(user_password.encode('utf-8'))request.headers['Proxy-Authorization'] = 'Basic' + b64_user_password.decode('utf-8')

以上所有的代码都在middlewares.py中应用，然后在settings.py里面调用相应的类就可以了。

三、scrapy代码：

import scrapy
import jsonclass IpSpiderSpider(scrapy.Spider):name = 'ip_spider'allowed_domains = ['http_bin.org']start_urls = ['http://http_bin.org/ip']def parse(self, response):origin = json.loads(response.text)['origin']print('=='*20)print(origin)print('=='*20)yield scrapy.Request(self.start_urls[0],dont_filter=True)

然后启动scrapy就可以了，打印出的结果就是已经更改的ip

Scrapy爬虫设置代理ip相关推荐

python爬虫设置代理ip池
在使用python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,那如何解决呢?使用代 ...
python爬虫设置代理ip池——方法（一）
""" 在使用python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网 ...
Scrapy爬虫：代理IP配置
Scrapy设置代理IP步骤: 1.在Scrapy工程下新建"middlewares.py": import base64 # Start your middleware clas ...
python进行爬虫设置代理ip之后不知道是否已经启用代理ip
设置代理ip: 根据每个代理平台的格式不同,代理设置的方式也不尽一致,这里进行演示芝麻代理的配置: def ip_get():url = '形成的代理的链接'ip_list_con = request ...
用scrapy爬虫设置了ip代理报错是怎么回事
那么遇到这种情况大家也不用慌,我们可以采取以下措施: 1.放慢爬取速度,减少对于目标网站带来的压力,但会减少单位时间类的爬取量.测试出网站设置的限制速度阈值,设置合理的访问速度. 2.时间间隔访问,对 ...
python爬虫使用代理ip_python爬虫如何设置代理ip
python爬虫设置代理ip的方法:首先写入获取到的ip地址到proxy:然后用百度检测ip代理是否成功,并请求网页传的参数:最后发送get请求,并获取返回页面保存到本地. [相关学习推荐:pytho ...
在Scrapy中使用爬虫动态代理IP
本文介绍如何在Scrapy中使用无忧代理(www.data5u.com)的爬虫动态代理IP,以及如何设置User-Agent. 动态转发参考https://blog.csdn.net/u0109787 ...
Requests 和 Scrapy 中的代理 IP 设置
摘要: Requests 和 Scrapy 中的代理 IP 设置方法. 目标测试网页如下,请求该网页可以返回当前 IP 地址: ∞ http://icanhazip.com 先来说说 Requests ...
【python爬虫】在scrapy中利用代理IP（爬取BOSS直聘网）
同学们好,我又滚回来更新了,这一次我们要爬取的目标是BOSS直聘,BOSS直聘可以说是反爬虫一个很好的例子了,主要在于如果你访问他的次数过多,他就会出现验证码,要求你通过验证才能继续看,这样还算可以, ...

Scrapy爬虫设置代理ip

Scrapy爬虫设置代理ip相关推荐

最新文章

热门文章