在middlewares.py中设置:

class ProxyMiddleware(object)logger = logging.getLogger(__name__)def process_request(self, request, spider):self.logger.debug('Trying using proxy')request.meta['proxy'] = 'http://' + self.proxy()return Nonedef proxy(self):try:print('get proxy ...')proxy = requests.get("http://127.0.0.1:5010/get").textip = {"http": "http://" + proxy, "https": "https://" + proxy}r = requests.get("http://www.baidu.com", proxies=ip, timeout=4)if r.status_code == 200:return proxyexcept:print('get proxy again ...')return self.proxy()def process_exception(self, request, exception, spider):self.logger.debug('Get exception')request.meta['proxy'] = 'http://' + self.proxy()return request

在spider.py中设置:
def make_requests_from_url(self, url):
return scrapy.Request(url=url, meta={‘download_timeout’: 5}, callback=self.parse, dont_filter=True)

在settings.py中设置:
DOWNLOADER_MIDDLEWARES = {
‘httpbintest.middlewares.ProxyMiddleware’: 300,
‘scrapy.downloadermiddlewares.retry.RetryMiddleware’: None,
}

scrapy代理IP相关推荐

  1. 【python爬虫】在scrapy中利用代理IP(爬取BOSS直聘网)

    同学们好,我又滚回来更新了,这一次我们要爬取的目标是BOSS直聘,BOSS直聘可以说是反爬虫一个很好的例子了,主要在于如果你访问他的次数过多,他就会出现验证码,要求你通过验证才能继续看,这样还算可以, ...

  2. scrapy爬虫代理——利用crawlera神器,无需再寻找代理IP

    一.crawlera平台注册 首先申明,注册是免费的,使用的话除了一些特殊定制外都是free的. 1.登录其网站 https://dash.scrapinghub.com/account/signup ...

  3. Python网络爬虫--Scrapy使用IP代理池

    自动更新IP池 写个自动获取IP的类proxies.py,执行一下把获取的IP保存到txt文件中去: 代码 # *-* coding:utf-8 *-* import requests from bs ...

  4. Python爬虫Scrapy框架IP代理的配置与调试

    在调试爬虫的时候,新手都会遇到关于ip的错误,好好的程序突然报错了,怎么解决,关于ip访问的错误其实很好解决,但是怎么知道解决好了呢?怎么确定是代理ip的问题呢?由于笔者主修语言是Java,所以有些解 ...

  5. 第2.1章 scrapy之国内高匿代理IP爬取

    这个网站较为简单,故作为爬虫的第一个示例 代码如下: # -*- coding: utf-8 -*- ''' Created on 2017年6月12日 从国内高匿代理IP网站中获取动态ip信息 @s ...

  6. 在Scrapy中使用爬虫动态代理IP

    本文介绍如何在Scrapy中使用无忧代理(www.data5u.com)的爬虫动态代理IP,以及如何设置User-Agent. 动态转发参考https://blog.csdn.net/u0109787 ...

  7. Scrapy抓取西刺高匿代理ip

    如题:因为想试试代理ip,所以就想着在西刺上爬一些ip用用 如上两节所示,具体如何建立Scrapy工程的细节不在赘述. scrapy startproject xiciscrapy genspider ...

  8. scrapy基础补齐,python中设置User-agent和代理ip

    常见的补齐方法:Python爬虫:关于scrapy模块的请求头_彭世瑜的技术博客_51CTO博客 [1]设置浏览器头的python基础实现函数是 urllib.request.Request() cl ...

  9. Scrapy爬虫设置代理ip

    在应用爬虫的时候我们经常会遇到ip被封的情况,这样我们想要的数据就不能及时下载下来,那么怎么办呢?当然是使用代理ip了,下面来看看scrapy中怎么使用代理ip. 一.开放代理 import rand ...

最新文章

  1. shell中的wait
  2. PurdueUCLA提出梯度Boosting网络,效果远好于XGBoost模型!
  3. Linux之Ansible入门用法(实验解析)
  4. 对使用CodeSmith模板生成NHibernate的代码的分析
  5. PS图像菜单下计算命令
  6. php记录登录时间,php记录 用户当前页面停留时间
  7. java目录实用工具_JAVA 创建文件和文件夹,删除文件和文件夹的实用工具
  8. GeoTools——读取shapefile数据
  9. java 云服务器 linux,云服务器Linux部署JavaWeb项目
  10. 油猴脚本的使用和安装
  11. 吐血整理的大数据学习资源大全
  12. 量子计算机 并行,核磁共振量子计算机与并行量子计算
  13. DLT - Diagnostic Log and Trace简介
  14. 创建一个简单OIO模式的socket服务端
  15. Redis Client UI工具
  16. WebGL,Cesium以及GeoJSON数据的简单介绍
  17. 如何多个进程监听同一个端口
  18. java代码校验手机号码_校验手机号码的正则表达式写法 (java实现)
  19. Mockito的使用
  20. mac上打开chm文件

热门文章

  1. matlab中feval与eval的区别
  2. 制度是绝情的,管理是无情的,执行是合情的
  3. 探索推荐引擎内部的秘密系列
  4. openresty出现socket read/write busy的原因及解决方法
  5. 涂鸦智能全功能智慧植物生长系统是什么样的?
  6. 超好用的教程截取GIF动画软件GifCam
  7. Android_使用Android killer破解apk
  8. 深大uooc学术道德与学术规范教育第九章
  9. 后端服务器常用软件:nginx
  10. PyG搭建GAT实现节点分类