Scrapy ip代理长时间无响应原因分析

在setting.py中添加可用ip代理池:

PROXIES=['http://182.149.82.74:9999','http://121.237.25.238:3000','http://61.183.176.122:57210','http://175.43.84.29:9999',
]

在中间件middlewares.py中添加如下类:

import scrapy
from scrapy import signals
import randomclass ProxyMiddleware(object):def __init__(self, ip):self.ip = ip@classmethoddef from_crawler(cls, crawler):return cls(ip=crawler.settings.get('PROXIES'))def process_request(self, request, spider):ip = random.choice(self.ip)request.meta['http_proxy'] = ipprint("当前ip为:"+ip)

setting.py文件的DOWNLOADER_MIDDLEWARES属性中添加中间件:

DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddleware.useragent.UserAgentMiddleware': None, 'myproject.middlewares.MyUserAgentMiddleware': 400,
}

一开始我在中间件中添加代理IP部分的代码为:

request.meta['proxy'] = ip

我的python版本为3.7,Scrapy为1.6.0,可能由于版本问题,设置代理一直不成功,改为:

request.meta['http_proxy'] = ip

之后,代理不成功的问题成功解决!!!

Scrapy ip代理无响应相关推荐

  1. Scrapy ip代理池

    一.概述 在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制,即在某一时间段内,当某个ip的访问次数达到一定的阀值时,该ip就会被拉黑.在一段时间内禁止访问. 应对的方法有两种: 1. 降低爬 ...

  2. 路由器自动ip服务器无响应,路由器无法自动分配IP地址原因及解决方法

    在现在生活中,路由器担当了很多要的作用,兼职较多服务器功能,这样的规划确实方便了管理和维护,但也为网络的安全.稳定运行埋下了隐患,一旦网络发生故障,对整个局域网的影响几乎是毁灭性的,本篇介绍如何解决路 ...

  3. 爬虫学习笔记(十)—— Scrapy框架(五):下载中间件、用户/IP代理池、settings文件

    一.下载中间件 下载中间件是一个用来hooks进Scrapy的request/response处理过程的框架. 它是一个轻量级的底层系统,用来全局修改scrapy的request和response. ...

  4. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...

  5. 【芝麻IP代理】详解Python爬虫必备框架—Scrapy

    [芝麻IP代理]Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广 ...

  6. Scrapy抓取免费ip代理地址的示例

    Scrapy是一个用于爬取网站并提取结构化数据的应用程序框架,可用于各种有用的应用程序,例如数据挖掘,信息处理或历史档案.本文主要描述从某IP代理网站抓取内容的代码示例,免费代理IP时效性很差,仅供大 ...

  7. Python scrapy设置代理ip

    应用scrapy爬虫的时候,经常遇到ip被封的问题,直接导致无法获取数据,所以要使用代理ip. 在网上有很多大神写的案例,我选择了一个进行使用,不知道是ip的原因还是我写的有问题,还是会报错,但是思路 ...

  8. Python爬虫Scrapy框架IP代理的配置与调试

    在调试爬虫的时候,新手都会遇到关于ip的错误,好好的程序突然报错了,怎么解决,关于ip访问的错误其实很好解决,但是怎么知道解决好了呢?怎么确定是代理ip的问题呢?由于笔者主修语言是Java,所以有些解 ...

  9. Scrapy学习-13-使用DownloaderMiddleware设置IP代理池及IP变换

    设置IP代理池及IP变换方案 方案一: 使用国内免费的IP代理 1 http://www.xicidaili.com # 创建一个tools文件夹,新建一个py文件,用于获取代理IP和PORT fro ...

最新文章

  1. Java 线程 笔记(1)
  2. 废弃电器电子产品回收:需要的不仅是补贴 !
  3. 图解用Scientific Toolworks Understand分析Microsoft DirectX SDK (June 2010)自带D3D示例
  4. java炒黄金_炒黄金追单的一些问题分析
  5. 前端学习(3005):vue+element今日头条管理--处理布局完成
  6. python语言发明者 google_看看9种编程语言的发明者是怎么说的
  7. 软件中的1、同步调用;2、回调;3、异步调用
  8. asp.net添加自定义用户控件并传值
  9. Linux下通过WebShell反弹Shell的技巧
  10. 许多自己正在总结的东东
  11. golang 大数据平台_一文读懂数据平台、大数据平台、数据中台
  12. 2022年电工杯数模竞赛B题第一问解法分享(附Python代码)
  13. 【数据产品案例】阿里生意参谋-用户分析
  14. PS制作(LOGO)步骤流程
  15. 将linux操作系统迁移到另一个固态硬盘上
  16. 计算机组成原理基础知识点
  17. access的否定形式_雅思考试对于新手有多难?
  18. 在微信小程序中实现时间日期的选择,并且显示当前选择的时间日期
  19. oracle 10g 新特性中文笔记
  20. 解决:Error: geom_point requires the following missing aesthetics: y Run `rlang::last_error()`

热门文章

  1. svn用户名和密码都正确,但是登录不了
  2. odoo15 owl 组件实验
  3. HLS / Chisel 实现CORDIC算法双曲系统
  4. 解决Github 每次上传都要输入用户名和密码
  5. 【Python+Pycharm】单词底部有波浪线,提示typo in word时
  6. 机器学习-样本不均衡现象
  7. 打开UG10 C语言错误,UG打开prt文件UTF8归档报错:部件已以UTF8模式归档,但NX运行
  8. Spring自动注入(引用类型)
  9. 详解~前端人需要了解的DevOps
  10. 字体磅、像素、厘米转换