Scrapy ip代理无响应
Scrapy ip代理长时间无响应原因分析
在setting.py中添加可用ip代理池:
PROXIES=['http://182.149.82.74:9999','http://121.237.25.238:3000','http://61.183.176.122:57210','http://175.43.84.29:9999',
]
在中间件middlewares.py
中添加如下类:
import scrapy
from scrapy import signals
import randomclass ProxyMiddleware(object):def __init__(self, ip):self.ip = ip@classmethoddef from_crawler(cls, crawler):return cls(ip=crawler.settings.get('PROXIES'))def process_request(self, request, spider):ip = random.choice(self.ip)request.meta['http_proxy'] = ipprint("当前ip为:"+ip)
在setting.py
文件的DOWNLOADER_MIDDLEWARES
属性中添加中间件:
DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddleware.useragent.UserAgentMiddleware': None, 'myproject.middlewares.MyUserAgentMiddleware': 400,
}
一开始我在中间件中添加代理IP部分的代码为:
request.meta['proxy'] = ip
我的python版本为3.7,Scrapy为1.6.0,可能由于版本问题,设置代理一直不成功,改为:
request.meta['http_proxy'] = ip
之后,代理不成功的问题成功解决!!!
Scrapy ip代理无响应相关推荐
- Scrapy ip代理池
一.概述 在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制,即在某一时间段内,当某个ip的访问次数达到一定的阀值时,该ip就会被拉黑.在一段时间内禁止访问. 应对的方法有两种: 1. 降低爬 ...
- 路由器自动ip服务器无响应,路由器无法自动分配IP地址原因及解决方法
在现在生活中,路由器担当了很多要的作用,兼职较多服务器功能,这样的规划确实方便了管理和维护,但也为网络的安全.稳定运行埋下了隐患,一旦网络发生故障,对整个局域网的影响几乎是毁灭性的,本篇介绍如何解决路 ...
- 爬虫学习笔记(十)—— Scrapy框架(五):下载中间件、用户/IP代理池、settings文件
一.下载中间件 下载中间件是一个用来hooks进Scrapy的request/response处理过程的框架. 它是一个轻量级的底层系统,用来全局修改scrapy的request和response. ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...
- 【芝麻IP代理】详解Python爬虫必备框架—Scrapy
[芝麻IP代理]Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广 ...
- Scrapy抓取免费ip代理地址的示例
Scrapy是一个用于爬取网站并提取结构化数据的应用程序框架,可用于各种有用的应用程序,例如数据挖掘,信息处理或历史档案.本文主要描述从某IP代理网站抓取内容的代码示例,免费代理IP时效性很差,仅供大 ...
- Python scrapy设置代理ip
应用scrapy爬虫的时候,经常遇到ip被封的问题,直接导致无法获取数据,所以要使用代理ip. 在网上有很多大神写的案例,我选择了一个进行使用,不知道是ip的原因还是我写的有问题,还是会报错,但是思路 ...
- Python爬虫Scrapy框架IP代理的配置与调试
在调试爬虫的时候,新手都会遇到关于ip的错误,好好的程序突然报错了,怎么解决,关于ip访问的错误其实很好解决,但是怎么知道解决好了呢?怎么确定是代理ip的问题呢?由于笔者主修语言是Java,所以有些解 ...
- Scrapy学习-13-使用DownloaderMiddleware设置IP代理池及IP变换
设置IP代理池及IP变换方案 方案一: 使用国内免费的IP代理 1 http://www.xicidaili.com # 创建一个tools文件夹,新建一个py文件,用于获取代理IP和PORT fro ...
最新文章
- Java 线程 笔记(1)
- 废弃电器电子产品回收:需要的不仅是补贴 !
- 图解用Scientific Toolworks Understand分析Microsoft DirectX SDK (June 2010)自带D3D示例
- java炒黄金_炒黄金追单的一些问题分析
- 前端学习(3005):vue+element今日头条管理--处理布局完成
- python语言发明者 google_看看9种编程语言的发明者是怎么说的
- 软件中的1、同步调用;2、回调;3、异步调用
- asp.net添加自定义用户控件并传值
- Linux下通过WebShell反弹Shell的技巧
- 许多自己正在总结的东东
- golang 大数据平台_一文读懂数据平台、大数据平台、数据中台
- 2022年电工杯数模竞赛B题第一问解法分享(附Python代码)
- 【数据产品案例】阿里生意参谋-用户分析
- PS制作(LOGO)步骤流程
- 将linux操作系统迁移到另一个固态硬盘上
- 计算机组成原理基础知识点
- access的否定形式_雅思考试对于新手有多难?
- 在微信小程序中实现时间日期的选择,并且显示当前选择的时间日期
- oracle 10g 新特性中文笔记
- 解决:Error: geom_point requires the following missing aesthetics: y Run `rlang::last_error()`