Scrapy中间件

　　爬虫中间件

class SpiderMiddleware(object):# Not all methods need to be defined. If a method is not defined,# scrapy acts as if the spider middleware does not modify the# passed objects.
@classmethoddef from_crawler(cls, crawler):# This method is used by Scrapy to create your spiders.s = cls()return sdef process_spider_input(self,response, spider):"""下载完成，执行，然后交给parse处理:param response: :param spider: :return: """passdef process_spider_output(self,response, result, spider):"""spider处理完成，返回时调用:param response::param result::param spider::return: 必须返回包含 Request 或 Item 对象的可迭代对象(iterable)"""return resultdef process_spider_exception(self,response, exception, spider):"""异常调用:param response::param exception::param spider::return: None,继续交给后续中间件处理异常；含 Response 或 Item 的可迭代对象(iterable)，交给调度器或pipeline"""return None# 只在爬虫启动时，执行一次。def process_start_requests(self,start_requests, spider):"""爬虫启动时调用:param start_requests::param spider::return: 包含 Request 对象的可迭代对象"""return start_requests

配置方法：

SPIDER_MIDDLEWARES = {'xdb.sd.SpiderMiddleware': 666,'xdb.sd.Sd2': 667,}

应用：

- 深度
- 优先级

下载中间介件

class DownMiddleware1(object):@classmethoddef from_crawler(cls, crawler):# This method is used by Scrapy to create your spiders.s = cls()return sdef process_request(self, request, spider):"""请求需要被下载时，经过所有下载器中间件的process_request调用:param request: :param spider: :return:  None,继续后续中间件去下载；Response对象，停止process_request的执行，开始执行process_responseRequest对象，停止中间件的执行，将Request重新调度器raise IgnoreRequest异常，停止process_request的执行，开始执行process_exception"""# 1. 返回Response# import requests# result = requests.get(request.url)# return HtmlResponse(url=request.url, status=200, headers=None, body=result.content)# 2. 返回Request# return Request('https://dig.chouti.com/r/tec/hot/1')# 3. 抛出异常# from scrapy.exceptions import IgnoreRequest# raise IgnoreRequest# 4. 对请求进行加工(*)# request.headers['user-agent'] = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"passdef process_response(self, request, response, spider):"""spider处理完成，返回时调用:param response::param result::param spider::return: Response 对象：转交给其他中间件process_responseRequest 对象：停止中间件，request会被重新调度下载raise IgnoreRequest 异常：调用Request.errback"""print('response1')return responsedef process_exception(self, request, exception, spider):"""当下载处理器(download handler)或 process_request() (下载中间件)抛出异常:param response::param exception::param spider::return: None：继续交给后续中间件处理异常；Response对象：停止后续process_exception方法Request对象：停止中间件，request将会被重新调用下载"""return None

配置方法：

DOWNLOADER_MIDDLEWARES = {#'xdb.middlewares.XdbDownloaderMiddleware': 543,# 'xdb.proxy.XdbProxyMiddleware':751,'xdb.md.DownMiddleware1':666,'xdb.md.Md2':667,
}

应用：

- user-agent
- 代理

转载于:https://www.cnblogs.com/L5251/articles/9276341.html

爬虫基础12(框架Scrapy中间件）相关推荐

【视频教程免费领取】聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎
领取方式关注公众号,发送Python0407获取下载链接. 扫码关注公众号,公众号回复 Python0407 获取下载地址目录结构目录:/读书ReadBook [57.6G] ┣━━48G全套J ...
爬虫基础篇之Scrapy抓取京东
虚拟环境同一台服务器上不同的项目可能依赖的包不同版本,新版本默认覆盖旧版本,可能导致其他项目无法运行,通过虚拟环境,完全隔离各个项目各个版本的依赖包,实现运行环境互不影响. virtualenv p ...
Python爬虫基础：安装Scrapy爬虫框架和创建Scrapy爬虫项目
首先为了避免国外镜像不稳定,我们使用了清华大学的python库镜像:https://pypi.tuna.tsinghua.edu.cn/simple 1.安装scrapy 1.1.安装pywin32( ...
爬虫基础(五)-----scrapy框架简介
---------------------------------------------------摆脱穷人思维 <五> :拓展自己的视野,适当做一些眼前''无用''的事情,防止进入只关 ...
爬虫基础分享Scrapy框架流程图与安装
从头开发一个爬虫程序是一项烦琐的工作,为了避免因制造轮子而消耗大量时间,在实际应用中我们可以选择使用一些优秀的爬虫框架,使用框架可以降低开发成本,提高程序质量,让我们能够专注于业务逻辑.所以,我们一起 ...
python的scrapy框架的安装_Python爬虫基础（四）--Scrapy框架的安装及介绍
Scrapy框架的介绍安装: pip3 install Scrapy 安装测试: cmd命令行界面,输入:scrapy -h 框架安装完成: scrapy框架: 分为五个模块+两个中间件(5+2结构 ...
Python基础知识回顾及scrapy框架爬虫基础
1.函数函数参数:必须默认关键可变函数种类:外部内部匿名 lambda 装饰函数:@语法糖函数总是要返回的 ,若没有return,None总是被返回 2.面向对象: 对象:已存在, ...
爬虫框架scrapy之中间件
中间件是Scrapy里面的一个核心概念.使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫. "中间件"这个中文名字和前面章节讲到 ...
python爬虫scrapy安装_零基础写python爬虫之爬虫框架Scrapy安装配置
前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识, 用来解决简单的贴吧下载,绩点运算自然不在话下. 不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点. 于是乎,爬虫 ...

爬虫基础12(框架Scrapy中间件）

Scrapy中间件

爬虫中间件

下载中间介件

爬虫基础12(框架Scrapy中间件）相关推荐

最新文章

热门文章