源码分析参考：Dupefilter

dupefilter.py

负责执行requst的去重，实现的很有技巧性，使用的Redis的设定数据结构。但是注意调度并不使用其中用于在这个模块中实现的dupefilter键做请求的调度，而是使用queue.py模块中实现的队列。

当请求不重复时，将其存入到队列中，调度时将其弹出。

import logging
import timefrom scrapy.dupefilters import BaseDupeFilter
from scrapy.utils.request import request_fingerprintfrom .connection import get_redis_from_settingsDEFAULT_DUPEFILTER_KEY = "dupefilter:%(timestamp)s"logger = logging.getLogger(__name__)# TODO: Rename class to RedisDupeFilter.
class RFPDupeFilter(BaseDupeFilter):"""Redis-based request duplicates filter.This class can also be used with default Scrapy's scheduler."""logger = loggerdef __init__(self, server, key, debug=False):"""Initialize the duplicates filter.Parameters----------server : redis.StrictRedisThe redis server instance.key : strRedis key Where to store fingerprints.debug : bool, optionalWhether to log filtered requests."""self.server = serverself.key = keyself.debug = debugself.logdupes = True@classmethoddef from_settings(cls, settings):"""Returns an instance from given settings.This uses by default the key ``dupefilter:<timestamp>``. When using the``scrapy_redis.scheduler.Scheduler`` class, this method is not used asit needs to pass the spider name in the key.Parameters----------settings : scrapy.settings.SettingsReturns-------RFPDupeFilterA RFPDupeFilter instance."""server = get_redis_from_settings(settings)# XXX: This creates one-time key. needed to support to use this# class as standalone dupefilter with scrapy's default scheduler# if scrapy passes spider on open() method this wouldn't be needed# TODO: Use SCRAPY_JOB env as default and fallback to timestamp.key = DEFAULT_DUPEFILTER_KEY % {'timestamp': int(time.time())}debug = settings.getbool('DUPEFILTER_DEBUG')return cls(server, key=key, debug=debug)@classmethoddef from_crawler(cls, crawler):"""Returns instance from crawler.Parameters----------crawler : scrapy.crawler.CrawlerReturns-------RFPDupeFilterInstance of RFPDupeFilter."""return cls.from_settings(crawler.settings)def request_seen(self, request):"""Returns True if request was already seen.Parameters----------request : scrapy.http.RequestReturns-------bool"""fp = self.request_fingerprint(request)# This returns the number of values added, zero if already exists.added = self.server.sadd(self.key, fp)return added == 0def request_fingerprint(self, request):"""Returns a fingerprint for a given request.Parameters----------request : scrapy.http.RequestReturns-------str"""return request_fingerprint(request)def close(self, reason=''):"""Delete data on close. Called by Scrapy's scheduler.Parameters----------reason : str, optional"""self.clear()def clear(self):"""Clears fingerprints data."""self.server.delete(self.key)def log(self, request, spider):"""Logs given request.Parameters----------request : scrapy.http.Requestspider : scrapy.spiders.Spider"""if self.debug:msg = "Filtered duplicate request: %(request)s"self.logger.debug(msg, {'request': request}, extra={'spider': spider})elif self.logdupes:msg = ("Filtered duplicate request %(request)s"" - no more duplicates will be shown"" (see DUPEFILTER_DEBUG to show all duplicates)")msg = "Filtered duplicate request: %(request)s"self.logger.debug(msg, {'request': request}, extra={'spider': spider})self.logdupes = False

这个文件看起来比较复杂，重写了scrapy本身已经实现的请求判重功能。因为本身scrapy单机跑的话，只需要读取内存中的请求队列或者持久化的请求队列（scrapy默认的持久化似乎是json格式的文件，不是数据库）就能判断这次要发出的请求url是否已经请求过或者正在调度（本地读就行了）。而分布式跑的话，就需要各个主机上的scheduler都连接同一个数据库的同一个请求池来判断这次的请求是否是重复的了。

在这个文件中，通过继承BaseDupeFilter重写他的方法，实现了基于Redis的的判重。根据源代码来看，scrapy，Redis的使用了scrapy本身的一个指纹接request_fingerprint，这个接口很有趣，根据scrapy文档所说，他通过哈希来判断两个网址是否相同（相同的URL会生成相同的哈希结果），但是当两个网址的地址相同，得到型参数相同但是顺序不同时，也会生成相同的散列结果（这个真的比较神奇......）所以scrapy-redis的依旧使用URL的指纹来判断请求请求是否已经出现过。

这个类通过连接redis的，使用一个密钥来向redis的的一个设置中插入指纹（这个密钥对于同一种蜘蛛是相同的，redis的是一个键 - 值的数据库，如果密钥是相同的，访问到的值就是相同的，这里使用蜘蛛名字+ DupeFilter的关键就是为了在不同主机上的不同爬虫实例，只要属于同一种蜘蛛，就会访问到同一个组，而这个组就是他们的网址判重池），如果返回值为0，说明该设定中该指纹已经存在（因为集合是没有重复值的），则返回假，如果返回值为1，说明添加了一个指纹到集合中，则说明这个请求没有重复，于是返回真，还顺便把新指纹加入到数据库中了。DupeFilter判重在调度类中用，每一个请求在进入调度之前都要进行判重，如果重复就不需要参加调度，直接舍弃就好了，不然就是白白浪费资源。

源码分析参考：Dupefilter相关推荐

源码分析参考：Spider
spider.py 设计的这个spider从redis中读取要爬的url,然后执行爬取,若爬取过程中返回更多的url,那么继续进行直至所有的request完成.之后继续从redis中读取url,循环这 ...
源码分析参考：Scheduler
scheduler.py 此扩展是对scrapy中自带的scheduler的替代(在settings的SCHEDULER变量中指出),正是利用此扩展实现crawler的分布式调度.其利用的数据结构来自 ...
源码分析参考：Connection
官方站点:https://github.com/rolando/scrapy-redis scrapy-redis的官方文档写的比较简洁,没有提及其运行原理,所以如果想全面的理解分布式爬虫的运行原理, ...
源码分析参考：Queue
queue.py 该文件实现了几个容器类,可以看这些容器和redis交互频繁,同时使用了我们上边picklecompat中定义的序列化器.这个文件实现的几个容器大体相同,只不过一个是队列,一个是栈,一 ...
源码分析参考：Pipelines
pipelines.py 这是是用来实现分布式处理的作用.它将Item存储在redis中以实现分布式处理.由于在这里需要读取配置,所以就用到了from_crawler()函数. from scrapy ...
SpringMVC异常处理机制详解[附带源码分析]
SpringMVC异常处理机制详解[附带源码分析] 参考文章: (1)SpringMVC异常处理机制详解[附带源码分析] (2)https://www.cnblogs.com/fangjian0423 ...
【Android 安全】DEX 加密 ( Application 替换 | Android 应用启动原理 | LoadedApk 源码分析 )
文章目录一.LoadedApk 源码分析二.LoadedApk 源码 makeApplication 方法分析 dex 解密时 , 需要将代理 Application 替换为真实 Applic ...
【Android 安全】DEX 加密 ( Application 替换 | Android 应用启动原理 | ActivityThread 源码分析 )
文章目录一.ActivityThread 源码分析二.ActivityThread 部分代码示例 dex 解密时 , 需要将代理 Application 替换为真实 Application ; ...
csi-provisioner源码分析
本文个人博客地址:https://www.huweihuang.com/kubernetes-notes/develop/csi-provisioner.html 本文主要分析csi-provisio ...

源码分析参考：Dupefilter

dupefilter.py

源码分析参考：Dupefilter相关推荐

最新文章

热门文章