Python爬虫之scrapy_redis原理分析并实现断点续爬以及分布式爬虫
scrapy_redis原理分析并实现断点续爬以及分布式爬虫
学习目标
- 了解 scrapy实现去重的原理
- 了解 scrapy中请求入队的条件
- 掌握 scrapy_redis基于url地址的增量式单机爬虫
- 掌握 scrapy_redis分布式爬虫
1. 下载github的demo代码
clone github scrapy-redis源码文件
git clone https://github.com/rolando/scrapy-redis.git
研究项目自带的demo
mv scrapy-redis/example-project ~/scrapyredis-project
2. 观察dmoz文件
在domz爬虫文件中,实现方式就是之前的crawlspider
类型的爬虫
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass DmozSpider(CrawlSpider):"""Follow categories and extract links."""name = 'dmoz'allowed_domains = ['dmoztools.net']start_urls = ['http://dmoztools.net/'] # 这里修改了url# 定义数据提取规则,使用了css选择器rules = [Rule(LinkExtractor(restrict_css=('.top-cat', '.sub-cat', '.cat-item')), callback='parse_directory', follow=True),]def parse_directory(self, response):for div in response.css('.title-and-desc'):yield {'name': div.css('.site-title::text').extract_first(),'description': div.css('.site-descr::text').extract_first().strip(),'link': div.css('a::attr(href)').extract_first(),}
但是在settings.py中多了以下内容,这几行表示scrapy_redis
中重新实现的了去重的类,以及调度器,并且使用RedisPipeline
管道类
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = TrueITEM_PIPELINES = {'example.pipelines.ExamplePipeline': 300,'scrapy_redis.pipelines.RedisPipeline': 400,
}
3. 运行dmoz爬虫,观察现象
- 首先我们需要添加redis的地址,程序才能够使用redis
REDIS_URL = "redis://127.0.0.1:6379"
#或者使用下面的方式
# REDIS_HOST = "127.0.0.1"
# REDIS_PORT = 6379
- 我们执行domz的爬虫,会发现redis中多了一下三个键:
- 中止进程后再次运行dmoz爬虫
继续执行程序,会发现程序在前一次的基础之上继续往后执行,所以domz爬虫是一个基于url地址的增量式的爬虫
4. scrapy_redis的原理分析
我们从settings.py中的三个配置来进行分析
分别是:
- RedisPipeline # 管道类
- RFPDupeFilter # 指纹去重类
- Scheduler # 调度器类
- SCHEDULER_PERSIST # 是否持久化请求队列和指纹集合
4.1 Scrapy_redis之RedisPipeline
RedisPipeline中观察process_item,进行数据的保存,存入了redis中
4.2 Scrapy_redis之RFPDupeFilter
RFPDupeFilter 实现了对request对象的加密
4.3 Scrapy_redis之Scheduler
scrapy_redis调度器的实现了决定什么时候把request对象加入带抓取的队列,同时把请求过的request对象过滤掉
4.4 由此可以总结出request对象入队的条件
- request的指纹不在集合中
- request的dont_filter为True,即不过滤
- start_urls中的url地址会入队,因为他们默认是不过滤
4.5 实现单机断点续爬
改写网易招聘爬虫,该爬虫就是一个经典的基于url地址的增量式爬虫
5. 实现分布式爬虫
5.1 分析demo中代码
打开example-project项目中的myspider_redis.py文件
通过观察代码:
- 继承自父类为RedisSpider
- 增加了一个redis_key的键,没有start_urls,因为分布式中,如果每台电脑都请求一次start_url就会重复
- 多了
__init__
方法,该方法不是必须的,可以手动指定allow_domains - 启动方法:
- 在每个节点正确的目录下执行
scrapy crawl 爬虫名
,使该节点的scrapy_redis爬虫程序就位 - 在共用的redis中
lpush redis_key 'start_url'
,使全部节点真正的开始运行
- 在每个节点正确的目录下执行
- settings.py中关键的配置
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = TrueITEM_PIPELINES = {'example.pipelines.ExamplePipeline': 300,'scrapy_redis.pipelines.RedisPipeline': 400,
}
REDIS_URL = "redis://127.0.0.1:6379"
5.2 动手实现分布式爬虫
改写tencent爬虫为分布式爬虫
注意:启动方式发生改变
小结
scrapy_redis的含义和能够实现的功能
- scrapy是框架
- scrapy_redis是scrapy的组件
- scrapy_redis能够实现断点续爬和分布式爬虫
scrapy_redis流程和实现原理
- 在scrapy框架流程的基础上,把存储request对象放到了redis的有序集合中,利用该有序集合实现了请求队列
- 并对request对象生成指纹对象,也存储到同一redis的集合中,利用request指纹避免发送重复的请求
request对象进入队列的条件
- request的指纹不在集合中
- request的dont_filter为True,即不过滤
request指纹的实现
- 请求方法
- 排序后的请求地址
- 排序并处理过的请求体或空字符串
- 用hashlib.sha1()对以上内容进行加密
scarpy_redis实现增量式爬虫、布式爬虫
- 对setting进行如下设置
- DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”
- SCHEDULER = “scrapy_redis.scheduler.Scheduler”
- SCHEDULER_PERSIST = True
- ITEM_PIPELINES = {‘scrapy_redis.pipelines.RedisPipeline’: 400,}
- REDIS_URL = “redis://127.0.0.1:6379” # 请正确配置REDIS_URL
- 爬虫文件中的爬虫类继承RedisSpider类
- 爬虫类中redis_key替代了start_urls
- 启动方式不同
- 通过
scrapy crawl spider
启动爬虫后,向redis_key放入一个或多个起始url(lpush或rpush都可以),才能够让scrapy_redis爬虫运行
- 通过
- 除了以上差异点以外,scrapy_redis爬虫和scrapy爬虫的使用方法都是一样的
- 对setting进行如下设置
Python爬虫之scrapy_redis原理分析并实现断点续爬以及分布式爬虫相关推荐
- Scrapy_redis框架原理分析并实现断点续爬以及分布式爬虫
1. 下载github的demo代码 1.1 clone github scrapy-redis源码文件 git clone https://github.com/rolando/scrapy-red ...
- 爬虫手记(scrapy实现断点续爬,文章重点在设置)使用scrapy_redis
爬虫手记(断点续爬) 安装reids数据库 安装scrapy 安装scrapy_redis 以上自行解决. 创建项目 scrapy startprogect commit_spider 进入commi ...
- Python机器学习-搭建神经网络以及数据集引入和断点续存
前言 本文旨在通过Python编程角度进行机器学习神经网络的引导,需要掌握基础的全连接神经网络基础,这包括了神经网络全连接层的结构,权重模板与偏置的作用,节点的处理方法.在掌握这些知识之后,本文将从代 ...
- Python高阶函数原理分析及其应用
三 高阶函数, 闭包和装饰器 所谓高阶函数就是把函数做为参数传入的一类函数. 另外, 返回函数的函数也属于高阶函数. 3.1 函数做为参数传入另外一个函数 3.1.1 高阶函数引入 Python中函数 ...
- python爬虫及数据可视化分析
python爬虫及数据可视化分析 1.前言 2.数据爬取 2.1定位到爬取数据 2.2爬虫实现方法 3.数据可视化分析 3.1将短文学网的各类文章做一个统计 3.2对某一类文章进行分析 1.前言 本篇 ...
- Python爬虫进阶——Scrapy框架原理及分布式爬虫构建
1 Scrapy简介 1.1 概念 Scrapy是由Python语言开发的一个快速.高层次的屏幕抓取和web信息抓取框架,用于抓取web站点并从页面中提取结构化的数据. Scrapy用途广泛,可以用于 ...
- 基于PyHusky的分布式爬虫原理及实现
原理 爬虫是我们获取互联网数据的一个非常有效的方法,而分布式爬虫则是利用许多台机器协调工作来加快抓取数据效率的不二途径.分布式爬虫是由访问某些原始网址开始,在获取这些网址的内容后,根据某些规则从中提取 ...
- Python分布式爬虫实战 - 豆瓣读书
本实例从零到一实现豆瓣读书的所有标签的分布式爬虫编写 本实例使用到的工具: IDE:Pycharm 工具:Python,Scrapy,linux,mysql,redis 需要用到的模块:scrapy ...
- Python爬虫 | 对广州市政府数据统一开放平台数据的爬取
Python爬虫 | 对广州市政府数据统一开放平台数据的爬取 简单爬虫 网页分析 爬虫代码 简单爬虫 本次爬虫演示的是对 广州市政府数据统一开放平台 数据的爬取 网页分析 我们先到url=' http ...
- Python爬虫入门教程 100-100 我用了800天,才成为爬虫领域的一个新人
爬虫 100 例的原则上最后一篇文章,很激动,有很多话想说,请允许我写这么一篇唠唠叨叨的文章. 爬虫系列的文章背后的作者与故事 写爬虫系列很迷,估计和很多进入爬虫编码圈的人一样,单纯的我只想看一些图片 ...
最新文章
- spring boot 不连接数据库启动
- mysql取最接近的两个值_Mysql:获取一行中另一个字段的最高值和最...
- Random类(Java中的随机类)
- babymips(上) 寒假逆向生涯(14/100)
- matlab 线性拟合相关系数,Matlab自动选择相关性最高波段并拟合曲线
- TypeScript Downleveling - 什么是 TypeScript 的降级行为
- js改变select下拉框默认选择的option
- 第二阶段团队冲刺第九天
- ORB-SLAM2双目开源框架 (4) LoopClosing解析
- 正倒向随机微分方程(FBSDE)解对初始值的依赖性
- 形象标识 新松机器人_新松SIASUN工业机器人标志logo设计,品牌设计vi策划
- Android蓝牙发送hc05,【MM32F103试用体验】+HC05蓝牙与Android手机通信
- zigbee Zstack 中串口操作的深度解析、一
- 数据库SQL-测试常用查询
- shopify独立站用户行为分析工具推荐-趣迹
- 2021年中国棘轮手柄市场趋势报告、技术动态创新及2027年市场预测
- CentOS 查看登陆成功和登陆失败日志
- PLC可编程控制器控制热水供暖循环系统实训
- vue项目的导出功能
- ABAP调用启信宝HTTP restful API实例