最近,一群人要求我详细介绍我为我们的书《分布式实时计算的风暴蓝图》撰写的Druid / Storm集成。 德鲁伊很棒。 风暴很大。 两者一起解决了实时维查询/聚合问题。

实际上,人们正在将其视为主流,将其称为RAD Stack ,并添加了“ Lambda Architecture”标签。 老实说,也许有更好的方法。 Lamda Architectures的以下假设一直困扰着我。

摘自Nathan关于Lambda体系结构的文章 :

实时计算任意数据集上的任意函数是一个艰巨的问题。 没有哪个工具可以提供完整的解决方案。 相反,您必须使用各种工具和技术来构建完整的大数据系统。

lambda体系结构将问题分解为三层:批处理层,服务层和速度层,从而实时解决了在任意数据上计算任意函数的问题。

该建议使大多数人为批处理,速度/处理和查询部署了单独的基础架构/框架,这很好,因为它允许您“为每个作业使用正确的工具”。 这导致了诸如“ RAD Stack”之类的问题。 人们为每一层选择一种技术。 (例如,速度= Storm,批处理= Hadoop和服务= Impala)

但是,如果您生活在这样的环境中,则它们需要大量资源,因为整个系统之间的重复使用很少。 我相信人们越来越开始质疑各层之间的区别 。 其他人则提出了统一Lambda架构 。

最近,我发现自己处于统一主义者的阵营中……

在HMS,几年来我们一直在迭代Lambda架构。 我们有Storm,Hadoop和实时Web服务层。 这些功能均充当数据摄取机制。

它们都处理相同类型的数据,仅在接口,容量和客户端期望方面有所不同:

  • 交易处理:

    • 我们的事务处理是我们的Web服务层。
  • 基于流/队列的处理
    • 通常,我们发现自己更多地依赖于我们的事务处理能力。
  • 批量处理
    • 对于批处理,客户的期望甚至进一步降低。

像许多其他人一样,我们发现自己需要支持所有这些范例。 从字面上看,我们正在跨不同的框架/系统重写代码,当这些实现不同时(甚至略有不同),这会造成很大的痛苦。 数字没有排队,等等。

我们被迫提出一个解决方案,并使系统稍微崩溃。

我们用Storm看了DRPC,并考虑了从我们的Web服务层调用Storm,但是DRPC似乎很笨拙,并且没有得到支持。 另外,从Hadoop调用DRPC似乎是不明智的。 (有人尝试过吗?)

相反,我们决定锁定持久性的抽象。 我们环顾了ORM和DAO模式,但大多数都不支持微批处理的概念,这是一种抽象,我们希望该选项能够在不同的处理机制中加以利用。 最后, 我们决定将风暴/突发状态抽象作为持久性的通用机制。 我们构建了storm-cassandra-cql ,并将其嵌入到我们的Web服务和Hadoop中。

从Hadoop和我们的Web服务中,我们实例化了自己的元组,它们实现了Storm Tuple接口。 从那里,我们可以使用State抽象并重新使用Mappers,以确保所有三个处理范例之间的数据模型均一致。

作为一种快捷方式,在Hadoop中,我们直接在reduce阶段使用State对象,将输出格式设置为NullOutputFormat。 理想情况下,我们可能应该实现一个新的OutputFormat,即StormCassandraCqlFormat之类的东西,但是我不确定这会给我们带来很多好处。

对于Web服务,直接集成是直接的。 将JSON转换为元组,在StateUpdater上调用update(),然后在State对象上调用commit()。 但是我们还希望能够在提交到“深度存储”之前进行批处理并执行维度聚合。 这带来了一个问题,我们将拥有已确认(200个响应代码)但尚未持久的数据。 不好。 如果节点发生故障,我们将丢失数据。 真的不好。

那么,解决方案是什么? 我们本可以集成Druid,但是相反,我们决定保持它的轻便,并…利用Storm作为我们的安全网!

考虑以下对Lambda体系结构的“传统”解释:

在这种传统方法中,批处理层(Hadoop)通常用于“纠正”速度层(Storm)中引入的处理中的错误。 Hadoop是安全网,可以纠正数字(通常通过通宵的批处理作业),我们决定采用这种方法来翻转该模型,并使用Storm作为我们的安全网:

在这种情况下,我们使用嵌入式State对象在批处理中聚合数据,但是在确认HTTP请求之前,我们还写入Kafka队列以实现持久性。 序列图如下所示:

我们将事件持久化到队列中,更新Trident State对象,然后*然后*返回200。然后,定期将State刷新到存储中。 (在这种情况下为Cassandra),如果我们删除一个节点也是可以的,因为Storm最终将最终(重新)处理该事件并在需要时(重新)合并数据。 (这是我要掩盖一些非常重要的细节的地方,将在下一篇文章中解决)

关键是……我们已经开始从持久性开始崩溃。 我们正在重新使用Hadoop和Web服务中的Trident State抽象,并且已经将Storm移到了“重新处理/安全网”层,该层以前由Hadoop /批处理填充。

由于缺乏更好的术语,我们一直将其称为Delta体系结构,因为整个系统专注于根据任何和所有处理范例进行的状态增量更新。

希望这能使人们思考。 在我的下一篇文章中,我将解释如何使用相同的体系结构交付维度聚合(如Druid),而无需直接合并Druid。

我们也有未解决的问题-

我们可以执行嵌入式拓扑吗?

这样做有意义吗?

有关更多详细信息,请查看我在Storm NYC聚会中所做的演示, 数据管道和Lambda体系结构的改进 。

我完全理解Lambda的大部分内容都是透视问题。 FWIW –这是我的(当前–可能会更改=)。 多亏了内森(Nathan)阐明了Lambda架构的概念,实现“大数据”视图已使人们有了共同的语言,可以与他们讨论一些真正棘手的问题的解决方案。

翻译自: https://www.javacodegeeks.com/2015/03/delta-architectures-unifying-the-lambda-architecture-and-leveraging-storm-from-hadooprest.html

Delta架构:统一Lambda架构并利用Hadoop / REST中的Storm相关推荐

  1. hadoop lambda_Delta架构:统一Lambda架构并利用Hadoop / REST中的Storm

    hadoop lambda 最近,一群人要求我详细介绍我为我们的书<分布式实时计算的风暴蓝图>撰写的Druid / Storm集成. 德鲁伊很棒. 风暴很棒. 两者一起解决了实时维查询/聚 ...

  2. 实时数仓 Kappa 架构与 Lambda 架构对比,优缺点有哪些?

    实时数仓 Kappa 架构与 Lambda 架构对比,优缺点有哪些? 1 数据仓库概念 2 离线大数据架构 3 Lambda 架构 4 Kappa 架构 5 Lambda 架构与 Kappa 架构的对 ...

  3. 深入理解大数据架构之——Lambda架构

    原文链接:https://jiang-hao.com/articles/2019/big-data-lambda-architecture.html "我们正在从IT时代走向DT时代(数据时 ...

  4. 【架构】Lambda架构

    一.出现的背景 1.1 从传统数据库到NoSQL,再到Hadoop 很多人学习大数据都听说过以下发展进程,MySQL/Oracle/SQLServer → Hadoop/Hive/Spark.但还有一 ...

  5. Kappa架构与Lambda架构比较

    目标 市场上的许多玩家已经建立了成功的MapReduce工作流程来每天处理以TB计的历史数据.但是谁愿意等待24小时才能获得最新的分析结果?这篇博文将向您介绍旨在利用批处理和流处理方法的Lambda架 ...

  6. 实时数仓之 Kappa 架构与 Lambda 架构

    大家好,我是球球.今天,我们先了解一下数据仓库架构的演变过程,本文主要从五个方面进行介绍 数据仓库概念 离线大数据架构 Lambda 架构 Kappa 架构 Lambda 架构与 Kappa 架构的对 ...

  7. 实时数仓之 Kappa 架构与 Lambda 架构(建议收藏!)

    大家好,我是土哥. 2021 年 1月份,给大家重点分享一下离线数仓与实时数仓的内容.今天,我们先了解一下数据仓库架构的演变过程,本文主要从五个方面进行介绍 数据仓库概念 离线大数据架构 Lambda ...

  8. 大数据三种主流架构(Lambda、Kappa、IOTA)

    文章目录 前言 Lambda架构 Lambda架构的介绍 Lambda架构的关键性 Lambda的三层架构 Lambda的三层架构 Speed Layer 速度层 Serving layer 服务层 ...

  9. 大数据Lambda架构详解

    1. 前言 随着互联网技术的发展,每一个业务都与数据息息相关,如搜索,推荐.这些业务有一个共同的特点是连接用户和数据.随着数据量的不断增加,对大数据的处理的要求也就会越来越高,在这期间出现了很多大数据 ...

最新文章

  1. Ceph OSD操作 命令详解
  2. SAP Spartacus lock focus directive如何判断有没有focusable children
  3. [2013.9.4]一个入门级别的破解教程。。。
  4. leetcode--Longest Substring Without Repeating Characters
  5. [A3C]:算法原理详解
  6. 产品必备-用户故事模板
  7. Java 实现数字全排列
  8. 移动apn接入点哪个快_2020年北京移动电信联通校园卡5G网速究竟有多快?
  9. 错误:没有找到合适的设备:没有找到可用于链接System eth0 的设备
  10. 罗德里格旋转公式 (Rodrigues’ Rotation Formula)
  11. 对话上海财经大学ITCS主任陆品燕教授:如何用一年时间,建设国际一流理论计算机研究中心?...
  12. horizon云桌面管理功能说明
  13. php如何获取json里的值,如何从JSON PHP正确获取值?
  14. 小红书如何引流兼职粉?快点击打开看看吧
  15. 螺丝螺母匹配问题(快排的变形应用)
  16. 使用Python抓取网易云音乐所有歌手信息
  17. [opencv] BF匹配器和Flann匹配器
  18. 我的日程安排表I II III
  19. (病毒安全)电脑装多款杀毒软件可以吗?
  20. Deep Learning 最优化方法之RMSProp

热门文章

  1. 又一大波笑到肾抽筋,笑出六块腹肌的段子
  2. 历年安徽省二计算机考试题库,2010安徽省计算机等级考试试题 二级ACCESS最新考试试题库...
  3. 自增主键与UUID的优缺点
  4. ibatis(1)ibatis的理念
  5. aws 数据库迁移_AWS Loft的数据库周
  6. jetty java_Jetty,Java和OAuth入门
  7. jdbc连接gp单例模式_JDBC连接备忘单
  8. std::tostring_枚举:如何正确使用name()和toString()方法
  9. aws sqs_在Spring中将AWS SQS用作JMS提供程序
  10. 遗传算法可用什么算法代替_获取可用密码算法的列表