关于大数据的架构有很多,比如说传统的大数据架构,当然,还有很多经典的大数据架构,比如说流式架构和Kappa架构。流式架构和Kappa架构在大数据中的应用还是很多的,在这篇文章中我们就给大家介绍一下关于流式架构和Kappa架构的相关知识。

1.流式架构

流式架构在大数据中应用十分广泛,在传统大数据架构的基础上,流式架构非常激进,直接取消了批处理操作,数据全程以数据流的方式进行处理,所以在数据接入端没有了ETL操作,转而替换为数据通道。而流式架构的优点十分明显,流式架构的优点就是没有十分麻烦的ETL过程,数据的实效性非常高。当然,流式架构的缺点也是十分明显的,那就是对于流式架构来说,不存在批处理,因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。经过流处理加工后的数据,通过消息中间件以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在数据湖,而是在外围系统。正因为如此,流式架构的适用场景就是预警,监控,对数据有有效期要求的情况。这些就是流式架构的主要内容。

2.Kappa架构

在大数据中,Kappa架构是一种比较常见的架构。Kappa架构的优点就是Kappa架构解决了Lambda架构里面的冗余部分,以数据可重播的超凡脱俗的思想进行了设计,整个架构非常简洁。Kappa架构的缺点就是虽然Kappa架构看起来简洁,但是施难度相对较高,尤其是对于数据重播部分。于是,Kappa架构和Lambda类似,改架构是针对Lambda的优化。使用场景也有很多,和lambda相同。不过Kappa架构的原理就是在Lambda 的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

在这篇文章中我们给大家介绍了两种大数据架构的知识,具体就是流式架构和Kappa架构。这两种架构在大数据中十分常见,所以说大家在学习大数据的时候一定不能忽视这两种架构的学习。

大数据架构中的流式架构和Kappa架构相关推荐

  1. 大数据Hadoop之——新一代流式数据湖平台 Apache Hudi

    文章目录 一.概述 二.Hudi 架构 三.Hudi的表格式 1)Copy on Write(写时复制) 2)Merge On Read(读时合并) 3)COW vs MOR 四.元数据表(Metad ...

  2. 大数据读书笔记(2)-流式计算

    早期和当前的"流式计算"系统分别称为"连续查询处理类"和"可扩展数据流平台类"计算系统. 流式计算系统的特点: 1)低延迟 2)极佳的系统容 ...

  3. 大数据量查询:流式查询与游标查询

    最近在做一个计算相关的功能,大体就是有很多条SQL,每条SQL都涉及复杂地运算,最后要将所有计算结果进行合并分析.经初步测试,每个SQL起码会查出几十万条记录,我们现在有毛毛多的这种SQL. 最大的问 ...

  4. 大数据_Flink_数据处理_流式数据源测试---Flink工作笔记0010

    前面我们已经写好了,流式数据处理的案例了. 但是我们执行的时候可以看到,我们输入的流,实际上是我们准备的一个文件对吧. 一个Text文件,实际上不算是一个流式数据源 那么正式环境的时候,一般都是,用流 ...

  5. MyBatis中使用流式查询避免数据量过大导致OOM

    欢迎关注方志朋的博客,回复"666"获面试宝典 今天mybatis查询数据库中大量的数据,程序抛出: java.lang.OutOfMemoryError: Java heap s ...

  6. 大数据基础课01 如何在庞大的大数据体系中明确路径?

    你好,我是荒川,目前在一线大厂做高级算法专家,曾经主导过数据平台建设.推荐系统数据流框架设计.数字化内容运营平台.用户画像平台等大型项目.在这些工作的过程中,我有幸熟悉了以个性化推荐为应用的大数据体系 ...

  7. Cris 玩转大数据系列之任务流神器 Azkaban

    Cris 玩转大数据系列之任务流神器 Azkaban Author:Cris 文章目录 Cris 玩转大数据系列之任务流神器 Azkaban Author:Cris 1. 概述 1.1 为什么需要工作 ...

  8. 运维专家:我在大数据项目中踩过的那些坑

    一.主要讨论人员 提问:陈超,七牛云技术总监 回答:朱冠胤,百度资深大数据专家,连续两次百度最高奖得主. 二.引言 "坐而论道"是一个轮流问答的玩法.本文是大数据主题周中,几位国内 ...

  9. 大数据项目中的QA需要迎接新的挑战

    大数据项目中的QA需要迎接新的挑战 根据IDC全球半年度大数据和分析支出指南的最新预测,到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元.在大数据和业务分析解决方案上投资增长最快的行 ...

最新文章

  1. 青少年编程竞赛交流群周报(第041周)
  2. Nature:首个肠道微生物对药物代谢影响的系统性研究
  3. mysql 存储中文问题
  4. (0072)iOS开发之UITableViewCell高度自适应探索--cell预估高度
  5. Java Struts 特性和新特性总结
  6. Net中常见问题及解决方法整理
  7. sql基础教程亚马逊_针对Amazon,Apple,Google的常见SQL面试问题
  8. MC新手入门(十三)------ 添加游戏角色
  9. 广州市出租车GPS数据(20210127)
  10. fastjson将json字符串转化成map的五种方法
  11. 微信小程序开发教程+工具插件
  12. 计算机重启报错69,[转载]速达3000 常见问题一(下)
  13. Tomcat配置参数优化
  14. 安徽阜阳计算机高中学校排名,安徽最强的五所高中,都是知名实力中学,考上就离名牌大学不远了!...
  15. 后面尾缀-T、-X、-TX…分别表示的意思
  16. 我心中的计算机作文500,我心中的太阳作文500字(通用10篇)
  17. 【技术方案】一对一或一对多音视频通话会议系统,可以通过哪些方式实现?
  18. 【设计模式】11-15:迪米特拉(最小知识)原则、外观模式、建造者模式、观察者模式、抽象工厂模式...
  19. (智能间距换行均满足)Excel中单元格批量调整行间距,行高自动适应内容,且自动换行
  20. 用python播放声音文件(mp3、wav、m4a等)

热门文章

  1. Ant Design Vue 动态路由
  2. 服务器配置pxe批量装系统,可能是最简单的PXE批量装机方案
  3. 极客评论:使用Screamer广播播放和录制网络广播
  4. 软件测试知识点合集总结
  5. expect 中的回车和换行
  6. 在否定句和疑问句使用have动词_26
  7. 如何修复网页被劫持、页面劫持的解决方法、详细
  8. 计算机网络——第二章
  9. CUDA:使用CUFFT来合成和 实时渲染海洋表面实例
  10. Armstrong基础拓扑学读书笔记——第二章:连续性