介绍目前还在推进的批流融合系统-SparkV2/Beam

SparkV2

回顾

Feature

在第一代的Spark Streaming系统中,其主要特点为:

  • 以批处理核心,使用micro-batch模型将流计算转换为批处理
  • 流计算和批处理API可以互用
    • DStream(特殊的RDD)
    • RDD

Spark Streaming局限性

Spark streaming难以处理的需求

  • Event-time
  • Late Data
    • 流数据的三个特征

      • 乱序
      • 延迟
      • 无界
  • Session windows
    • 比较难处理,与batch框架相矛盾

Structured Streaming思路

  • 类似Flink,流向表转换
  • 流与表的操作统一到DataSet/DataFrameAPI
  • 底层引擎依然是批处理,继续使用micro-batch的模型
    • Continuous query模型还在开发中

处理模型

Unbounded Table

借鉴了Spark中的Dynamic Table实现批流等价转换

Event time

将Event Time 作为表中的列参与到Window运算中

Late Data

引入流水线机制

Beam

Beam系统需要注意什么?

  • 同一API

    • 会不会造成严重的性能差异
  • 同一编程
    • 低层的两个系统如何实现统一

WWWH模型

只需要管需要进行说明操作,不关心谁去执行

  1. What results are calculated?

    • 计算什么结果? (read, map, reduce)
    • 批处理系统可实现
  2. Where in event time are results calculated?
    • 在哪儿切分数据? (event time windowing)
    • Windowed Batch
  3. When in processing time are results materialized?
    • 什么时候计算数据? (triggers)
    • Streaming
  4. How do refinements of results relate?
    • 如何修正相关的数据?(Accumulation)
    • Streaming + Accumulation

BeamPipeline

数据处理流水线

  • 表示抽象的流程
  • 与“Flink流水线机制”不是一个概念

批流融合系统-SparkV2/Beam相关推荐

  1. Flink 和 Pulsar 的批流融合

    简介:如何通过 Apache Pulsar 原生的存储计算分离的架构提供批流融合的基础,以及 Apache Pulsar 如何与 Flink 结合,实现批流一体的计算. 简介:StreamNative ...

  2. 开发效率提升15倍!批流融合实时平台在好未来的应用实践

    简介:本文由好未来资深数据平台工程师毛祥溢分享,主要介绍批流融合在教育行业的实践.内容包括两部分,第一部分是好未来在做实时平台中的几点思考,第二部分主要分享教育行业中特有数据分析场景. 摘要:本文由好 ...

  3. 袋鼠云批流一体分布式同步引擎ChunJun(原FlinkX)的前世今生

      一.前言 ChunJun(原FlinkX)是一个基于Flink提供易用.稳定.高效的批流统一的数据集成工具,是袋鼠云一站式大数据开发平台-数栈DTinsight的核心计算引擎,其技术架构基于实时计 ...

  4. 阿里云消息队列 RocketMQ 5.0 全新升级:消息、事件、流融合处理平台

    从"消息"到"消息.事件.流"的大融合 消息队列作为当代应用的通信基础设施,微服务架构应用的核心依赖,通过异步解耦能力让用户更高效地构建分布式.高性能.弹性健壮 ...

  5. 云栖发布|阿里云消息队列 RocketMQ 5.0:消息、事件、流融合处理平台

    简介:RocketMQ5.0 的发布标志着阿里云消息正式从消息领域正式迈向了"消息.事件.流"场景大融合的新局面. 引言:从"消息"到"消息.事件.流 ...

  6. Flink 1.11 与 Hive 批流一体数仓实践

    导读:Flink 从 1.9.0 开始提供与 Hive 集成的功能,随着几个版本的迭代,在最新的 Flink 1.11 中,与 Hive 集成的功能进一步深化,并且开始尝试将流计算场景与Hive 进行 ...

  7. hadoop 批流处理的实现_从T+1到T+0,浅谈PetaBase的实时流式处理

    随着互联网+的进一步发展,各行业对大数据技术的应用日趋成熟,企业的信息化范围正在高速扩展. 我们发现,越来越多的企业大数据分析已不再局限于传统的T+1场景,对数据的实时性分析和处理要求很高.例如网站流 ...

  8. hive表ddl导出_Flink 1.11 与 Hive 批流一体数仓实践

    简介:Flink 从 1.9.0 开始提供与 Hive 集成的功能,随着几个版本的迭代,在最新的 Flink 1.11 中,与 Hive 集成的功能进一步深化,并且开始尝试将流计算场景与Hive 进行 ...

  9. 流处理系统(Flink, Kafka和Pravega)学习笔记

    本文记录一下我比较感兴趣的实时流处理方面的知识,从计算Flink,到存储Pravega,再到消息中间件Kafka,理论知识四大方面学习.如有错误请在评论区指正.实时更新~ 理论知识 有状态的流计算 无 ...

  10. Flink的批流统一:Ⅱ

    序言 针对版本v1.14.3 ,之前的都是基于v1.12 .Flink的官方文档的变动不是一般的小.而且版本升级也挺快短短4个月从1.12发布到了1.14.3 . 总是该文是基于v1.14.3版本cu ...

最新文章

  1. iOS 代码实现获得应用的版本号(Version/Build)
  2. 程序员 面试笔记 C++ 程序设计的基础 第10章
  3. Flink的状态一致性
  4. cpu和memory性能监控
  5. Jmeter响应断言介绍
  6. java项目上线mysql查询慢_Java Web应用程序在缓慢的MySQL查询中停滞不前
  7. c语言求偶数的积,《动物的多*语言》阅读理解及*
  8. 順豐突然爆出一季度巨額虧損9億到11億
  9. 蘑菇车联打造一体化解决方案,致力产业协同发展
  10. Struts2之入门
  11. C++中利用输入输入流进行一行输入
  12. gcc编译时rpath可以使用多个路径,用:分隔
  13. CVPR2019目标检测论文汇总
  14. ALTREA cyclone IV e系列程序固化方法
  15. drupal 8 php filter,Drupal 7 与 Drupal 8 的一些变化
  16. 用python做下拉菜单
  17. win10笔记本合盖无法睡眠(风扇依然在转动)(开盖后不是锁屏状态)
  18. 查看电脑(服务器)ip地址与名称
  19. 利用R语言画简单时间序列图
  20. 云影数码工作室-创业计划书

热门文章

  1. Tensor.shape[0]的理解
  2. 标准焦距;焦距与景深的关系
  3. python爬虫英文单词_利用PYTHON 爬虫爬出自己的英语单词库
  4. ADC的动态范围 DR
  5. 密码校验规则前台验证
  6. matlab solve 矩阵,在Matlab中求解矩阵DAE系统
  7. 结巴分词 java_Java版结巴分词自定义词库
  8. python中count什么意思_python中函数COUNT()的功能是什么
  9. 瑞芯微板子人脸识别demo展现
  10. 华为推出打车平台 Petal,科技大厂再战聚合打车