介绍目前还在推进的批流融合系统-SparkV2/Beam

SparkV2

回顾

Feature

在第一代的Spark Streaming系统中，其主要特点为：

以批处理核心，使用micro-batch模型将流计算转换为批处理
流计算和批处理API可以互用
- DStream（特殊的RDD)
- RDD

Spark Streaming局限性

Spark streaming难以处理的需求

Event-time
Late Data
- 流数据的三个特征
  - 乱序
  - 延迟
  - 无界
Session windows
- 比较难处理，与batch框架相矛盾

Structured Streaming思路

类似Flink，流向表转换
流与表的操作统一到DataSet/DataFrameAPI
底层引擎依然是批处理，继续使用micro-batch的模型
- Continuous query模型还在开发中

处理模型

Unbounded Table

借鉴了Spark中的Dynamic Table实现批流等价转换

Event time

将Event Time 作为表中的列参与到Window运算中

Late Data

引入流水线机制

Beam

Beam系统需要注意什么？

同一API
- 会不会造成严重的性能差异
同一编程
- 低层的两个系统如何实现统一

WWWH模型

只需要管需要进行说明操作，不关心谁去执行

What results are calculated?
- 计算什么结果? (read, map, reduce)
- 批处理系统可实现
Where in event time are results calculated?
- 在哪儿切分数据? (event time windowing)
- Windowed Batch
When in processing time are results materialized?
- 什么时候计算数据? (triggers)
- Streaming
How do refinements of results relate?
- 如何修正相关的数据?(Accumulation)
- Streaming + Accumulation

BeamPipeline

数据处理流水线

表示抽象的流程
与“Flink流水线机制”不是一个概念

批流融合系统-SparkV2/Beam相关推荐

Flink 和 Pulsar 的批流融合
简介:如何通过 Apache Pulsar 原生的存储计算分离的架构提供批流融合的基础,以及 Apache Pulsar 如何与 Flink 结合,实现批流一体的计算. 简介:StreamNative ...
开发效率提升15倍！批流融合实时平台在好未来的应用实践
简介:本文由好未来资深数据平台工程师毛祥溢分享,主要介绍批流融合在教育行业的实践.内容包括两部分,第一部分是好未来在做实时平台中的几点思考,第二部分主要分享教育行业中特有数据分析场景. 摘要:本文由好 ...
袋鼠云批流一体分布式同步引擎ChunJun（原FlinkX）的前世今生
一.前言 ChunJun(原FlinkX)是一个基于Flink提供易用.稳定.高效的批流统一的数据集成工具,是袋鼠云一站式大数据开发平台-数栈DTinsight的核心计算引擎,其技术架构基于实时计 ...
阿里云消息队列 RocketMQ 5.0 全新升级：消息、事件、流融合处理平台
从"消息"到"消息.事件.流"的大融合消息队列作为当代应用的通信基础设施,微服务架构应用的核心依赖,通过异步解耦能力让用户更高效地构建分布式.高性能.弹性健壮 ...
云栖发布｜阿里云消息队列 RocketMQ 5.0：消息、事件、流融合处理平台
简介:RocketMQ5.0 的发布标志着阿里云消息正式从消息领域正式迈向了"消息.事件.流"场景大融合的新局面. 引言:从"消息"到"消息.事件.流 ...
Flink 1.11 与 Hive 批流一体数仓实践
导读:Flink 从 1.9.0 开始提供与 Hive 集成的功能,随着几个版本的迭代,在最新的 Flink 1.11 中,与 Hive 集成的功能进一步深化,并且开始尝试将流计算场景与Hive 进行 ...
hadoop 批流处理的实现_从T+1到T+0，浅谈PetaBase的实时流式处理
随着互联网+的进一步发展,各行业对大数据技术的应用日趋成熟,企业的信息化范围正在高速扩展. 我们发现,越来越多的企业大数据分析已不再局限于传统的T+1场景,对数据的实时性分析和处理要求很高.例如网站流 ...
hive表ddl导出_Flink 1.11 与 Hive 批流一体数仓实践
简介:Flink 从 1.9.0 开始提供与 Hive 集成的功能,随着几个版本的迭代,在最新的 Flink 1.11 中,与 Hive 集成的功能进一步深化,并且开始尝试将流计算场景与Hive 进行 ...
流处理系统(Flink, Kafka和Pravega)学习笔记
本文记录一下我比较感兴趣的实时流处理方面的知识,从计算Flink,到存储Pravega,再到消息中间件Kafka,理论知识四大方面学习.如有错误请在评论区指正.实时更新~ 理论知识有状态的流计算无 ...
Flink的批流统一:Ⅱ
序言针对版本v1.14.3 ,之前的都是基于v1.12 .Flink的官方文档的变动不是一般的小.而且版本升级也挺快短短4个月从1.12发布到了1.14.3 . 总是该文是基于v1.14.3版本cu ...

批流融合系统-SparkV2/Beam

SparkV2

回顾

Feature

Spark Streaming局限性

Structured Streaming思路

处理模型

Unbounded Table

Event time

Late Data

Beam

WWWH模型

BeamPipeline

批流融合系统-SparkV2/Beam相关推荐

最新文章

热门文章