Flink 新场景:OLAP 引擎性能优化及应用案例
摘要:本文由阿里巴巴技术专家贺小令(晓令)分享,主要介绍 Apache Flink 新场景 OLAP 引擎,内容分为以下四部分:
- 背景介绍
- Flink OLAP 引擎
- 案例介绍
- 未来计划
一、背景介绍
1.OLAP 及其分类
OLAP 是一种让用户可以用从不同视角方便快捷的分析数据的计算方法。主流的 OLAP 可以分为3类:多维 OLAP ( Multi-dimensional OLAP )、关系型 OLAP ( Relational OLAP ) 和混合 OLAP ( Hybrid OLAP ) 三大类。
(1)多维 OLAP ( MOLAP )
传统的 OLAP 分析方式
数据存储在多维数据集中
(2)关系型 OLAP ( ROLAP )
以关系数据库为核心,以关系型结构进行多维数据的表示
通过 SQL 的 where 条件以呈现传统 OLAP 的切片、切块功能
(3)混合 OLAP ( HOLAP )
将 MOLAP 和 ROLPA 的优势结合起来,以获得更快的性能
以下将详细介绍每种分类的具体特征。
■ 多维 OLAP ( MOLAP )
MOLAP 的典型代表是 Kylin 和 Druid。
- MOLAP 处理流程
首先,对原始数据做数据预处理;然后,将预处理后的数据存至数据仓库,用户的请求通过 OLAP server 即可查询数据仓库中的数据。
- MOLAP 的优点和缺点
MOLAP 的优点和缺点都来自于其数据预处理 ( pre-processing ) 环节。数据预处理,将原始数据按照指定的计算规则预先做聚合计算,这样避免了查询过程中出现大量的临时计算,提升了查询性能,同时也为很多复杂的计算提供了支持。
但是这样的预聚合处理,需要预先定义维度,会限制后期数据查询的灵活性;如果查询工作涉及新的指标,需要重新增加预处理流程,损失了灵活度,存储成本也很高;同时,这种方式不支持明细数据的查询。
因此,MOLAP 适用于对性能要求非常高的场景。
■ 关系型 OLAP ( ROLAP )
ROLAP 的典型代表是 Presto 和 Impala。
- 处理流程
ROLAP 的处理流程上,用户的请求直接发送给 OLAP server,然后 OLAP server 将用户的请求转换成关系型操作算子,再通过 SCAN 扫描原始数据,在原始数据基础上做过滤、聚合、关联等处理,最后将计算结果返回给用户。
- ROLAP 的优点和缺点
ROLAP 不需要进行数据预处理 ( pre-processing ),因此查询灵活,可扩展性好。这类引擎使用 MPP 架构 ( 与Hadoop相似的大型并行处理架构,可以通过扩大并发来增加计算资源 ),可以高效处理大量数据。
但是当数据量较大或 query 较为复杂时,查询性能也无法像 MOLAP 那样稳定。所有计算都是临时发生 ( 没有预处理 ),因此会耗费更多的计算资源。
因此,ROLAP 适用于对查询灵活性高的场景。
■ 混合 OLAP ( HOLAP )
混合 OLAP,是 MOLAP 和 ROLAP 的一种融合。当查询聚合性数据的时候,使用MOLAP 技术;当查询明细数据时,使用 ROLAP 技术。在给定使用场景的前提下,以达到查询性能的最优化。
2.Apache Flink 介绍
■ Flink 支持的应用场景
Apache Flink 支持的3种典型应用场景:
(1)事件驱动的应用
- 反欺诈
- 基于规则的监控报警
(2)流式 Pipeline
- 数据 ETL
- 实时搜索引擎的索引
(3)批处理 & 流处理分析
- 网络质量监控
- 消费者实时数据分析
■ Flink 架构及优势
Flink 的整体架构如上图所示,在此架构下,Flink 的优势也十分突出,主要分为6个方面:
(1)统一框架 ( 不区分流处理和批处理 )
- 用户 API 统一
- 执行引擎统一
(2)多层次 API
- 标准 SQL APL
- Table API
- DataStream API ( 灵活,无 schema 限制 )
(3)高性能
- 支持内存计算
- 支持代价模型优化
- 支持代码动态生成
(4)方便集成
- 支持丰富的 Connectors
- 方便对接现有 Catalog
(5)灵活的 Failover 策略
- 在 Pipeline 下支持快速 failover
- 类似 MapReduce、Spark 一样支持 shuffle 数据落盘
(6)易部署维护
- 灵活部署方案
- 支持高可用
二、Apache Flink OLAP 引擎
1.为什么 Flink 可以做 ROLAP 引擎?
- Flink 的核心和基础是流计算,支持高性能、低延迟的大规模计算。
- Blink 将批看作有限流,批处理是针对有限数据集的优化,因此批处理引擎也是构建在流引擎上 ( 已开源 )。
- OLAP 是响应时间要求更短的批处理,因此 OLAP 可以看作是一种特殊的批。OLAP 引擎也可以构建在现有的批引擎上。
注:Flink OLAP 引擎目前不带存储,只是一个计算框架。
2.Flink 做 OLAP 引擎的优势
(1)统一引擎:流处理、批处理、OLAP 统一使用 Flink 引擎。
降低学习成本,仅需要学习一个引擎
提高开发效率,很多 SQL 是流批通用
提高维护效率,可以更集中维护好一个引擎
(2)既有优势:利用 Flink 已有的很多特性,使 OLAP 使用场景更为广泛。
使用流处理的内存计算、Pipeline
支持代码动态生成
也可以支持批处理数据落盘能力
(3)相互增强:OLAP 能享有现有引擎的优势,同时也能增强引擎能力
- 无统计信息场景的优化
- 开发更高效的算子
- 使 Flink 同时兼备流、批、OLAP 处理的能力,成为更通用的框架
3.性能优化
OLAP 对查询时间非常敏感,当前很多组件的性能不满足要求,因此我们对 Flink 做了很多相关优化。
■ 服务架构的优化
- 客户端服务化
下图介绍了一条 SQL 怎么在客户端一步一步变为 JobGraph,最终提交给 JM:
在改动之前,每次接受一个 query 时会启动一个新的 JVM 进程来进行作业的编译。其中 JVM 的启动、Class 的加载、代码的动态编译 ( 如 Optimizer 模块由于需要通过 Janino 动态编译进行 cost 计算 ) 等操作都非常耗时 ( 需要约3~5s )。因此,我们将客户端进行服务化,将整个 Client 做成 Service,当接收到用户的 query 时,无需重复各项加载工作,可将延时降低至 100ms 左右。
- 自定义 CollectionTableSink
这部分优化,源于 OLAP 的一个特性:OLAP 会将最终计算结果发给客户端,通过JobManager 转发给 Client。假如某个 query 的结果数据量很大,会让 JobManager OOM ( OutOfMemory );如果同时执行多个 query,也会相互影响。
因此,我们从新实现了一个 CollectionTableSink,限制数据的条数和数据大小,避免出现 OOM,保证多个 Query 同时运行时的稳定性。
- 调度优化
在 Batch 模式下的调度存在以下问题:
- 使用 Lazy_from_sources 模式调度,会导致整体运行时间较长,也可能造成死锁。
- RM ( Resource Manager ) 按 OnDemand 方式分配 Slot 需求,也会造成死锁。
- RM 以单线程同步模式向 TM ( Transaction Manager ) 分配 Slot 请求,会造成等待时间更长。
注:调度死锁是指在资源有限的情况下,多个 Job 同时运行时,如果多个 Job都只申请到了部分资源并没有剩余资源可以申请,导致 Job 没法继续执行,新的 Job 也没法提交。
针对上述问题,我们提出了以下几点改动:
- 采用 Eager 调度模式 ( 确保所有的资源都申请到后才开始运行 )。
- 使用 FIFO ( 先进先出队 ) 模式申请资源 ( 确保当前 Job 的资源分配结束后才开始下一个 Job 的资源分配 )。
- 将单线程同步模式改为多线程异步模式,减少任务启动时间和执行时间。
■ 针对 source 的优化
在 ROLAP 的执行场景中,所有数据都是通过扫描原始数据表后进行处理;因此,基于 Source 的读取性能非常关键,直接影响 Job 的执行效率。
- Project&Filter 下堆
像 Parquet 这类的列存文件格式,支持按需读取相所需列,同时支持 RowGroup 级别的过滤。利用该特性,可以将 Project 和 Filter 下推到 TableSource,从而只需要扫描 Query 中涉及的字段和满足条件的 RowGroup,大大提升读取效率。
- Aggregate 下堆
这个优化也是充分利用了 TableSource 的特性:例如 Parquet 文件的 metadata 中已经存储了每个 RowGroup 的统计信息 ( 如 max、min等 ),因此在做 max、min 这类聚合统计时,可直接读取 metadata 信息,而不需要先读取所有原始数据再计算。
■ 在没有统计信息场景下做的优化
- 消除 CrossJoin
CrossJoin 是没有任何 Join 条件,将 Join 的两张表的数据做笛卡尔积,导致 Join 的结果膨胀非常厉害,这类 Join 应该尽量避免。我们对含有 CrossJoin 的 Plan 进行改写:将有 join 条件的表格先做 join ( 通常会因为一些数据 Join 不上而减少数据 ),从而提高执行效率。这是一个确定性的改写,即使在没有统计信息的情况下,也可以使用该优化。
- 自适应的 Local Aggregate
通常情况下,两阶段的 Aggregate 是非常高效的,因为 LocalAggregate 能聚合大量数据,导致 Shuffle 的数据量会变少。但是当 LocalAggregate 的聚合度很低的时候, Local 聚合操作的意义不大,反而会浪费 CPU。
在没有任何统计信息的情况下,优化器没法决定是否要产生 LocalAggregate 算子;因此,我们采用运行时采样的方式来判断聚合度,如果聚合度低于设定的阈值,我们将关闭聚合操作,改为仅做数据转发;经我们测试,部分场景有 30% 的性能提升。
4.测试结果
上图是 Flink 和 Presto基于 1T 数据做的 SSB ( Star Schema Benchmark ) 测试,从图中可以看出 Flink 和 Presto 整体上不相上下,甚至有些 Query Flink 性能优于Presto。
注:Flink OLAP 从开始到嘉宾分享时,只有3个月时间。
案例介绍
1.Flink OLAP 在数据探查上的应用
上图描述了一个数据湖应用的完整架构,Flink OLAP 主要用于"数据探查"。
数据探查是对数据结构做智能判断,给出数据的探查结果,快速了解数据的信息和质量情况。即用户可以在管控平台上了解数据湖中任意一份数据的数据特性。用户通过 Web 交互操作选择相应的表和指标后立即展示相关结果指标,因此要求低延迟、实时反馈。而且数据湖中很多数据没有任何统计信息;前述的各种查询、聚合层面的优化,主要为这类场景服务。
2.整体架构
上图是这类应用的整体架构。整套服务托管到 Kubernetes 上,最终访问的数据是OSS。
未来计划
当前,Flink OLAP 引擎性能优化及应用主要是基于内部 Flink,后续工作主要分为以下三块:
- 推回社区:目前所有工作都是基于内部 Flink,希望推回社区;
- 资源隔离:后期很多功能的开发和优化会围绕多 Query 运行时的"资源隔离";
- 优化&性能:围绕 OLAP 的特性,在此场景下会进一步做优化和性能提升等方面的工作。
原文链接
本文为云栖社区原创内容,未经允许不得转载。
Flink 新场景:OLAP 引擎性能优化及应用案例相关推荐
- Apache Flink新场景——OLAP引擎
最近我们也正打算做OLAP分析平台,在调研的过程中,发现已有的成熟技术只能满足我们的部分需求,相信大家也有这样的困惑,本文分享的是来自阿里巴巴集团的技术专家贺小令分享为什么选择使用 Flink 作为新 ...
- Apache Flink OLAP引擎性能优化及应用
精选30+云产品,助力企业轻松上云!>>> 摘要:最近我们也正打算做OLAP分析平台,在调研的过程中,发现已有的成熟技术只能满足我们的部分需求,相信大家也有这样的困惑,本文分享的是来 ...
- Flink从入门到精通100篇(二十二)-Apache Flink OLAP引擎性能优化及应用
前言 本次分享的主题为Apache Flink新场景--OLAP引擎,主要内容包括: 背景介绍 Apache Flink OLAP引擎 案例介绍 未来计划 1. OLAP及其分类 OLAP是一种让用户 ...
- 智能音箱场景下的性能优化
QCon是由InfoQ主办的综合性技术盛会,今年是Qcon举办的第10个年头,半吊子全栈工匠有幸作为演讲嘉宾分享一个近两年来的实践经验--智能音箱场景下的性能优化,隶属于曾波老师出品的"场景 ...
- 春节福利:《Oracle性能优化与诊断案例精选》电子版首次公开下载
值此猪年春节到来之际,恩墨云服务团队恭祝大家新年快乐,心想事成.同时我们也为大家准备了一份新年礼物,首次公开Eygle和600主编的<Oracle性能优化与诊断案例精选>电子版下载. 本书 ...
- 《Oracle性能优化与诊断案例精选》——2.3 衣带渐宽终不悔
本节书摘来自异步社区出版社<Oracle性能优化与诊断案例精选>一书中的第2章,第2.3节,作者:盖国强 , 李轶楠 ,更多章节内容可以访问云栖社区"异步社区"公众号查 ...
- 《Oracle性能优化与诊断案例精选》——2.5 回首向来萧瑟处,也无风雨也无晴...
本节书摘来自异步社区出版社<Oracle性能优化与诊断案例精选>一书中的第2章,第2.5节,作者:盖国强 , 李轶楠 ,更多章节内容可以访问云栖社区"异步社区"公众号查 ...
- 《Oracle性能优化与诊断案例精选》——第2章 回首向来萧瑟处,也无风雨也无晴...
第2章 回首向来萧瑟处,也无风雨也无晴 Oracle性能优化与诊断案例精选 --我的十年Oracle DBA奋斗路(侯圣文) 题记 迄今为止,我觉得这辈子最幸运的两件事,一件是遇见了我太太,另一件就是 ...
- OLAP引擎调研 —— OLAP引擎性能对比分析
涉及到的OLAP: 这里主要是查询网上的一些资料,总结整理,调研涉及的OLAP引擎主要有Kylin.Impala.Kudu.Presto.Druid.Clickhouse.Doris.TiDB.Haw ...
最新文章
- servlet必知细节(一)
- 不用图片的DIV圆角(兼容各浏览器)
- resin管理后台登录配置
- 【LDA学习系列】M-H采样python代码
- 基于FPGA的gardner同步环设计
- 模拟赛-20190228-随机数(random)
- 理解cookie与token(JWT)
- Boyer-Moore 投票算法
- 信息安全工程师笔记-云计算安全需求分析与安全保护工程
- JavaScript缓存处理代码
- 深度学习(三十六)异构计算CUDA学习笔记(1)
- 职业高中计算机网络试讲稿,《初识我的电脑》试讲稿+答辩
- 专访企业QQ SaaS团队,谈企业级LNMP架构设计
- 面试官:给我说说你对Java GC机制的理解?
- java 字符串数组排序_Java 使用泛型为不同类型数组排序
- 数字图像处理 冈萨雷斯 课后习题答案
- IsPostBack详解
- Houdini 快捷键
- 钽电容的命名,贴片电解电容耐压,封装
- PHP利用qq邮箱发邮件
热门文章
- linux 别名,Linux中的别名就这么简单,如何使用和创建永久别名?
- 多线程百度网盘爬虫Python完整源码
- css中变形,css3中变形处理
- php软删除代码,PHP laeavel软删除以及软删除还原 易错点
- asp 取菜单的名字_这样的奶茶店菜单设计,店面营业额能提高30%!
- python基础文档_python基本文件操作
- java: 程序包com.github.pagehelper不存在_Rust语言正在兴起,Java、Python、C的末日来临?...
- oracle导出表中某天数据命令,Oracle数据库使用命令行导入导出数据表及数据内容(本地、远程)...
- python文件独特行数_python——文件和数据格式化练习题:文件独特行数
- 删文97篇!前UCLA教授竟是民科?不看好量子通信被禁言