FFA 2021 专场解读 - 实时数据湖

公众号更名公告

「Flink 中文社区」更名为「Apache Flink」

感谢你们的关注

▼ 关注「ApacheFlink」视频号，遇见更多大咖 ▼

Flink Forward Asia 2021 重磅开启，全球 40+ 多行业一线厂商，80+ 干货议题，带来专属于开发者的技术盛宴。

其中，实时数据湖专场，来自阿里巴巴、字节跳动、网易的技术专家们将解读如何构建数据湖平台、简化实时数据入湖入仓等相关问题，更有 Flink + Iceberg、Flink + Hudi 构建流式数据湖最佳实践。

▼ 扫码了解完整大会议程 ▼

（大会官网）

字节跳动

实时数据湖构建的探索和实践

李延加｜字节跳动数据平台研发工程师，Apache Hudi PMC Member & Committer

在实时数据入仓的场景下，字节跳动基于 Apache Flink 构建了 MQ-Hive 的通道并大规模投入使用，支撑了日均 20+PB 级的数据采集入仓，但是在 CDC 场景下，由于 Hive 不支持更新，所以 CDC 数据依然需要通过基于 Spark 的 T+1 离线链路来生产，实时性和计算效率上都无法满足需求，于是我们团队开始了在数据湖技术上的探索。最终选用 Apache Hudi 作为数据湖底座 + Apache Flink 作为计算引擎，构建了湖仓一体的实时数据集成通道，并获得了较大的业务收益。此次会议我会分享以下议题：

字节跳动超大数据量场景下 CDC 入 Hive 数仓遇到的挑战；
数据湖选型过程与思考；
入湖技术方案以及我们做的优化；
业务落地场景和收益；
未来的计划。

Flink CDC 如何

简化实时数据入湖入仓

徐榜江｜阿里巴巴高级开发工程师，Apache Flink Committer，Flink CDC Maintainer

伍翀｜阿里巴巴技术专家，Apache Flink PMC Member & Committer

最近几年实时数仓和数据湖发展迅速，其本质是业务在不断追求更加实时的数据，而 CDC（Change Data Capture）技术则是构建实时数仓和数据湖的关键技术。本次分享我们将探讨现有入湖入仓技术的典型架构和面临的痛点，包括海量 DB 数据的高效接入、数据一致性的语义保证、表结构的频繁变更等等。

接着我们会介绍如何使用 Flink CDC 简化数据入湖入仓架构，分享 Flink CDC 的核心技术是如何解决上述痛点。我们还会介绍 Flink CDC 蓬勃发展的社区生态以及未来的发展规划。

最后，我们会通过一个 demo 来展示如何使用 Flink CDC 完成 MySQL 到 Hudi 的整库数据入湖，并演示表结构变更的自动同步，整个 demo 只使用了几行 SQL，让观众深切体会到数据入湖本应如此 “简单”！

Flink + Iceberg

构建网易湖仓一体

马进｜网易数据科学中心在线数据和实时计算团队负责人

经过多年发展，Hive 已经成为离线数仓的事实标准，Hive 的成功依赖于简洁开放的生态，但是在事务性，实时性，数据更新等能力上有严重不足，这也导致 Hive 无法胜任实时数仓，企业面临着 Kudu、Druid、Clickhouse 等百家争鸣的实时数仓方案，而实时数仓和离线数仓的割裂带来了流批割裂，规范割裂，语义二义性，成本浪费，数据孤岛等问题。

基于这些现状，网易在过去一年多持续致力于基于 Hadoop 数据湖构建实时数仓的方案，以形成流批统一存储，统一计算的实时湖仓，这次分享将给大家带来我们怎样基于 Flink 和 Iceberg 来构建流批一体和湖仓一体方案，重点介绍网易在 Iceberg 基础上开发的文件索引，实时 ingestion 和 compaction 服务，以及在应用场景中的实践，PPT 大纲：

流批一体的痛点；
湖仓一体 = 存储流批一体；
技术方案（文件索引，ingestion，compaction 服务）；
应用实践；
未来规划。

使用 Flink Hudi

构建流式数据湖平台

陈玉兆｜阿里巴巴技术专家，Apache Hudi Committer

刘大龙｜阿里巴巴开发工程师

随着云数仓技术的不断成熟，数据湖俨然已成为当下最热门的技术之一，而 Apache Hudi 是当下最具竞争力的数据湖格式之一：

拥有最活跃的开源社区，周活跃 PR 一直维持在 50+ 水平；
拥有最多的国内用户群，目前的 Apache Hudi 钉钉群已超过 2100+，国内各大厂商都已经布局 Apache Hudi 生态。

Apache Hudi 的活跃度得益于其出色的 file format 设计和丰富的事物语义支持：

精细化的 file format 布局很好的适配了近实时更新场景，解决了超大数据集更新的痛点；
Hudi 的事物层语义是目前的湖存储中最成熟和丰富的，基本所有的数据治理都可以自动化完成：compaction、rollback、cleaning、clustering

本次分享我们首先会探讨数据湖的由来以及 Apache Hudi 的内核设计，包括 Apache Hudi 的 Timeline 设计、Table Format 设计，以及 COW、MOR 等原语。

接着会介绍 Flink On Hudi 的核心设计，Flink 如何更好地结合流计算和湖存储，如何用流的思路实现湖格式的更新语义。

我们还会介绍 Flink On Hudi 活跃的国内用户群、经典的实践案例和近期的 roadmap。

最后，我们会通过一个 demo 来演示如何用简单的 Flink SQL 完成近实时数据湖的经典场景：包括双流 join 入湖、流读变更流、增量查询、TimeTravel 等，用 Flink SQL 玩转近实时数据湖就是如此简单！

Apache Flink 集成

Apache Iceberg 最佳实践

胡争｜阿里巴巴技术专家，Apache Iceberg & HBase PMC

Apache Iceberg 作为一种开放的标准化数据湖表格式，被国内外众多大厂选择和应用。近期 Apache Iceberg 创始团队收获了 A 轮融资，计划在 AWS 之上推出商业版的数据湖存储服务，以满足数据分析师自助的数据分析需求。经过过去一年多的发展，Flink 已经成为 Iceberg 数据湖最重要入湖引擎之一。本次议题我将结合线上的一些案例和开源社区现状，分享 Flink 集成 Iceberg 的一些最佳实践：

Flink + Iceberg 到底解决了哪些其他系统无法解决的问题？
日志表数据入湖的挑战和解决方案；
CDC 表数据入湖的最佳实践；
Iceberg 社区 Flink 模块现状和进展。

以上为 Flink Forward Asia 2021 实时数据湖专场内容节选，了解更多大会详情可扫描下方二维码。

Flink Forward Asia 2021 赞助与合作

首届 Flink Forward Asia Hackathon 正式启动，10W 奖金等你来！

欢迎进入赛事官网了解详情：

https://www.aliyun.com/page-source//tianchi/promotion/FlinkForwardAsiaHackathon

更多 Flink 相关技术问题，可扫码加入社区钉钉交流群～

▼ 关注「Apache Flink」，获取更多技术干货 ▼

戳我，报名 FFA 2021 大会！