公众号更名公告

「Flink 中文社区」更名为「Apache Flink

感谢你们的关注

▼ 关注「ApacheFlink」视频号,遇见更多大咖 ▼

Flink Forward Asia 2021 重磅开启,全球 40+ 多行业一线厂商,80+ 干货议题,带来专属于开发者的技术盛宴。

其中,实时数据湖专场,来自阿里巴巴、字节跳动、网易的技术专家们将解读如何构建数据湖平台、简化实时数据入湖入仓等相关问题,更有 Flink + Iceberg、Flink + Hudi 构建流式数据湖最佳实践。

▼ 扫码了解完整大会议程 ▼

(大会官网)

字节跳动

实时数据湖构建探索和实践

李延加|字节跳动数据平台研发工程师,Apache Hudi PMC Member & Committer

在实时数据入仓的场景下,字节跳动基于 Apache Flink 构建了 MQ-Hive 的通道并大规模投入使用,支撑了日均 20+PB 级的数据采集入仓,但是在 CDC 场景下,由于 Hive 不支持更新,所以 CDC 数据依然需要通过基于 Spark 的 T+1 离线链路来生产,实时性和计算效率上都无法满足需求,于是我们团队开始了在数据湖技术上的探索。最终选用 Apache Hudi 作为数据湖底座 + Apache Flink 作为计算引擎,构建了湖仓一体的实时数据集成通道,并获得了较大的业务收益。此次会议我会分享以下议题:

  1. 字节跳动超大数据量场景下 CDC 入 Hive 数仓遇到的挑战;

  2. 数据湖选型过程与思考;

  3. 入湖技术方案以及我们做的优化;

  4. 业务落地场景和收益;

  5. 未来的计划。

Flink CDC 如何

简化实时数据入湖入仓

徐榜江|阿里巴巴高级开发工程师,Apache Flink Committer,Flink CDC Maintainer

伍翀|阿里巴巴技术专家,Apache Flink PMC Member & Committer

最近几年实时数仓和数据湖发展迅速,其本质是业务在不断追求更加实时的数据,而 CDC(Change Data Capture)技术则是构建实时数仓和数据湖的关键技术。本次分享我们将探讨现有入湖入仓技术的典型架构和面临的痛点,包括海量 DB 数据的高效接入、数据一致性的语义保证、表结构的频繁变更等等。

接着我们会介绍如何使用 Flink CDC 简化数据入湖入仓架构,分享 Flink CDC 的核心技术是如何解决上述痛点。我们还会介绍 Flink CDC 蓬勃发展的社区生态以及未来的发展规划。

最后,我们会通过一个 demo 来展示如何使用 Flink CDC 完成 MySQL 到 Hudi 的整库数据入湖,并演示表结构变更的自动同步,整个 demo 只使用了几行 SQL,让观众深切体会到数据入湖本应如此 “简单”!

Flink + Iceberg

构建网易湖仓一体

马进|网易数据科学中心在线数据和实时计算团队负责人

经过多年发展,Hive 已经成为离线数仓的事实标准,Hive 的成功依赖于简洁开放的生态,但是在事务性,实时性,数据更新等能力上有严重不足,这也导致 Hive 无法胜任实时数仓,企业面临着 Kudu、Druid、Clickhouse 等百家争鸣的实时数仓方案,而实时数仓和离线数仓的割裂带来了流批割裂,规范割裂,语义二义性,成本浪费,数据孤岛等问题。

基于这些现状,网易在过去一年多持续致力于基于 Hadoop 数据湖构建实时数仓的方案,以形成流批统一存储,统一计算的实时湖仓,这次分享将给大家带来我们怎样基于 Flink 和 Iceberg 来构建流批一体和湖仓一体方案,重点介绍网易在 Iceberg 基础上开发的文件索引,实时 ingestion 和 compaction 服务,以及在应用场景中的实践,PPT 大纲:

  1. 流批一体的痛点;

  2. 湖仓一体 = 存储流批一体;

  3. 技术方案(文件索引,ingestion,compaction 服务);

  4. 应用实践;

  5. 未来规划。

使用 Flink Hudi

构建流式数据湖平台

陈玉兆|阿里巴巴技术专家,Apache Hudi Committer

刘大龙|阿里巴巴开发工程师

随着云数仓技术的不断成熟,数据湖俨然已成为当下最热门的技术之一,而 Apache Hudi 是当下最具竞争力的数据湖格式之一:

  • 拥有最活跃的开源社区,周活跃 PR 一直维持在 50+ 水平;

  • 拥有最多的国内用户群,目前的 Apache Hudi 钉钉群已超过 2100+,国内各大厂商都已经布局 Apache Hudi 生态。

Apache Hudi 的活跃度得益于其出色的 file format 设计和丰富的事物语义支持:

  • 精细化的 file format 布局很好的适配了近实时更新场景,解决了超大数据集更新的痛点;

  • Hudi 的事物层语义是目前的湖存储中最成熟和丰富的,基本所有的数据治理都可以自动化完成:compaction、rollback、cleaning、clustering

本次分享我们首先会探讨数据湖的由来以及 Apache Hudi 的内核设计,包括 Apache Hudi 的 Timeline 设计、Table Format 设计,以及 COW、MOR 等原语。

接着会介绍 Flink On Hudi 的核心设计,Flink 如何更好地结合流计算和湖存储,如何用流的思路实现湖格式的更新语义。

我们还会介绍 Flink On Hudi 活跃的国内用户群、经典的实践案例和近期的 roadmap。

最后,我们会通过一个 demo 来演示如何用简单的 Flink SQL 完成近实时数据湖的经典场景:包括双流 join 入湖、流读变更流、增量查询、TimeTravel 等,用 Flink SQL 玩转近实时数据湖就是如此简单 !

Apache Flink 集成

Apache Iceberg 最佳实践

胡争|阿里巴巴技术专家,Apache Iceberg  & HBase PMC

Apache Iceberg 作为一种开放的标准化数据湖表格式,被国内外众多大厂选择和应用。近期 Apache Iceberg 创始团队收获了 A 轮融资,计划在 AWS 之上推出商业版的数据湖存储服务,以满足数据分析师自助的数据分析需求。经过过去一年多的发展,Flink 已经成为 Iceberg 数据湖最重要入湖引擎之一。本次议题我将结合线上的一些案例和开源社区现状,分享 Flink 集成 Iceberg 的一些最佳实践:

  1. Flink + Iceberg 到底解决了哪些其他系统无法解决的问题?

  2. 日志表数据入湖的挑战和解决方案;

  3. CDC 表数据入湖的最佳实践;

  4. Iceberg 社区 Flink 模块现状和进展。


以上为 Flink Forward Asia 2021 实时数据湖专场内容节选,了解更多大会详情可扫描下方二维码。

Flink Forward Asia 2021 赞助与合作


首届 Flink Forward Asia Hackathon 正式启动,10W 奖金等你来!

欢迎进入赛事官网了解详情:

https://www.aliyun.com/page-source//tianchi/promotion/FlinkForwardAsiaHackathon

更多 Flink 相关技术问题,可扫码加入社区钉钉交流群~

▼ 关注「Apache Flink」,获取更多技术干货 ▼

  戳我,报名 FFA 2021 大会!

FFA 2021 专场解读 - 实时数据湖相关推荐

  1. FFA 2022 专场解读 - 实时风控 实时湖仓 数据集成

    Flink Forward Asia 2022 将于 11 月 26-27 日在线上举办,议程内容正式上线! FFA 2022 官网:https://flink-forward.org.cn/ 实时风 ...

  2. FFA 2021 专场解读 - 行业实践

    ▼ 关注「ApacheFlink」视频号,遇见更多大咖 ▼ (注:工商银行的议题在主会场,详情可进官网了解) 12 月 4-5 日,Flink Forward Asia 2021 重磅开启,全球 40 ...

  3. FFA 2021 专场解读 - 平台建设

    公众号更名公告 「Flink 中文社区」更名为「Apache Flink」 感谢你们的关注 ▼ 关注「ApacheFlink」视频号,遇见更多大咖 ▼ 12 月 4-5 日,Flink Forward ...

  4. 大数据专家手把手教你打造实时数据湖

    数据处理技术为各行各业的业务解决了海量存储和分析的需求,但数据量的爆发式增长.数据类型的不断丰富,对数据处理技术和时效性都提出了更高的要求,这使得通用计算引擎(如Spark.Flink).交互式分析系 ...

  5. 百信银行基于 Apache Hudi 实时数据湖演进方案

    简介:本文介绍了百信银行实时计算平台的建设情况,实时数据湖构建在 Hudi 上的方案和实践方法,以及实时计算平台集成 Hudi 和使用 Hudi 的方式. 本文介绍了百信银行实时计算平台的建设情况,实 ...

  6. 华为云MRS基于Hudi和HetuEngine构建实时数据湖最佳实践

    数据湖与实时数据湖是什么? 各个行业企业都在构建企业级数据湖,将企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者.一份数据支持多种分析,是数据湖最大的特 ...

  7. 万众瞩目的2021中国华录杯·数据湖算法大赛火热进行中!

    2021中国华录杯·数据湖算法大赛火热进行中!总奖金69.5万元,提供"人才录用直通车"创业扶持&双创中心办公场地,更有入驻数据湖科技企业孵化器,加速产品和项目落地的机会! ...

  8. FFA 2022 专场解读 - 流批一体 平台建设 AI 特征工程

    Flink Forward Asia 2022 将于 11 月 26-27 日在线上举办,议程内容正式上线! FFA 2022 官网:https://flink-forward.org.cn/ 流批一 ...

  9. 数据湖YYDS! Flink+IceBerg实时数据湖实践

    点击上方蓝色字体,选择"设为星标" 回复"面试"获取更多惊喜 数据湖的前世今生 互联网技术发展的当下,数据是各大公司最宝贵的资源之一已经是不争的事实.收据的收集 ...

  10. Apache Hudi 在 B 站构建实时数据湖的实践

    简介: B 站选择 Flink + Hudi 的数据湖技术方案,以及针对其做出的优化. 本文作者喻兆靖,介绍了为什么 B 站选择 Flink + Hudi 的数据湖技术方案,以及针对其做出的优化.主要 ...

最新文章

  1. linux wifi-tools,Linux下WiFi工具wireless_tools交叉编译,及其支持生成iwconfig使用的内核配置...
  2. Spring 中的各种注解,光会用可不够哦!
  3. Android调用浏览器打开网址遇到的问题
  4. Linux 线程与进程,以及通信
  5. python没用_大部分Python资料都没有说到的重点-用实战教你解决问题的思路
  6. 爱我别走:产品大改版时,如何避免用户流失?
  7. 【模板】 最小生成树
  8. VMware View 5.0从菜鸟到高手系列 3 -安装View Composer组件篇
  9. 自己动手开发调试器 01
  10. 同事操作两个数据源保持事务一致_终于有人把分布式事务说清楚了
  11. Java内置的观察者模式的使用
  12. moss item adding
  13. Urllib库的基本使用
  14. matlab解决高等数学和线性代数的部分问题
  15. 一直弹出adb已停止工作(远程主机强迫关闭现有的连接)的最简单完美解决法
  16. 华为主题引擎怎么下载_华为主题动态引擎
  17. 思维导图带你了解22个职场学习网站!亲测好用
  18. 浙大计算机系学霸,浙大学霸将脑电波控制变现实
  19. 5G工业级路由器的常见接口功能解析
  20. LINUX基础实验练习

热门文章

  1. Python安装时报缺少DLL的解决办法
  2. 新浪微博模拟登陆+数据抓取(java实现)
  3. 用同一个文件流读取同一个文件两次所需要做的操作
  4. 斯坦福大学深度学习公开课cs231n学习笔记(7)神经网络防止数据过拟合:损失函数和正则化
  5. Anaconda Python安装,Spyder汉化及调试
  6. 思维的碰撞|小博变换偶遇深度学习
  7. Kmeans算法解析(非常详细)
  8. 【批处理命令】call命令
  9. 06 is和==的区别 encode()编码 decode()解码
  10. JavaScript中atEnd函数