更多活动现场照片:https://live.photoplus.cn/live/pc/53265145/#/

7 月 29 日 Streaming Lakehouse Meetup 邀请了来自阿里巴巴、字节跳动的七位技术专家,围绕 CDC 数据入湖实践、Flink 一站式湖仓一体构建、流式数据湖关键特性以及统一的 RSS 等,全方位解析 Streaming Lakehouse 最前沿的技术,最新的产业实践!Flink、Paimon、Celeborn、Flink CDC、StarRocks 多个开源项目汇聚在一起,与现场的百余位开发者展开交流。

点击查看活动视频 & 演讲PPT

活动视频回顾 & PPT 获取

PC 端

建议前往 Apache Flink 学习网

Apache Flink学习网

视频回顾:

Streaming Lakehouse Meetup-云视频-阿里云开发者社区

移动端

视频回顾/PPT 下载:关注 Apache Flink 公众号,回复 0729

线上问题解答

问:湖仓一体架构和 MPP 架构有什么区别?

答疑:最大的区别就是数据湖保存了所有数据,具有查询的灵活性。而 MPP 架构由于需要极高的查询性能,它的存储成本较昂贵,不能保存所有数据。

问:对象存储下,如何平衡小文件、高性能 CDC 写入速度和下游尽可能实时流读表三个诉求?Paimon 表的参数要怎么调整?

答疑:Paimon 会自动合并小文件。如果你在意文件系统上小文件你可以调小 Snapshot retain。 Manage Files | Apache Paimon Write Performance | Apache Paimon

问:存储底层查询效率可以用类似于 Alluio 加速吗?

答疑:可以对接 Alluio 来加速,Paimon本身不做文件的缓存,但是下面使用的文件系统可以是缓存的文件系统。

问:Flink CDC 的调参有哪些好的建议?

答疑:可以看下 Flink CDC github wiki 里的一些文章,一些最佳实践文章有介绍。

问:Tag 能在数据链路上所有 Paimon 表上同时打吗?

答疑:目前不能,是单独对每个表打的。 你可以通过 watermark 来完成类似的事情。 Manage Tags | Apache Paimon Querying Tables | Apache Paimon

问:对于替代消息队列,如果要求秒级查询,Paimon 如何能够做到?

答疑:不行哦,目前只能是 1 分钟左右的时延,社区后续有计划搞 embedded queue 来支持秒级。

问:Flink 怎么实现增量开窗?

答疑:不太明确增量开窗的具体含义,Flink SQL 有三种聚合,over window、window agg、普通 group by,我们一般推荐普通 group by + state TTL。

问:Flink CDC 什么时候会支持阿里云 Hologres?

答疑:Hologres 不是开源产品,这块 SDK 社区同学都不太熟悉,目前 Hologres 没有小伙伴来社区贡献,所以短期不会支持。

问:Checkpoint 丢失后如何防止从新处理化处理大表重算?

答疑:Checkpoint 丢失后对所有Flink作业来说都需要无状态重做,可以保留最近几天的 Checkpoint,这样恢复时从最近某天的一个 Checkpoint 恢复,代价不会很大,也不会重新读取大表。

问:Paimon 替代消息队列其延迟时长跟 Snapshot 产生周期一样么?

答疑:对

问:Flink CDC 全量和增量并行度要如何独立设置?

答疑:目前只需要设置全量阶段的并发,进入增量后,可以修改下 CDC Source 并发,然后从最近的 Checkpoint 重启下作业就可以。2.4.1 版本之后,全量阶段的资源可以自动释放,所以全量进入增量后,不把并发改下资源也可以在一定程度上回收。

问:请教 Oracle CDC,Oracle 归档日志爆满,可以怎么解决?

答疑:需要判断下归档的日志是不是下游消费慢,可以调节下游作业让消费跟上,另外如果可以确认下游作业不再使用,可以清理掉归档日志。

问:请教一下老师,Flink CDC 直接进行聚合,比如 sum 的值在删除的时候会将 sum 的值减掉吗?

答疑:会的,Flink CDC 吐出的 CDC 数据和 Flink SQL 里的 Changelog 是严格对应的,所以Flink SQL 的聚合是会回撤掉你 db 中的删除条目对应的值。

问:下游小时任务需要等待 Flink 某小时数据全部到达后再执行,有什么好的方法监控前一个的小时数据全部到达?

答疑:这个需要自己做下二次开发,在 Sink 里做下埋点,判断满足条件后调用自定义逻辑(通知下游调度系统)。

更多

进入社区交流钉钉群:搜索群号⬇️,参与讨论技术并得到实时的支持。

Apache Paimon 交流群:10880001919

Flink CDC 钉钉交流群:33121212

Flink Batch 钉钉交流群:34817520

Celeborn 钉钉用户群:41594456

点击查看活动视频 & 演讲PPT

回顾|Streaming Lakehouse Meetup · 北京站(附问题解答 PPT 下载)相关推荐

  1. 技术干货| 阿里云基于Hudi构建Lakehouse实践探索「内附干货PPT下载渠道」

    简介: 阿里云高级技术专家王烨(萌豆)在Apache Hudi 与 Apache Pulsar 联合 Meetup 杭州站上的演讲整理稿件,本议题介绍了阿里云如何使用 Hudi 和 OSS 对象存储构 ...

  2. 技术干货|基于Apache Hudi 的CDC数据入湖「内附干货PPT下载渠道」

    简介: 阿里云技术专家李少锋(风泽)在Apache Hudi 与 Apache Pulsar 联合 Meetup 杭州站上的演讲整理稿件,本议题将介绍典型 CDC 入湖场景,以及如何使用 Pulsar ...

  3. 知识付费,下半场怎么走(附大会PPT下载)

    本文为2017中国产品经理大会上海站嘉宾分享整理总结 未经许可,禁止转载.谢谢合作 ---- / BEGIN / ---- 分享嘉宾:豆瓣内容副总经理@陈辉 以下内容为嘉宾分享实录,编辑有修改: 首先 ...

  4. 干货 | 清华大学刘知远 CCL 2018学生研讨会报告(附完整PPT下载)

    来源:TsinghuaNLP 本文多图,建议阅读10分钟. 本文为你分享刘知远博士 CCL 2018学生研讨会报告内容,干货满满. 报告题目:文献综述与研究选题  报  告  人:刘知远 报告人简介: ...

  5. 0成本300万UV,打造爆款的6个方法论(附大会PPT下载)

    什么是营销爆款? 在0成本投入的情况下可以在10天内感染300万人以上的UV:或者在少量资金的推动下可以在10天内感染1000万以上的UV. 本文为2017中国产品经理大会上海站嘉宾分享整理总结 未经 ...

  6. 智慧校园一卡通全场景解决方案(附原版PPT下载)

    后台回复"资料下载"下载原版PPT 后台回复"资料下载"下载原版PPT 推荐阅读: 世界的真实格局分析,地球人类社会底层运行原理 不是你需要中台,而是一名合格的 ...

  7. 必看!清华大学刘洋教授“浅谈研究生学位论文选题”方法,3月7日1小时视频公开课(附视频PPT下载)...

    来源:专知 本文约700字,建议阅读5分钟 清华大学计算机系长聘教授刘洋老师在线讲授了关于<浅谈研究生学位论文选题方法>的课程. 标签:论文研究方法 [ 导读 ]在继续抗击疫情之际,3月7 ...

  8. 数据中台:不是产品,不是技术,到底是什么?(附完整PPT下载)

    导读:数据中台是一道关乎企业未来的选择题.本文从数据中台的视角来看企业创新是如何升级. 作者:江敏 来源:大数据DT(ID:hzdashuju) 本文摘编自数澜科技联合创始人兼副总裁江敏在2020-2 ...

  9. 云和恩墨大讲堂·武汉站圆满落幕,矢志不移再出发(附演讲PPT下载)

    矩形色块 时隔两年,云和恩墨大讲堂的城市活动再一次来到武汉,于5月27日下午在汉口泛海喜来登大酒店召开.公司创始人.总经理.ACDU理事长盖国强出席并做开场致辞和演讲,来自长江鲲鹏生态创新中心.同济医 ...

最新文章

  1. 使用openstack构建私有云计算平台
  2. 毕业设计记录(三)mysql的SQL语句
  3. 独家干货 | 吴恩达深度学习专项课程精炼笔记!
  4. C++面试八股文快问快答のSTL篇
  5. 与孩子一起学编程python_与的解释|与的意思|汉典“与”字的基本解释
  6. 12.8 早晨我一直在假笑,为了骗自己
  7. 基于边缘计算的森林火警监测系统
  8. Linux下清除DNS缓存
  9. html登陆滑动验证,JavaScript实现登录滑块验证
  10. 南京邮电大学《管理学原理C》2019/2020 学年第 2 学期期末试卷
  11. 如何在知网下载PDF文件
  12. 【PIC单片机】-- LCD的相关知识
  13. java倒计时器_Java并发系列5--倒计时器CountDownLatch
  14. python 贝塞尔曲线对图像进行扭曲_Python3 OpenCV3图像处理-图像扭曲
  15. EM9636数据上传百度云
  16. Unity MMO游戏架构设计之角色设计一
  17. 中国云计算行业研究报告
  18. 他把自己估值上万亿美元的项目免费化了.....
  19. python menu_Python——Menu控件
  20. java 根据ip获取mac地址,java服务器端根据ip获取客户端mac地址

热门文章

  1. Heartbeat+DRBD+MySQL高可用架构方案与实施过程细节 【转】
  2. Android camera open 流程
  3. Unity使用Mesh Collider报错
  4. Git出现|MERGING解决
  5. 牛客 26E 珂学送分2 (状压dp)
  6. GDAL编译报错ogr_sfcgal.h:34:34:fatal error:SFCGAL/capi/sfcgal_c/h:No such file or directory
  7. 关于美国大学生数学建模竞赛的一点点经验分享
  8. 舜宇光学科技2018年净利润达24.9亿元 同比减少14.2%
  9. 【乐意黎】CentOS 7.2主机上部署 LAMP实战
  10. Homestead中设置redis