ApacheCon Asia 2022 强势来袭,ApacheCon 是 Apache 软件基金会(ASF)的官方全球系列大会,作为久负盛名的开源盛宴,是开源界最具期待的大会之一。7 月 29 日至 31 日,针对亚太地区的开发者特举行 ApacheCon Asia 在线会议,足不出户,大家即可在线上参加这场 Apache 技术盛宴。

阿里云大数据 &AI 相关议程如下:

人工智能 / 机器学习分论坛

实时深度学习训练 PAI-ODL

本次演讲将会介绍 ODL 场景下的一系列的关键技术,包括:超大稀疏模型训练/预测、秒级的模型热更新、实时训练模型校正、模型回退及样本回放、样本修复、实时训练弹性资源调度等等。

刘童璇: 阿里云智能计算平台事业部 PAI, 高级技术专家, 长期从事机器学习平台/深度学习引擎的研发,负责大规模稀疏模型的训练和预测优化,长期支持阿里搜索、推荐、广告等核心业务,负责阿里大规模稀疏模型训练框架 DeepRec、ODL。

Flink ML: 基于 Apache Flink 的实时机器学习

本次演讲主要分享在 Apache Flink 机器学习库 (Flink ML) 中已经完成的工作,近期的发展计划,以及 Flink ML 的发展愿景。

高赟: 阿里巴巴, 技术专家, 阿里巴巴技术专家,Apache Flink PMC/committer.

高赟博士毕业于中国科学院大学,加入阿里巴巴实时计算团队,主要从事 Flink Runtime / DataStream 方向的开发与改进。

张智鹏: 阿里巴巴, 高级算法工程师, Apache Flink committer.

张智鹏博士毕业于北京大学,主要从事分布式机器学习系统/算法相关的研究。毕业后加入阿里巴巴机器学习团队,主要从事 Flink 相关的机器学习开发与改进。

BladeDISC: 支持动态 Shape 的深度学习编译器实践

本次演讲主要介绍阿里云 PAI 团队以 BladeDISC 为中心,在动态 Shape 编译器上的工作,主要包括:BladeDISC 的主要架构、动态 Shape 带来的挑战、大粒度算子融合、计算密集型算子、以及 BladeDISC 在阿里云业务中的应用等。

邱侠斐: 阿里云计算有限公司, 高级技术专家, 阿里云 PAI 团队是负责阿里集团内部和外部 AI 基础设施的团队,模型系统优化一直是团队的重点技术方向之一。编译器作为系统优化的重要手段,经过内部多年的沉淀打磨,目前已经在 GitHub 开源(​ ​https://github.com/alibaba/Bl...​​)。

大数据分论坛

Flink Table Store:流式数仓架构与场景

Flink Table Store 是一个为流式数仓打造的流批统一的存储,用于在 Flink 中为流批处理建立动态表,支持实时流消费和实时 OLAP 查询。Flink Table Store 已经发布了第一个前瞻版本,但是缺少了生态和稳定性的不少工作。目前我们已经开始研发第二个版本,我们希望第二个版本能够带来更多的生产能力,通过此次分享你可以了解到我们通过加强哪些方面来提高存储的可靠性和生态。另外,我也会分享后续的架构,Service 版本,它如何达成统一的流仓的存储,它又解锁了哪些场景。

李劲松: 阿里巴巴, 技术专家, 目前就职于阿里云开源大数据,长期从事分布式流 / 批处理系统领域的工作,也对数据湖和 OLAP MPP 有一些研究。是 Apache Beam / Flink / Iceberg 的 Committer,对底层调度、通信机制、用户模型、SQL 流批计算、存储有一定了解。目前专注于 Flink Table Store 项目的开发,希望给 Flink 带来一个最适合的存储。

开源大数据 Studio: Dolphinscheduler + Notebook

对于大数据工程师来说,大数据作业的开发和调度通常是在不同的环境中进行的。需要在 IDE 中完成作业开发、调试后,再将代码 copy paste 或打包到调度工具中进行调度。一方面影响了开发效率,另一方面由于环境的差异导致调度时可能产生难以预知的问题。本演讲将介绍并演示如何采用开源的 ApacheDolphinscheduler 调度工具和 Apache Zeppelin 以及 Jupyter 两种 Notebook 组成大数据开发 Studio。数据平台团队适配好相关环境后,大数据/AI 工程师在线交互式开发/debug,并进行一键调度,无需再花费时间处理由于环境不一致导致的适配问题,极大地提高了大数据作业到开发效率和体验。演讲中所涉及的组件间整合代码已完全开源,欢迎下载体验。

高楚枫: 阿里云 EMR 数据开发团队, 基础平台开发工程师, 毕业于上海交通大学,Purdue University。ex-SDE@Amazon, Seattle。现任职于阿里云 EMR 数据开发团队。Apache Dolphinscheduler, Airflow, Zeppelin Contributor。对新型大数据开发平台感兴趣。

流处理分论坛

基于 Flink CDC 和 Hudi 高效地构建实时数据湖

数据库中的业务数据是最有价值的数据之一,如何有效地将这些数据高效地同步到数据湖中是一个非常有价值的主题。CDC(Change Data Capture)是用于从数据库中捕获变更的技术,Flink CDC 是实时数据集成框架的开源代表,具有全增量一体化、无锁读取、并发读取、分布式架构等技术优势,在开源社区中非常受欢迎。除了具备实时入湖入仓能力,Flink CDC 还支持强大的数据加工能力,可以通过 SQL 对数据库数据做实时关联、聚合、打宽等, 配合 Flink 丰富的下游生态可以将加工后的数据方便地写入 Kafka、Hudi、Iceberg 、Doris 等下游。

在本次分享中,首先会分享 Flink CDC 的无锁算法、并行读取、断点续传和分布式架构等核心设计和实现,并结合具体的业务场景,分享 Flink CDC 在不同场景中的应用,然后配合 demo 详细介绍如何基于 Flink CDC 和 Hudi 高效地完成实时数据湖构建。

徐榜江: 阿里云, 高级研发工程师, Apache Flink Committer & Flink CDC Maintainer, 专注在 Flink SQL,Flink CDC,数据集成领域,曾在国内外多次演讲和分享 Apache Flink, Flink CDC 相关技术。

基于数据湖格式构建流式增量数仓——CDC

随着数据湖格式的兴起和应用,如何在实际生产环境中更好的与现有大数据生态结合,解决当前大数据/数仓架构下的难点,是需要持续去探索和丰富的。该 topic 探讨在经典的数仓 CDC 场景下,如何将 Apache Hudi 和 Apache Spark 结合,实现 CDC 解决方案,来构建完整的流式增量数仓。

毕岩: 阿里云智能-计算平台事业部-开源大数据平台, 技术专家, 就职于阿里云计算平台开源大数据部门,专注于 Apache Spark、Hudi 等开源项目,及与阿里云 EMR 和 DLF 产品的集成。

想要了解大会全部议程,请点击:​ ​https://apachecon.com/acasia2...

ApacheCon Asia 2022 启动,7 场阿里云大数据 +AI 议题分享等你围观相关推荐

  1. 阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎...

    11月16日,阿里云大数据+AI技术沙龙,首站上海站取得圆满成功.我们邀请到阿里巴巴计算平台事业部 技术专家辛庸,辰山,抚月,诚历:高级技术专家铁杰,以及Intel软件工程师喻杉和大家进行分享交流. ...

  2. 【传智汇第十二期】大数据与机器学习,阿里云大数据技术专题分享会

    最早提出"大数据"时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:"数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于海量数据的挖掘和运用,预示着新 ...

  3. 阿里云大数据型实例规格族d1配置性能详解

    阿里云大数据型实例规格族d1配置性能CPU.内存.适用场景.d1实例规格族,InstanceTypes分享大数据型实例规格族d1实例详解: 大数据型实例规格族d1配置特性 I/O优化实例 仅支持SSD ...

  4. 直播 | 7.30 ApacheCon Asia 2022 IOT/IIOT专题,IoTDB PMC 乔嘉林担任出品人

    ApacheCon Asia 2022 将于7月29日至31日举行.Apache IoTDB PMC乔嘉林荣幸担任物联网(IOT)/工业物联网(IIOT)专题出品人.7月30日13:30-18:10, ...

  5. ApacheCon Asia 2022 开启报名:Pulsar 技术议题重磅亮相

    ApacheCon 是 Apache 软件基金会(ASF)的官方全球系列大会,作为久负盛名的开源盛宴,是开源界最具期待的大会之一. ApacheCon Asia 2022[1] 将于 7 月 29-3 ...

  6. [开学季]“当高校遇到大数据”濮阳职业技术学院阿里云大数据应用学院举行阿里云开学第一课...

    2018年11月14日下午,在濮阳职业技术学院阿里云大数据应用学院的103教室,阿里云大学吴兴华老师为同学们带来了一场以"当高校遇到大数据"为主题的阿里云开学第一课讲座. 在讲座正 ...

  7. 9大训练营免费开营!阿里云大数据团队的独门绝学全在这了

    简介:即日起,阿里云大数据训练营九营齐开!理论与实践,概念与案例,大数据从0到1上手学习,行业大神真人带练! 小白开发者不知道从哪里入门大数据? 入行不久对专业技能一知半解? 老板的新项目无力招架? ...

  8. 双11来临,阿里云大数据(数加)会出哪些绝招?

    双11来临,阿里云大数据(数加)会出哪些绝招? 双11电商 一年一度的"双11狂欢节"就要到了,眼看参加商家们都已经忙得不可开交:备货.营销.广告.预售......以往作战一般会历 ...

  9. 阿里云大数据三次技术突围:Greenplum、Hadoop和飞天

    对于企业来说,到底什么是云计算?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么? 云计算的三条发展路径及三种落地形态 当回到最初的起点再审 ...

最新文章

  1. phonegap 性能优化 以及 phonegap + Angularjs + ionic 移动 app 开发介绍
  2. VS2017创建Linux项目实现远程GDB调试
  3. Number()、parseInt()、parseFloat()的区别
  4. js-JavaScript高级程序设计学习笔记1
  5. 编程真可怕,我们日常都在写 Bug
  6. 产品研发过程管理专题——软件测试的设计与组织
  7. 华为综合实验——ISIS-BGP
  8. (切换多语言)vantUI+vue-i18n进行国际化配置及新增没有的语言包
  9. 受康奈尔笔记法启发设计的程序员算法手写本
  10. 写一篇靠谱的方案设计文档-之实践问题清单
  11. Chrome断点JS寻找淘宝签名sign
  12. 十九. 用户注册 --- 短信验证码实现 2021-04-16
  13. Brat中文标注工具的使用
  14. 51单片机PWM调速风扇转速显示转速设置
  15. java基本微信小程序的快递代收派送系统 uniapp小程序
  16. JDK1.7扩容时为什么会产生并发死链问题
  17. grafana+alertmanager 微信报警发送给不同告警人
  18. 春招大盘点:找工作除了招聘网站还有哪些渠道?
  19. 免杀远程监控软件大盘点
  20. android加固 app插件化,[求助]app被加固了,该怎么用xposed模块hook?

热门文章

  1. IO流实现写入规定的acci码值
  2. ORA-16032: parameter LOG_ARCHIVE_DEST_3 destination string cannot be translated
  3. HTML5游戏开发引擎
  4. idea mysql可视化_IntelliJ IDEA 内置数据库管理工具实战
  5. springboot 限制文件大小
  6. 计算机私密相册安全吗,一张照片竟能泄露这么多隐私?这个功能不可不知
  7. 贝叶斯统计推断_统计推断对决:频繁主义者与贝叶斯主义者
  8. DDIM原理及代码(Denoising diffusion implicit models)
  9. 100多个新媒体人实用网站
  10. unity blend 笔记