直播预告|数据湖实时化与智能化实践探索
2022年12月18日 9:00-12:50,由火山引擎云原生计算技术负责人李亚坤出品的 DataFunCon 2022 大会「实时与智能数据湖」专场将围绕数据湖技术的实时化与智能化展开深度分享。论坛全程直播,欢迎准时收看!
近年来,数据湖相关技术正在各大企业中得到越来越广泛的应用。数据湖技术优雅地解决了传统数仓场景下遇到的数据孤岛、数据不支持更新、不支持 ACID 事务、数据实效性差等核心问题。
在数据湖相关技术的发展中,实时化与智能化是当前的两个核心追求。其中,实时化可以让数据湖技术在数据产生后以最快的速度发挥价值,比如金融领域的实时风控、推荐场景的在线学习、企业内部实时运营(电商大屏,直播大屏等)。而智能化可以让数据湖技术在数据入湖,数据处理、数据出湖的各个阶段与周边生态更好地集成,让企业可以随心所欲地调动所有可调动的数据,用于报表、分析、搜索、建模、批流计算等业务场景。
2022年12月18日 9:00-12:50,由火山引擎云原生计算技术负责人李亚坤出品的 DataFunCon 2022 大会「实时与智能数据湖」专场全程直播,欢迎准时收看!
实时与智能数据湖论坛
议题简介
字节跳动湖平台在批计算和特征场景的实践
讲师:刘纬-火山引擎云原生计算研发工程师
时间:12月18日 9:05-9:50
议题简介:
随着业务的发展,字节跳动特征存储已到达 EB 级别,日均增量 PB 级别,每天训练资源量级为百万 Core。随之而来的是内部业务方对原始数据存储、特征回填需求、降低成本、提升速度等需求的期待。本次分享将围绕以上业务需求展开:
1. 字节跳动数据湖选型,Why Iceberg,如:元数据能力强、多版本快照、分布式扫描计划等;
2. 字节跳动基于 Iceberg 的改造实战,从而解决上述问题,如:自研 MOR 的 Backfill,数据维护,平台化等;
3. 未来规划,包括物化视图、Self-Optimize、数据冷热分层等。
听众收益:
1. 了解字节在海量特征存储过程中碰到怎样的挑战,以及怎么去解决的?
2. 了解如何基于 Iceberg,节省40%以上存储成本,提升训练速度?
3. 了解字节在 Iceberg 上后续的迭代演进路线是怎样的?
快手基于流批一体打造高效数据湖
讲师:钟靓-快手大数据架构工程师
时间:12月18日 9:50-10:35
议题简介:
快手在数据建设中,如何通过打造流批一体数据湖,来为业务增效。分享将围绕四点展开:
1. 数据湖的定义、特点,架构如何实现以及应用的意义;
2. 使用 Hudi 构建流批一体数据湖的过程中,遇到的挑战和解决方案;
3. 结合实际的应用场景,来分享快手数据湖的实践案例;
4. 快手数据湖的发展规划。
听众收益:
1. 如何通过 Hudi 构建流批一体数据湖?
2. 如何使用数据湖来为业务实现降本增效?
3. 如何使用数据湖来解决数仓建设中的痛点?
基于流存储与数据湖打造小红书流批统一存储
讲师:张亿皓-小红书数据平台部消息队列负责人
时间:12月18日 10:35-11:20
议题简介:
1. Lambda 架构与实时数仓开发痛点
2. 流批统一存储架构介绍
3. 流批统一存储应用实践
听众收益:
1. 为什么需要流批统一存储?
2. 数据开发同学能获得什么?
3. 如何与 OLAP 引擎结合提升分析速度?
数据湖查询引擎架构和实践
讲师:梁华欣-金山云大数据产品中心研发专家
时间:12月18日 11:20-12:05
议题简介:
0. 数据湖查询引擎架构
1. 查询引擎功能增强:
1.1 动态加载 CataLog
1.2 多维度确保服务稳定性
1.3 数据访问权限控制
2. 不同查询引擎对于数据湖查询的差异和解决方案
2.1 底层实现原理比较
2.2 具体实例分析和解决方案
3. 查询性能提升方案探索
听众收益:
通过数据湖查询架构案例,分享不同查询引擎在数据湖上的表现差异和解决方案。
Apache Doris 极速数据湖分析
讲师:陈明雨-Apache Doris PMC
时间:12月18日 12:05-12:50
议题简介:
Apache Doris 是一款基于 MPP 架构的开源分析型数据库。依托其强大的并行处理能力和高性能算子,可以在海量数据集上提供亚秒级的交互式查询体验。而近年来,随着数据湖技术飞速发展,越来越多的企业开始依托数据湖技术构建其基础数据的存储架构,并利用数据湖提供的批流一体,事务隔离和数据更新能力,沉淀了大量企业数据。本次分享中将介绍如何基于 Apache Doris 对数据湖中的数据进行快速分析,以及 Doris 在多源数据联邦查询方面的技术内幕。
1. Apache Doris 简介及核心功能一览
2. Apache Doris 数据湖分析技术内幕
3. 基于 Apache Doris 构建统一的多源数据分析系统
4. Apache Doris 数据湖方向后续规划
听众收益:
1. 如何进行 OLAP 数据库选项?
2. 如何基于 Apache Doris 构建统一数据分析?
直播时间
12月18日 9:00-12:50
参与方式
识别二维码,免费报名
直播预告|数据湖实时化与智能化实践探索相关推荐
- php主动推送弹幕_百万在线的美拍直播弹幕系统的实时推送技术实践之路
1.内容概述 1.jpg (30.13 KB, 下载次数: 321) 2 年前 上传 直播弹幕是直播系统的核心功能之一.如何迅速作出一个有很好扩展性的弹幕系统?如何应对业务迅速发展?相信很多工程师/架 ...
- 【数据湖加速篇】 —— 数据湖结构化数据优化与查询加速方案
简介: 近几年,数据湖架构的概念逐渐兴起,很多企业都在尝试构建数据湖.相比较大数据平台,数据湖在数据治理方面提出了更高的要求.对于数据湖场景所提出的新需求,"传统"的大数据工具在很 ...
- 【金猿人物展】有米云CTO蔡锐涛:DaaS崛起,企业应用数据呈现出场景化、智能化、一体化趋势...
蔡锐涛 本文由有米科技合伙人.有米云CTO蔡锐涛撰写并投递参与"数据猿年度金猿策划活动--2022大数据产业趋势人物榜单及奖项"评选. 数据智能产业创新服务媒体 --聚焦数智 · ...
- DLF +DDI 一站式数据湖构建与分析最佳实践
简介: 本文由阿里云数据湖构建 DLF 团队和 Databricks 数据洞察团队联合撰写,旨在帮助您更深入地了解阿里云数据湖构建(DLF)+Databricks 数据洞察(DDI)构建一站式云上数据 ...
- 数据湖是一种方法 数据湖的四个最佳实践
数据湖听起来很简单:把数据或信息汇集到一个结合处理速度和存储空间的大数据系统――Hadoop集群或内存解决方案,那样业务部门就能访问数据,获取新的洞察力.不过,与IT行业的许多技术一样,现实比梦想困难 ...
- DLF + DDI 一站式数据湖构建与分析最佳实践
数据湖技术圈 作者 陈鑫伟(熙康), 阿里云计算平台事业部技术专家 冯加亮(加亮), 阿里云计算平台事业部技术研发 1 背景 随着数据时代的不断发展,数据量爆发式增长,数据形式也变得更加多样.传 ...
- 数据湖 | DLF + DDI 一站式数据湖构建与分析最佳实践
作者 陈鑫伟(熙康), 阿里云计算平台事业部技术专家 冯加亮(加亮), 阿里云计算平台事业部技术研发 1 背景 随着数据时代的不断发展,数据量爆发式增长,数据形式也变得更加多样.传统数据仓库模式 ...
- Apache Hudi 在袋鼠云数据湖平台的设计与实践
在大数据处理中,实时数据分析是一个重要的需求.随着数据量的不断增长,对于实时分析的挑战也在不断加大,传统的批处理方式已经不能满足实时数据处理的需求,需要一种更加高效的技术来解决这个问题.Apache ...
- 数据湖存储格式Hudi原理与实践
今天给大家分享阿里云DLA团队技术专家李伟所做的分享<数据湖存储格式Hudi原理yu .pdf>,对数据湖及Apache Hudigan兴趣的伙伴别错过啦!(到省时查报告小程序中搜索&qu ...
最新文章
- 微信小程序----map组件实现(获取定位城市天气或者指定城市天气数据)
- find与findb
- mysql_select按照指定的格式输出到文件
- 避免让网站沦为摆设,从三个方面着手塑造!
- Oracle 默认时间格式 Date格式转换
- NetBeans 时事通讯(刊号 # 43 - Feb 03, 2009)
- 镗孔指令g76格式_数控车床螺纹切削指令G32,用途广泛,可分度车削多头螺纹
- RxJava:从未来到可观察
- intellij idea中解决java.lang.VerifyError: Expecting a stackmap frame at branch target的方法
- 前言_工作两年自我感触
- python利用faker,输出企业名称、用户名称、手机号、地址信息等测试数据实例
- 关于mono的编译与安装
- flask 上传头像
- 基于Java的连连看游戏设计与实现(含源文件)
- 人工智能--符号计算--笔记
- macbook pro(m1) 安装JD-GUI
- jQuery下载所有版本(实时更新……)
- python3 使用相对路径 import模块
- 计算机机房装修效果图,机房装修施工流程是什么? 机房装修效果图
- HashMap源码分析(深入理解HashMap)