开源大数据:Iceberg新一代数据湖技术实践
数据湖三剑客
1、Iceberg 基本结构
1-1、Iceberg 表格式
Apache Iceberg是一种用于大型分析数据集的开放表格格式。Iceberg向Trino和Spark添加了使用高性能格式的表,其工作方式就像SQL表一样
2、Icebreg 核心
通过快照方式,在时间延续上记录表的所有变化
2-1、某个时间节点,表的所有数据文件列表
2-2、每次更新操作都生成新的快照
2-3、实现数据:原子性、读写分离、时间延续和回滚、增量消费
3、Icebreg 元数据管理
3-1、元数据:结构、分区信息、属性、快照记录
3-2、分成:HMS 或文件内容、元数据JSON、快照、数据文件
4、Icebreg 应用
4-1、优化导入流程:Icebreg 提供ACID 事务能力,读写分离,写入可见,不影响当前数据处理,简化ETL
4-2、多种分析引擎:优秀的内核便于适应各种特定引擎,目前支持:Spark、Trino、Flink、Presto、Hive。
4-3、统一存储:批任务和流任务可以使用相同的存储数据模型(文件系统、对象存储),数据不再孤立,支持隐藏分区和分区进化,方便业务进行数据分区策略,Parquet,ORC,Avro 列存储和行存储的兼顾。
4-4、增量处理能力:Icebreg 支持流式数据的落地和增量消费、Spark Structured Straming 适配,Flink sink .source适配
开源大数据:Iceberg新一代数据湖技术实践相关推荐
- 【BDTC 2016】专访三未信安鹿淑煜:大数据安全中的云密码技术实践
[CSDN现场报道]2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所.中科天玑数据科技股份有限公司与CSDN共同协办,以"聚焦 ...
- 数据湖技术 Iceberg 的探索与实践
随着大数据存储和处理需求的多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析成了企业构建大数据生态的一个重要方向.Netflix 发起的 Apache Iceberg 项目具备 AC ...
- 阿里云EMR 2.0:重新定义新一代开源大数据平台
摘要:本文整理自阿里云高级产品专家何源(荆杭)在 阿里云EMR2.0线上发布会 的分享.本篇内容主要分为三个部分: 开源大数据的痛点及EMR产品历程 EMR2.0 新特征 总结 一.开源大数据的痛点及 ...
- 大数据架构师——数据湖技术(二)
文章目录 数据湖技术 数据湖技术之Iceberg Spark 与 Iceberg 整合 1. Spark3.2.1 与 Iceberg0.13.2整合 添加依赖 Spark 设置 Catalog 配置 ...
- 基于EMR的新一代数据湖存储加速技术详解
摘要:本文整理自阿里云开源大数据平台数据湖存储团队孙大鹏在7月17日阿里云数据湖技术专场交流会的分享.本篇内容主要分为两个部分: 背景介绍 JindoData 数据湖存储解决方案 点击查看直播回放 背 ...
- 时下最热开源大数据技术TOP10
文章讲的是时下最热开源大数据技术TOP10,眼下大数据成为最热技术,并且呈现爆炸式增长.全世界的新项目雨后春笋般的出现.对于这些新的公司.项目来说,利好就是所有可用的技术是开放源代码的,直接采用. 海 ...
- 九种引人瞩目的开源大数据技术
1.Apache Hadoop Apache hadoop是一个开源的分布式计算框架,最初由Doug为支持其开源Web搜索引擎Nutch所创立.通过集成MapReduce技术,Hadoop将大数据分布 ...
- 程序员2016年2月:技术解析开源大数据构造
2015,开源大数据领域热闹非凡,在各大王牌开源框架不遗余力丰富各种特性和提高稳定性与性能的同时,不少后起之秀更是绞尽脑汁,奋起直追. HDFS & YARN,Hadoop老当益壮:谈到开源大 ...
- 大咖说·对话开源|与Tapdata论道数据技术开放生态
一个良好的开源生态具有哪些特征?开源与商业一定是对立的吗?开源产品应该如何做好商业化? 一个良好的开源生态具有哪些特征?开源与商业一定是对立的吗?开源产品应该如何做好商业化?本期大咖说,阿里云数据库开 ...
最新文章
- 浏览器前进后退对下拉框数据的丢失(省市联动实现和例子)
- 可视化经验分享 | 赠书
- javascript严格模式
- 通过索引优化含ORDER BY的MySQL语句
- python教程:读取.dcm文件,并转化为.jpg格式
- Luogu-P4768 (Kruskal重构树+最短路)
- linux下的进程信号,信号注册、处理方式、注销,信号阻塞及volatile代码优化
- (python)7-4 sdut-oop-1 简单的复数运算 (10 分)
- tomcat构建及session保持
- 分布式存储系统学习笔记(一)—什么是分布式系统(2)—数据分布
- Unity资源加载以及释放
- 业务需求分析师最重要的5项顶级技能
- js 内置对象常用方法
- 虚幻引擎UE4编辑器介绍
- ETOKEN 身份认证 电子证书
- python方差分析误差棒_一文讲透,带你学会用Python绘制带误差棒的柱状图和条形图...
- 用MapReduce统计微博的粉丝数,加上博主的昵称
- Python之列表(学习笔记)
- 详解手游平台搭建需要哪些条件?需要注意什么?
- linux trac svn,RedHat Linux5下apache+svn+trac配置手册(二)
热门文章
- shell 结束指定端口
- linux下tar压缩使用
- 利用OpenCV实现——目标跟踪方法(一)
- mongodb 字符串转bson_大数据存储技术选型(六)--Mongodb专题介绍
- 时间日期、查找、压缩类
- 从三大方面全面解析物联网卡
- 工业物联网卡未来发展的优势和特点
- 最流行的轻量级php框架,GitHub - meolu/zan: zan 轻量级PHP微框架
- 服务器架构设计文档,架构设计文档
- windows找不到文件gpedit.msc_u盘插入电脑在windows却找不到u盘的解决办法【详解】...