概述

Delta商业版功能相对完善, 是由Databricks主推其他计算引擎的优先级是弱于Spark的并且付费, 社区版是商业版的简化, 功能支持没有商业版完善, 适合Spark为核心技术组件的公司.
Hudi同样紧耦合Spark功能相对比较完善,但是扩展性比较差, 使用其他计算引擎的话开发工作量较大. 适合Spark为核心技术组件的公司.
Iceberg设计之初就是定位于提供一个开放可扩展的表格式, 因此扩展性最好, 不和任何计算引擎强耦合.对Flink的支持度相对完善.目前缺少小文件合并功能, 在upsert的支持度的上代码可用,但是FlinkSQL方式还有些BUG. 目前社区正高优先级解决.

设计初衷

Iceberg: 高性能, 可扩展的分析与可靠的数据管理 Hudi: 使hadoop具备增量数据的upserts特性 Delta: 定位于流批一体的数据处理 虽然设计初衷不同,但是随着组件的推广使用, 各个组件都在补齐最近的短板.

计算框架耦合度

Delta, Hudi和Spark耦合较紧. Iceberg侧重于定义一个标准、开放且通用的数据组织格式, 不和某一计算框架耦合较紧.

Schema 变更支持和设计

|Schema演进 (Schema Evolution) | 是否有自定义的Schema --| --| -- Iceberg | all | 是 Hudi | back-compitable | 否(复用spark-shema) Delta | all | 否(复用spark-shema)

PS: Schema演进 表结构变更

  • Add - 在表中或是在嵌套结构中新增column
  • Drop - 在表中或是在嵌套结构中移除已有的column
  • Rename - 在表中或是在嵌套结构中修改column的名字
  • Update - 提升数据的类型,支持column,struct field,map key,map value和list中的元素
  • Reorder - 调整表中说是嵌套结构中的column顺序 Hudi 仅支持添加可选列和删除列这种向后兼容的 DDL 操作 Iceberg还额外提供 Partition Evolution, Iceberg可以在已有的表上更改分区, 并且该过程是一个操作元数据的过程, 不涉及表数据移动. 因为查询语句并不直接引用分区值.

并发控制及数据变更

并发控制机制 数据变更方式
Iceberg 乐观锁
Hudi 乐观锁
Delta 乐观锁/MVCC

PS1: 并发控制

多版本并发控制(MVCC)是一种用来解决读-写冲突的无锁并发控制,也就是为事务分配单向增长的时间戳,为每个修改保存一个版本,版本与事务时间戳关联,读操作只读该事务开始前的数据库的快照。 这样在读操作不用阻塞写操作,写操作不用阻塞读操作的同时,避免了脏读和不可重复读 乐观并发控制(OCC)是一种用来解决写-写冲突的无锁并发控制,认为事务间争用没有那么多,所以先进行修改,在提交事务前,检查一下事务开始后,有没有新提交改变,如果没有就提交,如果有就放弃并重试。乐观并发控制类似自选锁。乐观并发控制适用于低数据争用,写冲突比较少的环境

PS2: COW(Copy On Write), MOR(Merge On Read)

在实时场景下, 行级(Row-level)的更新删除,通常有两种方案,及写时复制(COW)和读时合并(MOR). 其中写时复制(COW)在方式在写文件的时候就做了数据合并,因此写入数据的压力比较大, 对读数据比较友好. 适合大量读的场景, 实时性较低. 而读时合并(MOR)则是在读数据的时候合并, 写入是数据采用append的方式,适合快速写入的场景, 实时性较高.

接口抽象程度和插件化

| 写计算引擎是否可插拔 |读计算引擎是否可插拔 |数据存储组件是否可插拔 |文件格式是否可选 --|--|--|--|-- Iceberg | 是 |是 |是 |是 Hudi | 否(绑定了spark) |是 | 是 |是 Delta | 否(绑定了spark) |是 |是 |是

Iceberg 是抽象程度做得最好的数据湖方案, 做了非常干净的解耦.

事物支持(ACID)和隔离级别支持

| 是否支持事务 | 隔离级别 | 是否支持数据回溯回滚(Time travel) --|--|--|-- Iceberg | 是 | Write Serialization | 是 Hudi | 是 | Snapshot Isolation | 是 Delta | 是 | Serialization
Write Serialization
Snapshot Isolation | 是

PS1: 事物的四个特性:

原子性: Atomicity, 一致性: Consistency, 隔离性: Isolation, 持久性: Durability

PS2: 隔离级别含义

  1. Serialization: 所有的读写操作必须串行
  2. Write Serialization: 写操作之间必须穿行, 读写操作之间可以并行
  3. Snapshot Isolation: 写操作无交集则可并行,否则串行. 读写操作之间可以并行 Snapshot Isolation 的隔离级别对并发性的支持相对较好

    PS3: 数据回溯回滚(Time travel)

    用户查询具体时间点的数据快照或者回滚错误的数据更新

Delta, Hudi, Iceberg对比相关推荐

  1. 数据湖三剑客 Hudi、Delta、Iceberg 对比

    一.介绍 在构建数据湖时,也许没有比数据格式存储更具有意义的决定.其结果将对其性能.可用性和兼容性产生直接影响. 通过简单地改变数据的存储格式,我们就可以解锁新的功能,提高整个系统的性能,这很有启发意 ...

  2. 开源数据湖方案选型:Hudi、Delta、Iceberg深度对比

    文章目录 前言: 共同点 一.Databricks 和 Delta 1.1.Delta的意图,解决的疼点 1.没有 Delta 数据湖之前存在的问题 : 二.Uber和Apache Hudi 三.Ne ...

  3. delta对冲策略_期权的Delta对冲策略对比分析

    保护性卖权策略是一种比较简单的避险策略,它是指投资者期初在购买股票的同时,直接购买欧式卖权的保险策略.由于目前我国没有场内期权市场,因此保护性卖权无法实施,不过通过期权复制的思想可以间接实施该策略. ...

  4. 数据湖Iceberg | 实时数据仓库的发展、架构和趋势

    数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设.但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索 ...

  5. 大数据架构选型与设计

    大数据架构选型与设计 1.1 如何构建大数据平台? 1.1.1 数据库与ER建模 1.1.1.1 数据库(DataBase) 数据库是按照数据结构来组织.存储和管理数据的仓库,是一个长期存储在计算机内 ...

  6. 看这篇就明白大数据实时数仓、离线数仓、数据湖之间的关系

    数仓架构演变 20世纪70年代,MIT(麻省理工)的研究员致力于研究一种优化的技术架构,该架构试图将业务处理系统和分析系统分开,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计原则 ...

  7. 离线数仓与实时数仓的比较

    01数仓架构演变 20世纪70年代,MIT(麻省理工)的研究员致力于研究一种优化的技术架构,该架构试图将业务处理系统和分析系统分开,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计 ...

  8. 离线数仓和实时数仓的区别

    作者介绍 @车云祥 大宇无限  数据产品负责人 主要负责全公司底层数据治理,构建统一指标体系: 主导 BI 系统.用户画像系统.广告投放平台.广告流量优化等设计工作: 推动 Snaptube.Lark ...

  9. 基于Delta lake、Hudi格式的湖仓一体方案

    简介:Delta Lake 和 Hudi 是流行的开放格式的存储层,为数据湖同时提供流式和批处理的操作,这允许我们在数据湖上直接运行 BI 等应用,让数据分析师可以即时查询新的实时数据,从而对您的业务 ...

最新文章

  1. 数据导出Excel表格
  2. GitHub日收7000星,Windows计算器项目开源即爆红!
  3. linux cmake 多线程 错误 undefined reference to 'pthread_create'
  4. linux 搭建开发stm32 stlink,Ubuntu下搭建stm32+stlink的开发环境
  5. Python:langdetect和langid检测语言类型
  6. linux修改文件句柄数生效_linux系统层面调优和常见的面试题
  7. 使用工具ngrok 实现内网穿透(免费)
  8. Asp.net MVC中如何获取控制器的名称
  9. UI设计灵感|插画在App设计中有哪些常用方式?
  10. MongoDB在windows下安装和配置
  11. Samba 3.4.0 发布
  12. Oracle数据库使用Navicat premium创建用户时遇到的坑
  13. [linux]远程kill进程
  14. Postfix 邮件队列删除
  15. spring mvc Cotroller获取请求参数
  16. win10计算机系统优化设置,win10最详细优化设置 win10全面优化教程
  17. 5个免费可商用的图片素材网站,赶快收藏
  18. virtual reality(虚拟现实)
  19. 二维码图像编码原理(字符编码:ASCII、UTF-8)
  20. DOS命令经典应用复习

热门文章

  1. Apache Zeppelin安装和启动
  2. QT 关于颜色的总结
  3. java8判断当前时间是否大于某个时间
  4. exception java_总结java的exception
  5. VMware虚拟机与物理机网络互通
  6. 设计模式:访问者模式-vistor
  7. 设计模型之Visitor模式-图书馆管理系统应用C++实现
  8. switch语句(C++)
  9. Kaggle教程 机器学习中级7 Data Leakage
  10. PostgreSQL 杀会话