目录

引言

Iceberg官网定义

Iceberg数据结构

与其他数据湖产品对比

参考文章


引言

 Apache Iceberg作为一款新兴的数据湖解决方案在实现上高度抽象,在存储上能够对接当前主流的HDFS,S3文件系统并且支持多种文件存储格式,例如Parquet、ORC、AVRO。相较于Hudi、Delta与Spark的强耦合,Iceberg可以与多种计算引擎对接,目前社区已经支持Spark读写Iceberg、Impala/Hive查询Iceberg。本文基于Apache Iceberg 0.10.0,介绍Iceberg文件的组织方式以及不同文件的存储格式。

Iceberg官网定义

Iceberg是一个通用的表格式(数据组织格式),它可以适配Presto,Spark等引擎提供高性能的读写和元数据管理功能。

从Iceberg的定义中不难看出,这类技术它的定位是在计算引擎之下,又在存储之上。同时,它也是一种数据存储格式,Iceberg则称其为"table format"。因此,这类技术可以看作介于计算引擎和数据存储格式中间的数据组织格式,通过特定的方式将数据和元数据组织起来,所以称之为数据组织格式更为合理,而Iceberg将其定义为表格式也直观地反映出了它的定位和功能。

Iceberg数据结构

与其他数据湖产品对比

参考文章

iceberg数据存储格式 - 奇葩兔子 - 博客园

大数据时代,数据湖技术Apache Iceberg的前世今生

数据湖09:开源框架DeltaLake、Hudi、Iceberg深度对比_YoungerChina的博客-CSDN博客_开源数据湖

Apache Iceberg理解和应用相关推荐

  1. 数据湖08:Apache Iceberg原理和功能介绍

    系列专题:数据湖系列文章 在使用不同的引擎进行大数据计算时,需要将数据根据计算引擎进行适配.这是一个相当棘手的问题,为此出现了一种新的解决方案:介于上层计算引擎和底层存储格式之间的一个中间层.这个中间 ...

  2. Apache Iceberg小文件处理和读数流程分析

    点击上方蓝色字体,选择"设为星标" 回复"面试"获取更多惊喜 全网最全大数据面试提升手册! 第一部分:Spark读取Iceberg流程分析 这个部分我们分析常规 ...

  3. Apache Iceberg技术调研在各大公司的实践应用大总结

    作者在实际工作中调研了Iceberg的一些优缺点和在各大厂的应用,总结在下面.希望能给大家带来一些启示. 随着大数据存储和处理需求越来越多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据 ...

  4. Apache Iceberg 快速入门

    导言 本文主要介绍如何快速的通过Spark访问 Iceberg table. 如果想及时了解Spark.Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop Spar ...

  5. Apache Iceberg 你需要知道的原理与技术

    实时数据仓库的发展.架构和趋势 这篇文章从实时数仓开始讲到批流一体,谈了谈对大数据架构体系发展趋势的看法.文章最后讲到了基于数据湖Iceberg实现的存储层统一方案,以及要实现此方案Iceberg需要 ...

  6. Apache Iceberg 数据湖从入门到放弃(2) —— 初步入门

    在介绍如何使用Iceberg之前,先简单地介绍一下Iceberg catalog的概念.catalog是Iceberg对表进行管理(create.drop.rename等)的一个组件.目前Iceber ...

  7. Apache iceberg:Netflix 数据仓库的基石

    Apache Iceberg 是一种用于跟踪超大规模表的新格式,是专门为对象存储(如S3)而设计的. 本文将介绍为什么 Netflix 需要构建 Iceberg,Apache Iceberg 的高层次 ...

  8. Apache Iceberg核心原理分析文件存储及数据写入流程

    点击上方蓝色字体,选择"设为星标" 回复"面试"获取更多惊喜 全网最全大数据面试提升手册! 第一部分:Iceberg文件存储格式 Apache Iceberg作 ...

  9. Apache Iceberg 分区表探索与实践

    组件版本 组件 版本 Apache Iceberg 0.11 Apache Hive 2.1.0 Apache Spark 3.0 Apache Flink 1.11 文章目录 简介 测试分区表功能 ...

最新文章

  1. python ftp文件传输服务端
  2. Log4Net 使用 FileAppender (log4net 1.2.10.0)
  3. mapreduce编程规范_大数据之MapReduce详解
  4. 太酷了!龙族幻想时装制作的秘密都在这里了!
  5. linux socket通信组件,Linux下socket简单通信
  6. 链接聚合是将一组物理接口_如何增加带宽,提升网络可靠性?
  7. 数据库连接软件SQLyog 13.1.7 免费下载安装
  8. 快手火山抖音视频怎么快速去重消重和去水印秒拍视频批量采集下载怎么快速去重消重去水印视频批量采...
  9. Android Camera HAL3 - 开篇词
  10. APP开发者常用的4种推广渠道
  11. shell脚本清理网宿cdn缓存
  12. 苹果App Store最新应用审核标准
  13. [js插件开发教程]定制一个手风琴插件(accordion)
  14. Quartus中jtagserver找不到指定文件的解决方法
  15. react 中子路由(route)或二级路由如何配置?
  16. C++实现快速打印乘法口诀表
  17. html radio 默认选中
  18. GPS Ublox配置
  19. 【​观察】六脉神剑第六式-管家式之面面俱到
  20. Ubuntu下Python使用指南

热门文章

  1. Ubuntu 20.04.4 LTS关闭命令行终端的提示铃声
  2. http协议跟服务器交互,基于HTTP协议的客户端与服务器之间的数据交互方法专利_专利查询 - 天眼查...
  3. c语言编程打不了字,c语言编程中,怎么打汉字啊??我是新手啊~~
  4. 【技术手册】Java 开发者必备手册《Spring Cloud Alibaba 从入门到实战》
  5. [Go] MAC Go环境配置
  6. 工作时心态崩了该怎么处理?
  7. Hisilicon Camera 系列芯片介绍
  8. 一种工厂内人车防撞解决方案
  9. 收购VMware之后,WaveMaker Drop Enterprise Edition
  10. WaveMaker 快速开发工具