湖仓模式在实施过程中存在一个严重的矛盾:虽然数据湖是开放的,但湖仓却不是。

作者 | Cloudera首席技术官Ram Venkatesh、Cloudera 产品管理副总裁 Priyank Patel

供稿 | Cloudera

Cloudera 客户运行着地球上最大的一些数据湖。这些湖为关键任务大规模数据分析、商业智能 (BI) 和机器学习用例,包括企业数据仓库,提供动力。近年来,创造了“数据湖仓”一词来描述这种对数据湖中的数据进行表分析的架构模式。在匆匆奔向这个术语的过程中,许多厂商忽略了这样一个事实,即数据架构的开放性是其持久性和长盛不衰的保证。

关于数据仓库和数据湖

数据湖和数据仓库将海量的各种类型数据统一到一个中心位置。但是有着截然不同的架构世界观。数仓是为SQL 分析垂直集成的,而数据湖优先考虑 SQL 之外的分析方法的灵活性。

为了能兼得鱼与熊掌——数据湖中分析的灵活性和数仓中简单快速的 SQL,企业经常部署数据湖来补充他们的数仓,在数据提取、转换、加载 (ETL) 或 ELT 管道的最后一步让数据湖为数仓系统提供数据。在这样做的过程中,他们等于接受了数据在仓库中的锁定。

但可以有一个更好的方法:用 Hive 元存储,这是过去十年数据平台一个出人意料的好产品。随着用例的成熟,我们看到高效的交互式 BI 分析和事务语义来修改数据的需求。

数据湖仓的迭代

第一代 Hive元存储试图解决在数据湖上高效运行 SQL 的性能考虑。它提供了数据库、模式和表的概念,用于描述数据湖的结构,让 BI 工具可以有效地充分使用数据。它添加了描述数据逻辑和物理布局的元数据,支持基于成本的优化器、动态分区裁剪以及针对 SQL 分析的一些关键性能改进。

第二代 Hive元存储添加了对使用 Hive ACID 的事务更新的支持。数据湖仓虽然尚未正式命名,但已开始热闹。事务性启用了持续摄取和插入/更新/删除(或合并)的用例,从而打开了数仓样式的查询、功能以及从其他数仓系统到数据湖的迁移。这对我们的许多客户来说非常有价值。

Delta Lake项目采用不同的方法来解决这个问题。Delta Lake为数据湖中的数据添加了事务支持。可以进行数据策管,为数据湖带来了运行数仓式分析的可能性。

渐渐的在某个时刻,“数据湖仓”这个词因为这种架构模式而被造出来了。我们相信湖仓是简洁地定义这种模式的好方法,并很快在客户和行业中获得了共识。

开放数据湖仓满足互操作性需求

在过去几年中,随着新数据类型的诞生和新的数据处理引擎的出现,为了简化分析,企业所期望的两全其美真的需要分析引擎的灵活性。如果企业海量有价值的数据需要被管理,那么企业必须能够开放的选择不同的分析引擎,甚至是供应商。

湖仓模式在实施过程中存在一个严重的矛盾:虽然数据湖是开放的,但湖仓却不是。

在能够添加 Impala、Spark 等引擎之前,Hive元存储一直遵循 Hive为先的演进。Delta lake是Spark为主的演进;如果客户想要自由选择不同的引擎而不只是表格式,他们的选择极为有限。

客户从一开始就要求更多。更多格式、更多引擎、更多互操作性。今天,Hive 元存储被多个引擎和多个存储选项使用。除了 Hive 和 Spark,还有 Presto、Impala 等等。Hive元存储是有机地演进支持这些用例,因此集成通常很复杂且容易出错。

为满足互操作性需求而设计的开放数据湖仓从根本上解决了这一架构问题。它会让那些全押在一个平台上的人感到不安,但社区驱动的创新能帮助解决现实世界的问题,以务实的方式帮助使用同类最佳工具,并克服供应商的锁定。

开放湖仓Apache Iceberg的诞生

Apache Iceberg 从一开始构建时,其目标就是在多个分析引擎在云原生规模上轻松实现互操作。这项创新的诞生之地 Netflix 需要将 100 PB 规模的 S3 数据湖构建到数仓中,这可能是最佳示例了。云原生表格式由其创建者开源到 Apache Iceberg 中。

Apache Iceberg 真正的超级力量是它的社区。在过去三年中,Apache Iceberg 社区有机地蓬勃发展,增加了一系列令人赞叹的优异集成:

  • 数据处理和 SQL 引擎 Hive、Impala、Spark、PrestoDB、Trino、Flink
  • 多种文件格式:Parquet、AVRO、ORC
  • 社区中的大型采用者:Apple、LinkedIn、Adobe、Netflix、Expedia 等
  • AWS Athena、Cloudera、EMR、Snowflake、腾讯、阿里巴巴、Dremio、Starburst 的托管服务

使这个多样化的社区蓬勃发展的原因是数千家公司的集体需求,以确保数据湖可以演变为包含数据仓库,同时保持跨引擎的分析灵活性和开放性。这使得开放式湖仓成为可能:为未来提供无限的分析灵活性。

Cloudera拥抱Iceberg模式

在 Cloudera,我们为我们的开源根基感到自豪,并致力于社区贡献。自 2021 年以来,我们为日益壮大的 Iceberg 社区在 Impala、Hive、Spark 和 Iceberg 上做出了数百项贡献。我们扩展了 Hive 元存储将集成添加到我们的许多开源引擎中以充分利用 Iceberg 表。2022 年初,我们在 Cloudera Data Platform (CDP) 中提供了 Apache Iceberg 的技术预览,使 Cloudera 客户能够在我们的数据仓库、数据工程和机器学习服务中实现 Iceberg 的模式和时间旅行能力。

我们的客户一直告诉我们,无论是现代 BI、AI/ML、数据科学还是更多,分析需求都在迅速发展。选择由 Apache Iceberg 提供支持的开放数据湖仓让企业可以自由选择分析。

Cloudera:开放式数据湖仓,释放数据分析潜力相关推荐

  1. 基于Delta Lake构建数据湖仓体系

    直播回放地址:https://developer.aliyun.com/live/249789 导读: 今天很高兴能与大家分享如何通过 Delta Lake 构建湖仓架构. 全文将围绕以下四个部分展开 ...

  2. 如何快速构建企业级数据湖仓?

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 本文整理自火山引擎开发者社区技术大讲堂第四期演讲,主要介绍了数据湖仓开源趋势.火山引擎 EMR 的架构及特点,以及 ...

  3. 数据平台发展史-从数据仓库数据湖到数据湖仓

    数据平台发展史-从数据仓库数据湖到数据湖仓 做数据的同学经常听到一些数据相关的术语,常见的包括数据仓库,逻辑数据仓库,数据湖,数据湖仓/湖仓一体,数据网格 data mesh,数据编织 data fa ...

  4. 数据仓库如何实现湖仓一体数据分析?

    简介:随着云计算的普及和数据分析需求的扩大,数据湖+数据仓库的湖仓一体分析能力成为下一代数据分析系统的核心能力.相对于数据仓库,数据湖在成本.灵活性.多源数据分析等多方面,都有着非常明显的优势.IDC ...

  5. 如何通过数据仓库实现湖仓一体数据分析?

    // 一.背景 随着云计算的普及和数据分析需求的扩大,数据湖+数据仓库的湖仓一体分析能力成为下一代数据分析系统的核心能力.相对于数据仓库,数据湖在成本.灵活性.多源数据分析等多方面,都有着非常明显的优 ...

  6. 湖仓一体架构下的数据研发及管理

    随着数字经济的快速发展,数据业务化.数据要素化已成为企业发展新引擎,以云计算.大数据.人工智能等为代表的新技术迅速发展,"得数据者得天下"已成为一种共识.在数字时代,数据无疑是企业 ...

  7. 一文读懂数据仓库、数据湖、湖仓一体

    目录 1.数据仓库 数据仓库的特征 2.数据湖 数据湖的特征 数据仓库和数据湖的对比 3.湖仓一体 湖仓一体的特征 湖仓一体的优势 智能湖仓 数据仓库.数据湖.湖仓一体对比 1.数据仓库 数据仓库,英 ...

  8. Apache DolphinScheduler 助力 Trino 快速实现湖仓一体数据建设

    点亮 ⭐️ Star · 照亮开源之路 https://github.com/apache/dolphinscheduler 作者 | 钟嘉杰 Apache DolphinScheduler PMC ...

  9. 震惊!这篇文章解读数据仓库、数据湖、数据中台等概念,竟然写了4万字!

    点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天 ...

  10. 4万字 全面解读数据中台、数据仓库、数据湖等概念!建议收藏!

    作者丨修鹏李 建议阅读需50分钟 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生.这些数据需要被存储起来并且能够被方便 ...

最新文章

  1. vscode出现磁盘路径大小写问题_vscode下python使用相对路径失败问题
  2. 用SPSS进行单样本T检验(One -Sample T Test)
  3. Tensorflow安装问题解决(Anoconda)
  4. py2exe for python3_使用Py2Exe for Python3创建自己的exe程序
  5. cv岗工作做什么_职场速递:我应该做什么工作?
  6. 谷歌浏览器手势_分享一些日常手势[狗头]
  7. 《5》CentOS7.0+OpenStack+kvm云平台的部署—组态Horizon
  8. cornerstone 库删除 后 重新添加 ,引用找不到,
  9. 获取Linux命令源代码的方法【ZT】
  10. appium 切换native/ webview,findby,还有页面元素定位一直小于0的问题的解决
  11. python使用redis做缓存_python实现类redis缓存
  12. guava 集合上 三
  13. pandas小记:pandas数据结构和基本操作
  14. ie浏览器修复_微软IE浏览器曝零日漏洞:一个老文件格式,可致系统文件遭窃...
  15. 前端页面img标签图片显示发生错误或者没有图片都显示默认的图片
  16. 杜比、DTS、PCM、A-C3、THX、SDDS音效介绍(转贴)
  17. 技术分享 | 如何计算 MySQL 的 QPS/TPS
  18. 辽宁启迪电商:拼多多店铺推广收费标准是什么?
  19. 无监督聚类算法该如何评价
  20. html日历表样式写法,css+html实现简单的日历

热门文章

  1. idea破解(到2100年)
  2. 神经网络参数优化算法,神经网络损失函数设计
  3. 修复鹏城开发者云硬盘扩容报错 fdisk: cannot write disk label: Invalid argument
  4. 教师使用计算机的能力提升,计算机专业教师教学能力提升途径
  5. 松下plcgr7安装序列号_向上一阶段跃进,松下 SZ5/SX2 对比、体验与心得
  6. 电脑录屏软件哪个好用,分享4款电脑录制视频清晰软件
  7. 为什么程序员不应该在同一家公司待太久?
  8. Ubuntu20.04 解决双显卡黑屏、花屏、HDMI失效、亮度调节失效
  9. #SAP论坛•上海# 报名启动
  10. 在Xcode8中使用Swift2.3