随着数字化技术的更新迭代,数据库、数据仓库、数据湖等各种概念层出不穷,MPP数据库、Hadoop、对象存储、Hudi等各种数据技术不断涌现,湖仓一体概念逐步被人们所关注,在国际知名机构Gartner发布的《Hype Cycle for Data Management 2021》中,湖仓一体被正式纳入到技术成熟度曲线中。最近有很多朋友都在讲湖仓一体架构,那究竟什么是湖仓一体?本期金子就和大家聊聊湖仓一体的数据平台架构!

01 数据湖与数据仓库

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据存储系统,它主要存储的是结构化数据,历史数据通过抽取、转换、整合以及清理,并导入到目标表中,主要用于业务决策分析。

随着当前大量信息化发展和电子设备产品普及,产生大量的照片、视频、文档等非结构化数据,人们也想通过大数据技术找到这些数据的关系,所以设计了一个比数据仓库还要大的系统,可以把非结构化和结构化数据共同存储和做一些处理,这个系统叫做数据湖。

数据湖是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理,可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图片、音频、视频),以供机器学习、深度学习、统计分析等多种形式数据分析应用。

数据湖开放的数据存储结构给数据入湖带来了更大的灵活性,各种结构化、半结构化、非结构化的原始数据可以直接入湖。另外,开放存储给上层的计算引擎也带来了更多的灵活度,各种计算引擎需要遵循相当宽松的兼容性约定即可根据自己针对的场景随意读写数据湖中的数据。而数据仓库则更关注数据使用效率、数据的安全性和数据治理能力,这对企业的长远的成长性发展至关重要。

02 湖仓一体概念

湖仓一体是一种新型开放式架构,将数据湖和数据仓库的优势充分结合,它构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能。湖仓一体打通数据湖和数据仓库两套体系,让数据和计算在湖和仓之间自由流动,更能发挥出数据湖的灵活性,以及数据数据仓库的成长性。

但是湖仓一体≠数据湖+数据仓库,湖仓一体不等同于数据湖和数据仓简单打通,湖仓一体的构建需要解决以下三个关键问题:

  1. 湖和仓的数据/元数据在不需要用户人工干预的情况下,可以无缝打通、自由顺畅地流动;

  2. 系统根据特定的规则自动地将数据在湖仓之间进行缓存和移动,根据规则自动决定哪些数据放在数仓,哪些保留在数据湖,进而形成一体化;

  3. 湖和仓有统一的开发体验,存储在不同系统的数据,可以通过一个统一的开发/管理平台操作。

03 湖仓一体平台架构

基于开源生态的主流湖仓一体解决方案采用存储计算分离的架构,对象存储(OSS/S3/MinIO等)和Hadoop HDFS提供支持Apache hudi、Apache Iceberg等数据湖的数据存储机制,并通过Flink、Spark、Trino(原Presto)三个不同引擎进行相关数据处理和交互式查询,对外提供不同类型的服务。湖仓一体具体平台架构如下:

数据存储

数据存储支持OSS/S3/MinIO等对象存储和Hadoop HDFS,对象存储存储非结构化、原始数据、冷数据,提供高性价比,HDFS存储结构化数据,提供高性能存储。

使用Hudi/Iceberg作为数据存储中间层,能够基于HDFS、对象存储等底层存储,支持ACID语义、实现快速更新能力。

通过Alluxio进行数据缓存,加速Spark、Flink、Trino(原Presto)等计算引擎对数据湖的读写。

计算引擎

计算支持多引擎,Spark、Trino、Flink等均实现serverless化,跑在Kubernetes中,即开即用,满足不同查询场景,并通过Yarn进行统一资源访问/调度。

智能元数据

基于特定的规则,智能识别结构化、半结构化文件的元数据,构建数据目录,并转化成内置存储中的一个Hive表,统一进行元数据管理,提供类HiveMeta API针对不同计算引擎访问底层数据。

统一编程模型

Apache Beam作为统一的编程模型,提供统一的IDE,统一流和批,抽象出统一的API接口,并且生成的数据处理任务应该能够在各个计算引擎上执行,使得用户可以自由切换数据处理任务的执行引擎与执行环境。

金子说数据

聊聊数据技术,谈谈数据业务

8篇原创内容

公众号

湖仓一体数据平台架构相关推荐

  1. 湖上建仓全解析:如何打造湖仓一体数据平台 | DEEPNOVA技术荟系列公开课第四期

    如今,面对数字化快速发展带来的挑战,现代化企业需要打破以往数据的孤岛,让数据从采集.加工.管理到应用,是统一的数据存储和数据处理,甚至是作为全栈式的湖仓一体数据平台,以支撑各类数据赋能业务,进而创造更 ...

  2. 滴普科技完成B+轮融资,中航产融战略投资,聚焦湖仓一体数据智能基础软件...

    数据智能产业创新服务媒体 --聚焦数智 · 改变商业 近日,滴普科技完成B+轮融资,本轮融资由中航产融领投,部分头部老股东跟投,融资规模1.1亿.至此,滴普科技成长为新一代湖仓一体数据智能基础软件领域 ...

  3. Apache DolphinScheduler 助力 Trino 快速实现湖仓一体数据建设

    点亮 ⭐️ Star · 照亮开源之路 https://github.com/apache/dolphinscheduler 作者 | 钟嘉杰 Apache DolphinScheduler PMC ...

  4. 湖仓:数据湖与数据仓库的融合

     数据湖 & 数据仓库 数据,已经成为了企业的生命线与核心资产,数据管理和数据分析成为非常重要的应用领域.出于对数据管理领域的关注,不同行业也逐步提升了对数据存储.数据治理及数据分析能力的要求 ...

  5. 离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进

    简介:阿里云智能研究员 林伟 :阿里巴巴从湖到仓的演进给我们带来了湖仓一体的思考,使得湖的灵活性.数据种类丰富与仓的可成长性和企业级管理得到有机融合,这是阿里巴巴最佳实践的宝贵资产,是大数据的新一代架 ...

  6. 湖仓一体架构下的数据研发及管理

    随着数字经济的快速发展,数据业务化.数据要素化已成为企业发展新引擎,以云计算.大数据.人工智能等为代表的新技术迅速发展,"得数据者得天下"已成为一种共识.在数字时代,数据无疑是企业 ...

  7. 数据湖与数据仓库的新未来:阿里提出湖仓一体架构

    点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 作者: 关涛.李睿博.孙莉莉.张良模.贾扬清 (from 阿里云智能计算平台) 黄波. ...

  8. 大数据架构系列:如何理解湖仓一体?

    导语 | 本文推选自腾讯云开发者社区-[技思广益 · 腾讯技术人原创集]专栏.该专栏是腾讯云开发者社区为腾讯技术人与广泛开发者打造的分享交流窗口.栏目邀约腾讯技术人分享原创的技术积淀,与广泛开发者互启 ...

  9. 湖仓一体技术解读|实时对客释放全量数据价值

    巨杉数据库SequoiaDB从「多模数据湖」.「实时数据湖」发展到「湖仓一体」架构,为客户提供「数据核心」所需的全量数据存储,实时对客服务,及基于统一数据源的分析能力,充分激活客户的离线数据.当中,「 ...

  10. 下秒数据李元佳:湖仓一体带来现代数据栈变革

    嘉宾 | 李元佳  整理 | 王谟仕 出品 | CSDN云原生 2022年7月12日,在CSDN云原生系列在线峰会第13期"现代数据栈峰会"上,下秒数据联合创始人李元佳分享了现代数 ...

最新文章

  1. BCH矿池新格局,Coingeek矿池曾成为BCH算力最大的矿池
  2. [Shell 脚本] 备份数据库文件至OSS服务(纯shell脚本无sdk)
  3. C/C++难题的高赞回答「中文版」,帮你整理好了
  4. CentOS 6.8 上 MySQL-server 数据库安装失败
  5. zplane函数怎么用m文件调用_matlab中cla用法
  6. BAT批处理文件语法(转)
  7. 工作中常用的Linux命令(不断更新中)
  8. Quartus JIC 焼写
  9. win10自带录屏工具
  10. php直播平台原理,php直播平台源码的直播带货平台有何技巧,别说没告诉你
  11. win10MATLAB如何完全卸载,怎么完全卸载cad_win10彻底卸载cad的图文步骤-系统城
  12. Python爬虫入门教程 97-100 帮粉丝写Python爬虫之【shuan色球预测前置条件】
  13. 密码学的数学基础2-同余
  14. Travis CI 持续集成工具 教程
  15. 乘风领航、耀世创新——DEFI平台Lizard打造数字金融新世界
  16. 减法公式运算法则_减法的运算法则
  17. 12自由度六足机器人实现步态规划功能
  18. Plant Simulation仿真学习——关于仿真
  19. 魔百盒之小型家庭NAS
  20. 糖豆人显示此服务器正在进行游戏,糖豆人神仙服务器

热门文章

  1. pg数据库表存放在哪里_pg数据库系统表
  2. 前言:智能车制作的那些事
  3. vue 实现文字转语音
  4. plc应用与c语言编程区别,PLC编程与应用入门基础知识
  5. plc和c语言和cnc,cnc数控编程和plc编程哪个难学
  6. Linux基础知识点总结
  7. Go语言-测试与性能分析
  8. duet二重奏hp_二重奏Duet Game pc版|二重奏电脑版下载_v1.7_9号软件下载
  9. 华为数通笔记-DHCPv6原理与实验
  10. EMC测试项目——辐射骚扰