整理不易,转发请注明出处,请勿直接剽窃!
点赞、关注、不迷路!

摘要:了解每一代数据存储的定义、数据类型、功能、总结。

第一代:数据仓库

定义

为解决数据库面对数据分析的不足,孕育出新一类产品数据仓库。数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和信息的全局共享。

数据类型

结构化数据

功能

数据仓库对于数据的处理可分为数据集成(装载)、数据加工(ETL)、数据汇聚、数据展示及挖掘。数据经过这一过程,被抽取到数据仓库中,并严格按照预先定义的模式被装载进来,经过多层加工形成数据集市,并最终提供给终端应用或进一步供挖掘使用,主要场景包括编制报表、发布下游数据集市(Data Marts),以及支持自助式商业智能等。

数据仓库中,数据存储的结构与其定义的schema是强匹配的,也就是先建模再使用,简单点说,数据仓库就像是一个大型图书馆,里面的数据需要按照规范放好,你可以按照类别找到想要的信息,存储在仓库中都是结构化数据,可以直接消费。

第二代:数据湖

定义

随着数据规模扩大,对数据承载能力(容量、算力)的要求也不断增大,数仓架构的扩展能力面临考验,规模的扩展会面临大量资源的投入,但硬件资源缺乏弹性,会导致高峰时资源不足,低谷时资源闲置浪费问题。
数据湖通常更大,存储成本也更为廉价。结合先进的数据科学与机器学习技术,能提供预测分析、推荐模型等能力。

数据类型

结构化数据、半结构化、非结构化数据。可以存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据

功能

数据湖存储其中的数据不需要满足特定的schema,数据湖也不会尝试去将特定的schema施行其上,任何格式的数据都可以扔进数据湖。数据使用通常会在读取数据的时候解析schema(schema-on-read),当处理相应的数据时,将转换施加其上,也就是说,数据湖对于入湖的数据不做任何规范,只有在于使用时才定义存储格式以便分析使用

第三代:湖仓一体

定义

将数据湖和数据仓库技术合二为一 ,在用于数据湖的低成本存储上,实现与数据仓库中类似的数据结构和数据管理功能。

数据类型

和数据湖一样

功能

类似于在湖边搭建了很多小房子,有的负责数据分析,有的运转机器学习,有的来检索音视频等,至于那些数据源流,都可以从数据湖里轻松获取。

前三代的特点和问题

特点

数据仓库,数据湖还是湖仓一体,它们都有一个共同的范式,就是以数据物理集中化为原则的、中心式,单体式的架构。
目的打破数据孤岛。

第一、统一采集企业的所有数据到一个数据平台。
第二、统一对数据进行清洗、转化、处理及分析。
第三、统一对外提供数据服务,包括数据集、API等等。

问题

1.对各类数据进行采集的响应能力变弱,企业拥有越多来源的数据,集中化管理的压力就越大
2.批处理方式很容易造成数据延迟、不一致的现象,这影响到了下游应用的准确性。
3.各类数据处理分析速度难以匹配大量应用需求,各个领域想尽办法另起炉灶。
4.集中化平台上的数据工程师对各领域的来源数据缺乏了解,也缺乏领域专业知识,越来越难以满足各领域的数据消费需求。

数据网格

定义

数据网格是一种去中心化的数据体系结构,按特定业务领域(例如营销、销售、客户服务等)来组织数据,为给定数据集的生产者提供更多所有权。但并不一定意味着您不能使用传统的存储系统,如数据湖或数据仓库。这只是意味着它们的使用已经从单一的集中式数据平台转变为多个去中心化的数据存储库。
原则:按领域对数据的所有权和架构去中心化、数据即产品、自助式数据基础设施及联邦式计算治理。

数据类型

使用数据湖或数据仓库的数据类型

功能

更好的扩展性,新的数据源或新的数据消费者只意味着添加一个新的域(数据产品),而不是重新访问整个数据湖(访问域的api即可)。
构建一个按域划分的数据架构,每个域可以公开一个或多个操作型 API,以及一个或多个数据API对外服务

数据共享在传统集中化的数据平台做过了头,在各领域数据支撑上力不从心,数据网格希望采用分布式的架构来解决集中化和灵活性的矛盾,让数据所有权回归领域,但需要承担对外数据服务的义务。

总结

数据网格是一种架构和组织范式,它挑战了我们的传统观念 , 即必须将大量的可分析数据集中起来才能使用,将数据放在一起或让专门的数据团队来维护。数据网格认为,为了推动大数据创新,领域必须是数据的所有者并将数据作为产品以提供服务(在自助数据平台的支持下,抽象数据产品服务所涉及的技术复杂性),还必须通过自动化的方式实现一种新的联合治理形式,以支持面向领域的数据产品间的互操作性、去中心化、互操作性以及数据消费者体验,这是数据创新民主化的关键。

如果组织拥有大量的领域,包括大量产生数据的系统和团队,或者多种数据驱动的用户场景和访问模式,那么数据网格也许是一种很好的选择。

阅读原文

数仓、数据湖、湖仓一体、数据网格的探索与研究相关推荐

  1. 【金猿人物展】天云数据雷涛:从数据湖到湖仓一体再到数据编织,完成的是燃油车到油电混再到纯电技术的改造...

    ‍ 雷涛 本文由天云数据CEO雷涛撰写并投递参与"数据猿年度金猿策划活动--2022大数据产业趋势人物榜单及奖项"评选. ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业 这 ...

  2. 滴普科技完成B+轮融资,中航产融战略投资,聚焦湖仓一体数据智能基础软件...

    数据智能产业创新服务媒体 --聚焦数智 · 改变商业 近日,滴普科技完成B+轮融资,本轮融资由中航产融领投,部分头部老股东跟投,融资规模1.1亿.至此,滴普科技成长为新一代湖仓一体数据智能基础软件领域 ...

  3. 数据湖数据仓库仓湖一体

    数据湖&数据仓库&仓湖一体 首先提及一个最常用的概念数据库, 但凡是线系统基本都离不开数据库.数据库最主要的功能就是要强调事务处理, 比如 QPS(每秒查询数).TPS(每秒事务数) ...

  4. 企业数据存储方式发展趋势:数据仓库-大数据平台-数据湖-湖仓一体

    早期系统采用关系型数据库来存放管理数据,随着大数据技术兴起,人们对数据分析的需求愈加强烈,于是可以面向分析.集成大量数据的数据仓库(DW)诞生,虽然可以提供保存大量数据,但存储.计算成本相对较高,不好 ...

  5. 湖上建仓全解析:如何打造湖仓一体数据平台 | DEEPNOVA技术荟系列公开课第四期

    如今,面对数字化快速发展带来的挑战,现代化企业需要打破以往数据的孤岛,让数据从采集.加工.管理到应用,是统一的数据存储和数据处理,甚至是作为全栈式的湖仓一体数据平台,以支撑各类数据赋能业务,进而创造更 ...

  6. Apache DolphinScheduler 助力 Trino 快速实现湖仓一体数据建设

    点亮 ⭐️ Star · 照亮开源之路 https://github.com/apache/dolphinscheduler 作者 | 钟嘉杰 Apache DolphinScheduler PMC ...

  7. 大数据_湖仓一体:下一代存储解决方案

    目录 一.什么是湖仓一体 二.湖仓一体架构的特点 三.常见框架 1.Apache Hudi 2.Apache Iceberg 3.Delta Lake 数据库早已解决了数据问题,但无法满足现代使用场景 ...

  8. 数仓和数据中台长期霸权,数据湖最稳

    随着信息化进程的加快,传统数仓越来越无法适应海量数据存储和分析的需求,天下苦数据仓库久矣! 只能存储结构化数据,无法采集存储非机构化数据: 无法存储原始数据,所有数据须经过ETL清洗过滤: 离线数仓的 ...

  9. 数智学习|湖仓一体实践与探索

    栏目语 数澜科技开设栏目「技术派+」,聚焦前沿技术,洞悉行业风向,分享来自一线的研发经验与应用实践. 本期专栏由数澜科技研发中心副总经理白松带来,分享湖仓一体实践与探索. 导语 随着社会数字化进程不断 ...

最新文章

  1. 【每日一算法】对称二叉树
  2. 20175223 《Java程序设计》第十一周学习总结
  3. 0X000000该内存不能read的解决方法
  4. 【转】Xcode7.1环境下上架iOS App到AppStore 流程 -- 不错!!
  5. 在linux桌面死掉时kill之
  6. vs2013新建web项目异常 0x80070002 处理
  7. 算法训练 6-1 递归求二项式系数值
  8. 在Hive查询中如何显示列名
  9. C语言文件拷贝-四种方式
  10. NVIDIA官方指南:libav编译支持Nvidia Codec(结果失败)
  11. 独家 | 一文读懂复杂网络(应用、模型和研究历史)
  12. UNIX网络编程阅读建议
  13. 花花公子推荐伤感qq日志:乖不哭,我拜你
  14. 计算机怎么设置默认桌面,盒子如何将沙发桌面设置成默认桌面?
  15. 【Linux】gcc编译工具,断点的设置,gdb调试
  16. 项目源代码迁移到另一个gitlab的方法(保留原来的提交记录)
  17. php+mysql获取7天、30天的统计数据,没有数值的补充0 By勤勤学长
  18. 03矩阵的乘法与逆矩阵
  19. 基于jupyter notebook的python编程-----MNIST数据集的的定义及相关处理学习
  20. 使用Python中的matplotlib将多个图片显示到一张图内

热门文章

  1. 10分钟搞懂蚁群算法
  2. Java web系统打包成exe安装文件
  3. 抖音如何找到博主视频推广?筛选博主要看那些数据
  4. axios 的响应结构
  5. 面向构件的软件设计问答
  6. mysql是一个大型数据库_MySQL是一个大型关系型数据库管理系统(RDBMS)。
  7. 如何让360浏览器打开网页默认为“极速模式”
  8. MATLAB提取图片点击处的坐标代码(仅供参考)
  9. 【献血小常识】------- 献血者健康检查标准
  10. 英雄联盟爬取不同英雄皮肤