点击上方 "zhisheng"关注, 星标或置顶一起成长

Flink 从入门到精通 系列文章

我们谈论数据中台之前,我们也听到过数据平台数据仓库数据湖的相关概念,它们都与数据有关系,但他们和数据中台有什么样的区别,下面我们将分别介绍数据平台数据仓库数据湖和数据中台。

相关概念

数据仓库

数据仓库(Data Warehouse),也称为企业数据仓库,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。

数据仓库逻辑架构

数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时间通过恰当的方式把恰当的信息传递给恰当的人。

数据仓库的作用主要体现在企业决策、分析、计划和响应4个方面:

数据仓库针对实时数据处理和非结构化数据处理能力较弱,以及在业务预警预测等方面应用有一定的限制。

数据湖

数据湖(Data Lake)是Pentaho公司CTO James Dixon提出来的一种数据存储理念—即在系统或存储库中以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化非结构化数据。在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。下面的定义是维基百科所给出的“数据湖”定义。

数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象Blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。[来源:维基百科]

以下是关于数据湖的示意图(图片来源于网络):

数据湖能够帮助企业实现数据的集中式管理等多种能力;数据湖融合了先进的数据科学、机器学习和人工智能技术,帮助企业构建更加优化的数据运营模型,为企业提供预测分析、推荐模型等能力,这些模型能够刺激企业能力的持续增长,不断赋能于企业增长。数据湖能从以下方面帮助到企业:

  • 实现数据治理;

  • 通过应用机器学习与人工智能技术实现商业智能;

  • 预测分析和模型推荐,例如:领域特定的推荐引擎 ;

  • 信息追踪与一致性保障;

  • 基于历史数据分析生成新的数据维度,挖掘数据深度价值;

  • 提供集中式存储的企业数据中心,并提供基于数据传输优化的数据服务;

  • 协助企业实现灵活的增长决策。

数据平台

数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集

数据平台的出现是为了解决数据仓库不能处理非结构化数据报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。

大数据时代,数据平台一般被称之为大数据平台。狭义上的大数据平台和传统数据平台的功能一致,只是技术架构和数据容量方面的不同,但广义的大数据平台通常被赋予更多的使命,它不仅存储多样化的数据类型,还具有报表分析等数据仓库的功能,以及其他数据分析挖掘方面的高级功能。

数据中台

网易数据中台架构图

阿里数据中台逻辑架构图

数据中台通过对企业内外部多源异构的数据采集、治理、建模、分析和应用,使数据对内优化管理提高业务价值,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢。数据中台建立后,会形成数据API服务,为企业和客户提供高效各种数据服务

数据中台对一个企业的数字化转型和可持续发展起着至关重要的作用。数据中台为解耦而生,企业建设数据中台的最大意义就是应用与数据之间的解藕,这样企业就可以不受限制地按需构建满足业务需求的数据应用。

  • 构建了开放、灵活、可扩展的企业级统一数据管理和分析平台,将企业内、外部数据随需关联,打破了数据的系统界限。

  • 利用大数据智能分析、数据可视化等技术,实现了数据共享、日常报表自动生成、快速和智能分析,满足企业各级部门之间的数据分析应用需求。

  • 深度挖掘数据价值,助力企业数字化转型落地。实现了数据的目录、模型、标准、认责、安全、可视化、共享等管理,实现数据集中存储、处理、分类与管理,建立大数据分析工具库、算法服务库,实现报表生成自动化、数据分析敏捷化、数据挖掘可视化,实现数据质量评估、落地管理流程。

数据仓库 VS 数据湖

相较而言,数据湖是较新的技术,拥有不断演变的架构。数据湖存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据。根据定义,数据湖不会接受数据治理,但专家们一致认为良好的数据管理对预防数据湖转变为数据沼泽不可或缺。数据湖在数据读取期间创建模式。与数据仓库相比,数据湖缺乏结构性,而且更灵活,并且提供了更高的敏捷性。值得一提的是,数据湖非常适合使用机器学习和深度学习来执行各种任务,比如数据挖掘和数据分析,以及提取非结构化数据等。

数据仓库 VS 数据平台

由于数据仓库具有历史性的特性,其中存储的数据大多是结构化数据;而数据平台的出现解决了数据仓库不能处理非结构化数据和报表开发周期长的问题。
通过以上的论述,我们发现数据平台和数据湖好像存在诸多相似性,这二者之间的区别,从个人角度理解上分析应该是数据加工的角度不同,数据湖更着重于对原始数据的存储,而数据平台则同数据仓库一样,需对原始数据进行清洗、转换等数据处理后按照统一的标准规范进行存储。

数据仓库 VS 数据中台

数据仓库和传统的数据平台,其出发点为一个支撑性的技术系统,即一定要先考虑我具有什么数据,然后我才能干什么,因此特别强调数据质量和元数据管理;而数据中台的第一出发点不是数据而是业务,一开始不用看你系统里面有什么数据,而是去解决你的业务问题需要什么样的数据服务。

在具体的技术处理环节,二者也有明显不同,数据的预处理流程正在从传统的ETL结构向ELT结构转变。传统的数据仓库集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。而大数据背景下的架构体系是ELT结构,其根据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析。

总结

根据以上数据平台数据仓库数据湖数据中台的概念论述和对比,我们进行如下总结:

  • 数据中台、数据仓库和数据湖没有直接的关系;

  • 数据中台、数据平台、数据仓库和数据湖在某个维度上为业务产生价值的形式有不同的侧重;

  • 数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,为业务提供服务的主要方式是数据 API;

  • 数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表;

  • 数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;

    数据中台距离业务更近,能够更快速的响应业务和应用开发需求,从而为业务提供速度更快的服务;

    数据仓库是为了支持管理决策分析,而数据中台则是将数据服务化之后提供给业务系统,不仅限于分析型场景,也适用于交易型场景;

    数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。

    原文地址:https://www.jianshu.com/p/a3a62402edaa

基于 Apache Flink 的实时监控告警系统关于数据中台的深度思考与总结(干干货)日志收集Agent,阴暗潮湿的地底世界
2020 继续踏踏实实的做好自己

公众号(zhisheng)里回复 面经、ClickHouse、ES、Flink、 Spring、Java、Kafka、监控 等关键字可以查看更多关键字对应的文章。
点个赞+在看,少个 bug ????

关于数据仓库、数据湖、数据平台和数据中台的概念和区别相关推荐

  1. 数据仓库、数据集市、数据湖,这些大数据名词你知道多少?

    数据仓库,英文名称为Data Warehouse,可简写为DW或DWH.数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合.它是单个数据存储,出于分析性报告和决策支持目的而创建. ...

  2. 云图说|图解DGC:基于华为智能数据湖解决方案的一体化数据治理平台

    摘要:数据湖治理中心DGC,帮助企业快速构建从数据集成到数据服务的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型. 本文分享自华为云社区<[云图说]第232期 图解 ...

  3. Kyuubi: 网易数帆开源的企业级数据湖管理平台(架构篇)

    Kyuubi是网易数帆旗下易数大数据团队开源的一个企业级数据湖管理平台,建立在Apache Spark之上.Kyuubi提供一个高性能的通用JDBC和SQL执行引擎,通过它,用户能够像处理普通数据一样 ...

  4. 阿里云云原生数据湖体系全解读——数据湖开发治理平台 DataWorks

    数据湖的定义:wikipedia 中对于数据湖的定义是: " A data lake is a system or repository of data stored in its natu ...

  5. 新联邦业务数据湖为颠覆大数据应用铺路

    文章讲的是新联邦业务数据湖为颠覆大数据应用铺路,EMC公司今天发布联邦业务数据湖.这套完整的工程解决方案包括来自EMC信息基础设施.Pivotal和VMware的领先的存储及大数据分析技术,帮助客户利 ...

  6. 到底什么是数据湖?全面解读数据湖的缘起、特征、技术、案例和趋势

    正文开始 本文有1.5万字,预计阅读30分钟,可以先收藏 数据湖近几年迅速蹿红,今天笔者做一个综述,包括数据湖的缘起.数据湖的定义.数据湖的特征.数据湖的技术.数据湖的趋势和数据湖的案例六大部分,如果 ...

  7. 什么是数据湖?为什么要数据湖?如何建湖?如何ETL?

    作者 | 友创云天 来源 | http://t.hk.uy/bt5 数据湖概述 数据湖这一概念,最早是在2011年由CITO Research网站的CTO和作家Dan Woods首次提出.其比喻是:如 ...

  8. 下一个风口-基于数据湖架构下的数据治理

    前言 随着大数据.人工智能.云计算.物联网等数字化技术的普及和广泛应用,传统的数据仓库模式,在快速发展的企业面前已然显的力不从心.数据湖,是可以容纳大量的原始数据的存储库和处理系统,已经成为企业应用大 ...

  9. 数据湖 | DLF + DDI 一站式数据湖构建与分析最佳实践

    作者 陈鑫伟(熙康), 阿里云计算平台事业部技术专家 冯加亮(加亮), 阿里云计算平台事业部技术研发 1 背景    随着数据时代的不断发展,数据量爆发式增长,数据形式也变得更加多样.传统数据仓库模式 ...

最新文章

  1. 五分钟看懂抓包神技:DPDK
  2. MySQL------Navicat安装与激活
  3. Confluence 6 推荐的更新通知设置和禁用
  4. linux打包压缩命令汇总
  5. 灰度图像--图像增强 锐化基础
  6. 循环嵌套-[扩展]print函数的结尾处理
  7. python3中format函数列表_Python3之字符串格式化format函数详解(上)
  8. 8086 寻址方式_8086微处理器的不同寻址模式
  9. CV《物体识别与检测3 - 多目标识别的优化技术》
  10. 虚拟资源拳王公社:做什么副业能最快赚到钱?虚拟副业是怎么赚钱的
  11. 那些在一个公司死磕了5-10年的测试员,最后都怎么样了?
  12. 简要解析红外摄像机技术与市场
  13. 《R数据可视化手册》——3.8 绘制百分比堆积条形图
  14. 【iOS】使用 otool 命令查看 App 所使用的动态库
  15. Web前端开发工程师需要掌握哪些核心技能?
  16. 一个封锁操作被对wsacancelblockingcall_突破封锁再进一步,华为鸿蒙OS成功登上手机...
  17. UE4实现风格化渲染(一):UserNormalTranslator工具的使用
  18. testflight显示无法连接服务器,完美解决 TestFlight 提示“无法载入APP”
  19. GMap.net 地图展示以及地图标记
  20. root后顽固木马,手机中顽固木马无法root怎么办

热门文章

  1. 2022-2028全球及中国触摸屏人机界面(HMI)行业研究及十四五规划分析报告
  2. 天猫登录 post java_天猫登录POST问题
  3. 浅谈安卓apk安装过程中的设计模式
  4. git中的revert和reset
  5. 社区圆桌分享:代码学习无止境,程序员如何规划自己的职业生涯发展?
  6. linux搭建泰拉瑞亚(Terraria)服务器
  7. 堡垒机的使用方法:如何使用堡垒机?
  8. cnc程序加工中心_cnc加工自动可制造性评估的可制造性设计
  9. 200张表,单表记录过亿,10多年核心老系统的重构之旅
  10. 我的网名为什么是ma6174????