闲言少许,直接上干货。

什么是数据仓库?

大家都去宜家买过东西吧,还记得一楼的大仓库不,你如果看中了某个家具,想要自己去仓库提货,一般都会记下商品上的编码:

这个编码对于顾客来说,肯定是没有任何含义的,看到这个编码,不可能知道他是一个什么商品。

但是这个编码,对于仓库管理员来说是有含义的,他们可以清楚的知道,是哪一个货架,哪一个位置。

当然,顾客到仓库里顺着货架和位置也可以找到商品,但是总归不太直观,挑选的过程还是得在楼上进行。

因此数据仓库就相当于宜家的一楼仓库,在这里,数据(家具)按照特定的模型,如FS-LDM等(货架-位置)组织起来,这种模型,对于顾客(业务人员,数据最终用户)是不友好的,但是对于科技人员(仓库管理员,宜家员工)来说相对友好,因为他按照一种更加集约化的规则将数据(家具)管理起来了,存放集中、规整,提取数据(提货)不用跨库(货仓)寻找,查找的效率更加高。

那什么是数据集市呢?

还是用这个例子,上文提到,数据仓库对业务人员不是很友好,同样,你总不能让顾客直接逛仓库吧?顾客的需求,是按照家具的种类分门别类,按照家庭的不同房间,组合在一起展示的,正如宜家楼上的展厅:

图片来自:https://factualfacts.com

虽然也被吐槽像迷宫一样,但是总的来说,购物体验肯定比逛仓库来得好多了。

所以,数据集市就像宜家楼上的展厅,正如其名字“集市”一样,是一个面向最终用户(顾客)的数据市场,在这里,数据(家具)以一种更加容易被业务人员(顾客)接受的方式组合在一起,这些组合方式可能是多变的,因为业务人员(顾客)的需求是多变的,因此我们需要定期调整集市的计算口径(展厅的陈列方式),经常会创建新的数据集市(装修新的展厅)。

数据仓库和集市的概念理解了,其他一些相关问题也就迎刃而解,比如为什么有了数据仓库还要建数据集市?等等。

那什么是数据湖呢?

数据湖至今仍然没有一个特别标准的概念,各种概念中,比较统一的一点是数据湖存储的是未经加工的原始数据,包含结构化和非结构化的各类数据。数据玩家仍然尝试用上面的例子来解释。

大家都知道,宜家的家具是需要自己组装的,所以宜家的顾客们都有一些动手能力,他们突发奇想,所有的家具能不能全部拆散成零部件存放,由顾客们根据实际需要挑选零部件自行拼装?

所以,数据湖就是一个存储了所有企业内原始数据(家具零部件)的存储,这就带来一系列问题,加工后数据的存储已经非常复杂,原始数据则依赖更多的管理功能,不然数据又多又杂难以管理,数据湖会退化为数据沼泽。此外,原始数据如果缺少统一的数据标准,就像不同的家具零部件之间的接口不同,那就无法组装在一起了。

因此,数据湖必须有完善的数据管理功能,也依赖于统一的数据标准和良好的数据质量管理。

那什么又是数据中台呢?

数据中台也没有一个特别明确的定义,这里很难套用宜家的例子强行解释了,我们来看下各类数据平台:

在我们传统的数据应用中,随着数据对于业务友好度的增加,其时效性也在减弱。而我们的目标,显然是数据又快又好。既然各部门的需求都不一样,为何不让业务自助分析数据呢?于是我们有了右上角的目标状态。但是这个理想状态和我们现在的数据应用中间有巨大的空隙,靠什么来填补?答案就是数据中台。

我们可以将其分为狭义的数据中台和广义的数据中台。狭义的数据中台,指的是一套数据应用和工具,包括分布式ETL、数据资产管理、数据标签管理、数据沙箱、自助分析平台、元数据管理、数据质量管理等等,底层则以现有的数仓、大数据平台等为数据源,为企业提供数据资产管理的能力,并持续挖掘数据价值,持续提供数据智能服务。

广义的数据中台,则在狭义的数据中台基础之上,包含了顶层数据战略,数据治理体系以及数据管理及运营、数据文化培养和组织架构支撑,是一套持续管理和运营的体系。

可以这么说,狭义的数据中台,是专为达成数据中台的使命而打造,一类是让数据更快的处理、整合、加工,比如分布式ETL工具。随着传统数据被大数据平台逐步替代,ETL工具对于大数据平台的适配也需要与时俱进,支持分布式计算、弹性计算,并且减少开发量。

另一类是让数据更好的产生业务价值,比如数据标签管理,自助分析平台等。数据标签大家都在用,但是真正深度使用的企业都会感觉:建好容易用好难,如果没有一套标签管理系统,标签是否重复加工,标签的使用率、准确性等都无从掌控,业务部门想要针对近期营销活动新建一个标签,还得走开发流程,时效性也难以保证。数据标签管理系统就是为了解决数据标签的使用问题而建立。自助分析平台则是方便业务人员自助进行数据分析、加工、探索的平台,它与数据沙箱结合,直接将去隐私化的生产数据提供业务人员分析,使数据更快的产生价值,支撑关键决策。

广义的数据中台,则是辅助狭义数据中台达成使命的机制,虽然看起来都很“虚”,但是却是数据中台成功落地的必要保障。

那所有这些都必须做吗?

这个问题要看具体的企业情况,总的来说,一个大原则是以满足业务发展为第一优先,不要为了做基础设施而做基础设施,一定要以能解决业务诉求为最终目的。

《人月神话》里早就宣告了银弹不存在,自然,数据仓库、数据集市、数据湖、数据中台都不是银弹,千万不能以为做了他们就水到渠成,数字化转型就自动完成了。

简言之,用了一系列时髦的新技术不见得就是数字化领军企业,不用也不见得就是古典互联网时代的落后作坊。关键是认清自身的数字化现状,拟定数字化目标,制定数字化路径,优选场景,实现价值。新技术、各类数据基础设施只是这条道路上,一套套切实可行的行动方案,是把过去银行的种种数字化的尝试,重新以体系化、结构化的方法论梳理,并且赋予当下最新的技术架构予以实施。

从事数字化转型的你,搞清楚这些数据类基础理念了吗?数据仓库、数据集市、数据湖、数据中台相关推荐

  1. 蚂蚁上市,估值超2000亿美元!想数字化转型?先搞清楚这些问题

    "万亿巨头"蚂蚁金服"确认A+H同步上市! 支付宝母公司蚂蚁集团20日宣布,启动在上交所科创板和港交所主板寻求同步发行上市的计划.#蚂蚁金服确认A+H同步上市# 据悉,蚂 ...

  2. 企业数字化转型与中台建设全攻略:什么阶段进行?有哪些方法?

    导读:企业应在什么阶段进行数字化转型.采用什么样的方法进行转型,这是我们必须思考和不断在实践中优化的. 作者:阿里云智能-全球技术服务部 来源:大数据DT(ID:bigdatadt) 01 云化 云化 ...

  3. 万字长文解读:企业如何做好数字化转型

    本篇文章为亿信华辰系列视频直播稿件. 大家晚上好,欢迎来到小亿直播间!首先介绍下我们本次的直播活动,本次的直播会是一个系列,时间是每周三晚上19-20点,持续6周,将分别就数字化转型.主数据管理.商业 ...

  4. 再论数字化转型-转什么,如何转?

    今天准备再写一篇文章来谈下企业数字化转型.重点还是围绕数字化转型的本质究竟是什么?企业如何进行数字化转型这两个关键点. 前面我谈得比较多的是云原生,微服务,中台等,而这些本身仅仅是数字化转型能力框架中 ...

  5. 数字化转型如何执行?

    更多专业文档请访问 www.itilzj.com 本文谈论企业数字化转型,重点围绕数字化转型的本质究竟是什么?企业如何进行数字化转型这两个关键点. 云原生.微服务.中台等,这些仅仅是数字化转型能力框架 ...

  6. 全行业数字化转型加速,到底什么存储会更吃香?

    之前,有全球专业分析机构IDC的公开数据显示,自2010年以来全球正式进入ZB时代,预计到2025年全球数据量估计将会增至175ZB. 那么,全球数据量高速增长的背后,到底是什么在推波助澜呢?这又引发 ...

  7. 企业数字化转型:信息化与数字化之争!

    来源:谈数据,作者:石秀峰 全文共 4826 个字,建议阅读 10 分钟 近期,我一做数字化咨询的朋友(化名老王)遇到了一个头痛的问题:话说老王的团队近期接了一个大单--一大型制造业的数字化转型规划. ...

  8. 企业数字化转型:信息化与数字化

    傅一平评语: 关于数字化和信息化的区别,文章很多了,但没有绝对的边界,一个简单判定方法就是你在某个业务场景下是呆在数字世界多一点还是物理世界多一点,比如打的,以前打的只能说是实现了信息化,因为在整个打 ...

  9. 数字化转型,企业为什么要转型?如何转型?

    数字化转型是利用数字化技术(例如云计算.大数据.人工智能.物联网.区块链等)和能力来驱动组织商业模式创新和商业生态系统重构的途径和方法即是数字化转型.其目的是实现企业业务的转型.创新.增长. 核心强调 ...

最新文章

  1. 从零开始学_JavaScript_系列(14)——dojo(7)(饼图,BorderContainer,hashchange,弹窗)...
  2. electron 两个窗口如何通信_关于 Electron 进程间通信的一个小小实践
  3. org.apache.struts2.dispatcher.ng.filter.StrutsPrepareAndExecuteFilter错误解决
  4. android自定义url协议,Android自定义URL方案…?
  5. 学计算机等级考试电脑版软件,计算机二级考试宝典电脑版
  6. C# XML格式化显示
  7. ElasticSearch 动态映射与静态映射_08
  8. c#实现http文件下载
  9. java 多线程 关键字_java多线程基础(synchronize关键字)
  10. JAVA接口继承、抽象类等
  11. 苹果手机处理器_全球最强手机处理器诞生!苹果A14主频首超3GHz:性能秒杀华为/高通...
  12. 模型调参(AutoML)— optuna
  13. 服务器硬盘整体ghost,ghost备份整个硬盘| 全盘镜像ghost步骤
  14. 百度cpc联盟的漏洞?还是内鬼?
  15. Python程序设计实验报告【合集】
  16. viewModel生命周期
  17. 如何用Python写一个安卓APP
  18. 中英文排版规范化 API 接口
  19. 神奇宝贝HTML游戏代码,《我的世界》神奇宝贝召唤神兽指令代码大全
  20. 通讯录的实现(静态版本,动态版本,文件版本)(后附完整源代码)

热门文章

  1. Ubuntu中安装Qt
  2. 以太坊智能合约 —— 最佳安全开发指南
  3. matlab画对数坐标!
  4. 云里黑白第十回——win11、重装或者迁移系统到11代CPU你需要关注RAID IRST驱动
  5. 调试工具TRW2000,VB符号调试初步(转)
  6. [读书][笔记]WINDOWS PE权威指南《一》PE的原理和基础 之 第一章 环境搭建及简单破解
  7. html 中avi视频插件,男友身体透支全过程曝光. avi
  8. Tinymce-table表格插件改造
  9. ReadBook_Thinking_Method
  10. [Android学习] 1. 简易登录界面设计