关注DataFunTalk有2年多了,DataFun确实像创始人王大川讲的那样,践行选择、努力和利他原则,专注于大数据、人工智能技术应用的分享与交流,秉承着开源开放的精神,免费的共享了很多有营养的行业实践专业知识,对于这样有情怀的团队真心希望他们越办越好。2022年底DataFun发布《DataFun数据智能知识地图》,一看就做得很用心,内容涵盖数据采集与治理、数据架构、数据能力、数据应用等四大领域、15大数据模块,拆解了数据流转全流程。其中,就包含数据仓库、大数据平台、数据中台的定义,但是我确实不太认同这样的定义,引用原文如下:

数据中台 = 大数据平台 + 数据仓库 + 数据应用和服务

  • 大数据平台:位于最底层,支持海量数据存储,并支持实时流数据计算、离线批量计算、数据挖掘、交互式查询等场景的一套基础平台设施
  • 数据仓库:是基于大数据平台的存储引擎、存储格式(Hive、Delta Lake等),基于维度建模方法建设的结构化数据集合,目的是为所有类型的数据支持提供数据环境
  • 数据中台:是基于大数据平台提供的底层平台能力、以及数仓提供的结构化数据环境,搭建的面向业务的统一的数据应用服务

真的定义对了吗

乍一看就感觉不太对,怎么成了“洋葱模型”,大数据平台成了最里层。难道我们几年前称呼的大数据平台就没有了数据应用服务,也没有了面向主题的数据集合。我们还是找几篇以前的论文看看,看看那个时代我们对这些名词是怎样的认知。

下图是1995年发表在今日电子期刊的文章《“数据仓库”讲座》,从操作型系统抽取数据构建数据仓库,从而支撑分析型数据库;再看看2011年《架构大数据 :挑战 、现状与展望》一个典型的数据仓库架构,包括数据源、数据存储与管理、OLAP服务、前端展示。从90年代不就是和我们现在数据中台朴素的架构认知一样吗。


我们再看看大数据平台,2013年系统仿真学报收稿《大数据平台技术综述》,文章给出了大数据平台体系架构,如果换成“数据中台架构”这个词,你也挑不出大毛病吧,讲真,那时候真的没有数据中台这个词,人家不是抄袭。

我们回归到数据中台,在2019年发表在期刊数据与计算发展前沿中的《数据中台技术相关进展及发展趋势》,给出了数据中台整体架构图,这也是我认为定义的比较全面比较好的数据中台架构,要是把这个词换成大数据平台架构图也无可厚非,谁叫你出道晚,难免抄人家。

因此,数据中台 = 大数据平台 + 数据仓库 + 数据应用和服务,是不对的,从上世纪90年代,我们对于数据仓库认知就是从数据抽取、汇聚、加工、整合、应用等等,每层都没少啊,千万不要掩耳盗铃,自以为是。

到底什么区别

我认为,从数据仓库到大数据平台再到数据中台不是包含和被包含的问题,而是由浅入深,有简入细的问题。这很好理解,90年代的数据仓库建设肯定也有数据治理范畴,这个工作我们潜移默化的在做,只不过没有提升到一个理论高度,没有形成一个专门的学科而已。随着技术的发展、数据量的增加、业务的需求、行业的重视,我们逐渐把工作做细,也就用新的名词来称呼。

数据仓库 VS 大数据平台

  1. 大数据平台存储计算能力更强:2005年前后Hadoop技术的出现,让数据存储能力更高,不但存储结构化、而且半结构化和非结构的数据来而不拒,同时计算能力更加强大。
  2. 大数据平台数据接入能力更强大:这源于强大的存储计算能力,以前数据仓库存储价值较高的数据,现在也可以存储低价值数据,如日志、传感器数据、埋点数据等等。
  3. 大数据平台更加强调开放和时效:数据来源多了,需要的人肯定也多了起来,相比与传统数仓,要把这些数据服务出去,各种SDK、API出来了,为了提供更加实时的数据,实时计算也出来了,Lambda、Kappa架构出来了。
  4. 大数据平台展示能力更丰富:移动互联网、前端技术的发展,让我们对数据的触达更多样,更多酷炫的数据展示。

大数据平台 VS 数据中台

  1. 数据中台更加强调数据治理,资产化思维:这源于把数据当做生产要素,把数据当做资产运营,没有标准、质量与安全,谈何数据增值,变现。
  2. 数据中台更加强调数据为业务赋能:我们要的更多,不单单BI,我们更要让数据为业务赋能,让数据参与到业务场景中,发挥数据价值,也催生出新的职业DataBP。
  3. 数据中台更加强调智能:这源于机器数据、人工智能的发展。结合业务、依托数据,我们构建算法模型,把算法能力封装成API服务出去,这不就是ChatGPT吗。
  4. 数据中台更加强调经济易用:以前大数据平台成本太高了,构建集群、搭建各种组件,还要运维,现在基于云计算,各种现成的工具开箱即用,比如现在火得数仓一体数据库组件。

未来应该还会出现新的名词,这一新名词肯定在老的名词中有迹可循,我们在肯定新名词背后工作的同时,看看前人走过的路,会有更清醒的认知。

参考文章

  1. 苏萌,贾喜顺,杜晓梦,高体伟.数据中台技术相关进展及发展趋势[J].数据与计算发展前沿,2019,1(05):116-126.
  2. 宫夏屹,李伯虎,柴旭东等.大数据平台技术综述[J].系统仿真学报,2014,26(03):489-496.DOI:10.16182/j.cnki.joss.2014.03.039.
  3. Doug Lowe,王澜,李朝虎.“数据仓库”讲座[J].今日电子,1995(11):73-76+89.
  4. 王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.

【数据架构系列-03】数据仓库、大数据平台、数据中台... 我不太认同《DataFun数据智能知识地图》中的定义相关推荐

  1. 快手大数据架构师:实时OLAP分析平台这么做,才可能超越抖音

    在家宅着什么事也没有,整天就是抖音快手微博微信,突然看到之前快手大数据架构师在某个大会上的演讲,我把这个弄成文字版,大家也是一起学习一下. 快手 App 目前日活 1.5 亿,每天会产生数万亿规模的用 ...

  2. 大数据架构系列:如何理解湖仓一体?

    导语 | 本文推选自腾讯云开发者社区-[技思广益 · 腾讯技术人原创集]专栏.该专栏是腾讯云开发者社区为腾讯技术人与广泛开发者打造的分享交流窗口.栏目邀约腾讯技术人分享原创的技术积淀,与广泛开发者互启 ...

  3. 8年京东大数据架构师推荐的大数据开发学习路线

    一.我们先要了解大数据的工作方向 01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧) 二.大数据工程师的技 ...

  4. 数据产品经理:6大数据分析平台的“世界观”

    作者:李阳  来源公众号:数据有毒 GrowingIO.神策.诸葛IO.TalkingData.友盟.Google Analytics for Firebase是数据分析领域广为人知的几家综合性平台, ...

  5. 【数据架构系列-02】从《数据中台能力成熟度模型》的发布,聊聊火了的中台

    热点之所以会"热起来",是由于万众瞩目的那份炽烈,也是因为无数双"手"的奋力炒作.所以,要穿过那"缭绕烟雾"看到本质,便需要冷静的头脑. 2 ...

  6. 【ECharts系列|03可视化大屏】大数据管理平台实时展示

    基于echats实现可视化大数据管理平台实时展示. 完整html+css+js+json+font+video:https://download.csdn.net/download/weixin_41 ...

  7. 互联网金融大数据架构概述与应用 - 大数据应用案例

    如果需转载,请注明:乐投网-互联网金融大数据架构概述与应用 IBM分析事业部 IBM分析事业部是在过去一两年间逐步成型的,成立后分成了若干个小部门,如AnalyticsPlatform.CLOUDDA ...

  8. 数据治理系列:数据仓库物理分层_数据仓库逻辑分层

    OLTP 与 OLAP OLTP 联机事务处理 OLTP是传统关系型数据库的主要应用,主要用于日常事物.交易系统的处理 1.数据量存储相对来说不大 2.实时性要求高,需要支持事物 3.数据一般存储在关 ...

  9. 大数据架构(二)大数据发展史

    1.传统数仓发展史 传统数据仓库的发展史这里不展开架构细讲,只需快速过一遍即可.了解这个历史发展过程即可. 1.1 传统数仓历史 1.1.1 5个时代 传统数仓发展史可以称为5个时代的经典论证战.按照 ...

最新文章

  1. relay.build调用关系
  2. 前端进阶(二)webpack开发服务器环境配置
  3. vscode使用教程python-用VScode配置Python开发环境
  4. 云炬随笔20180421
  5. 牛客 - 仓库选址(中位数+思维)
  6. POJ - 2083 Fractal(dfs,递归画图)
  7. c 是泛型程序设计语言,c ++中的“泛型编程”是什么意思?
  8. Q-learning家族【强化学习】
  9. php 小程序 活动弹幕,小程序:弹幕效果的消息提示
  10. DHCP server 冒充及DOS攻击处理方案
  11. 思科OSPF配置实例(转)
  12. 苹果ios8_苹果IOS平台年度五佳免费单机手游!免费也有高质量游戏!
  13. steamcommunity本地反代443端口/80端口被占用解决办法
  14. 上海交通大学考研网络安全专业823复习策略
  15. 业务流程管理(BPM)系统的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  16. 无效的m3u8怎么办_关于大视频video播放的问题以及解决方案(m3u8的播放)
  17. 找素数模板:马氏筛法【复杂度nlgnlgn】
  18. Docker手把手教程(一)概述 安装
  19. matlab能输入铁心参数,变压器铁心剩磁预测研究
  20. 华为手机总是弹出风险提示

热门文章

  1. 企业版小程序申请步骤
  2. 年度全球区块链最有影响力人物排行榜TOP10
  3. 将form表单序列化成对象
  4. Oracle 动态监听和静态监听非1521端口配置
  5. java计算机毕业设计小说阅读网站源码+系统+mysql数据库+lw文档+部署
  6. 电脑城国庆中秋装机版V16.0.iso
  7. python eol error错误
  8. 游戏建模手绘角色模型制作教程
  9. 光电效应测普朗克常数实验,科大奥瑞平台计算Python程序
  10. c++调用python接口_Python调用有道智云文本翻译API接口实现“智能”伪原创