作者 | 彭锋 宋文欣 孙浩峰

来源 | 大数据DT

头图 | 下载于视觉中国

传统大数据平台和数据仓库是数据中台的数据来源,建设数据中台是为了更好地服务于业务部门。

下图展示了信息化系统、数据仓库、传统大数据平台、数据中台之间的关系,其中的箭头表示数据的主要流向。

▲图1-1 数据中台与传统大数据平台、数据仓库的关系

数据中台与传统大数据平台到底有什么区别?

为了叙述方便,我们先给出传统大数据平台的架构(见图1-2)。

▲图1-2 传统大数据平台

  • 大数据基础能力层:Hadoop、Spark、Hive、HBase、Flume、Sqoop、Kafka、 Elasticsearch等。

  • 在大数据组件上搭建的 ETL流水线,包括数据分析、机器学习程序。

  • 数据治理系统。

  • 数据仓库系统。

  • 数据可视化系统。

可以看到,这些是传统大数据平台的核心功能。在很多大数据项目里,只要把这些系统搭起来,每天可以生成业务报表(包括实时大屏),就算大数据平台搭建成功了。

但数据中台应该是大数据平台的一个超集。我们认为,在大数据平台的基础之上,数据中台还应该提供下面的系统功能。

1. 全局的数据应用资产管理

这里所说的数据应用资产管理包括整个生态系统中的数据和应用。传统的数据资产管理绝大部分只包括关系型数据库中的资产(包括Hive),而一个数据中台应该管理所有结构化、非结构化的数据资产,以及使用这些数据资产的应用。

如果传统的数据资产管理提供的是数据目录,那么数据中台提供的应该是扩展的数据及应用目录。要避免重复造轮子,首先要知道系统中有哪些轮子,因此维护一个系统中数据及数据应用的列表是很关键的。

2. 全局的数据治理机制

与传统的数据治理不一样,数据中台必须提供针对全局的数据治理工具和机制。传统数据仓库中的数据建模和数据治理大多针对一个特定部门的业务,部分原因是全局数据建模和治理周期太长,由于存在部门之间的协调问题,往往难度很大。

数据中台提供的数据治理机制必须允许各个业务部门自主迭代,但前提是要有全局一致的标准。阿里提出的OneID强调全局统一的对象ID(例如用户ID),就属于这个机制。

3. 自助的、多租户的数据应用开发及发布

现有的绝大部分大数据平台要求使用者具备一定的编程能力。数据中台强调的是为业务部门赋能,而业务人员需要有一个自助的、可适应不同水平和能力要求的开发平台。这个开发平台要能够保证数据隔离和资源隔离,这样任何一个使用系统的人都不用担心自己会对系统造成损害。

4. 数据应用运维

用户应该可以很方便地将自己开发的数据应用自助发布到生产系统中,而无须经过专门的数据团队。因为我们需要共享这些应用及其产生的数据,所以需要有类似于CI/CD的专门系统来管理应用的代码质量和进行版本控制。

在数据应用运行过程中产生的数据也需要全程监控,以保证数据的完整性、正确性和实时性。

5. 数据应用集成

应该可以随时集成新的数据应用。新的大数据应用、人工智能工具不断涌现,我们的系统应该能够随时支持这些新应用。如果数据中台不能支持这些应用,各个业务部门可能又会打造自己的小集群,造成新的数据孤岛及应用孤岛。

6. 数据即服务,模型即服务

数据分析的结果,不管是统计分析的结果,还是机器学习生成的模型,应该能够很快地使用无代码的方式发布,并供全机构使用。

7. 数据能力共享管理

大部分数据能力应当具有完善的共享管理机制、方便安全的共享机制以及灵活的反馈机制。最后决定数据如何使用的是独立的个人,他们需要一套获取信息的机制,因此在机构内部必须要有这样的共享机制,才能真正让数据用起来。

8. 完善的运营指标

数据中台强调的是可衡量的数据价值,因此,对于数据在系统中的使用方式、被使用的频率、最后产生的效果,必须要有一定的运营指标,才能验证数据的价值和数据中台项目的效率。

综合上面的讨论,除了阿里巴巴提出的OneID、OneModel、OneService之外,我们认为数据中台还应该满足以下两个要求。

1. TotalPlatform

所有中台数据及相关的应用应该在统一平台中统一管理。如果有数据存储在中台管理不到的地方,或者有人在中台未知的情况下使用数据,我们就无法真正实现对数据的全局管理。这要求数据中台能快速支持新的数据格式和数据应用,便于数据工具的共享,而无须建立一个分离的系统。

2. TotalInsight

数据中台应该能够理解并管理系统中数据的流动,提供数据价值的定量衡量,明确各个部门的花费和产出。整个中台的运营是有序可控的,而不是一个黑盒子,用户可以轻松理解全局的数据资产和能力,从系统中快速实现数据变现。

如图1-3所示,数据中台可以说是按照一定的规范要求建设的数据能力平台,在数据仓库、大数据平台、数据服务、数据应用的建设中实现了符合OneID、OneModel、OneService的数据层。

这个数据层,加上在其上建立的业务能力层以及运营这个数据中台需要的TotalPlatform、TotalInsight,形成我们看到的数据中台。

▲图1-3 数据中台的五大要求

微软每年豪砸安全研发 10 亿美元,聊聊背后的技术密码
何为“边缘计算”?“一学就会”的微服务架构模式
除了 k8s,留给 k 和 s 中间的数字不多了!
到底是谁发明了物联网?
再见 Nacos,我要玩 Service Mesh 了!
点分享点收藏点点赞点在看

数据中台 VS 传统大数据平台,这 8 点区别要了解相关推荐

  1. 数据中台是下一代大数据_全栈数据科学:下一代数据科学家群体

    数据中台是下一代大数据 重点 (Top highlight) Data science has been an eye-catching field for many years now to you ...

  2. 昨日黄花Hadoop 方兴未艾云原生——传统大数据平台的云原生化改造

    本文6539字,阅读时间约20分钟 以Hadoop为中心的大数据生态系统从2006年开源以来,一直是大部分公司构建大数据平台的选择,但这种传统选择随着人们深入地使用,出现越来越多的问题,比如:数据开发 ...

  3. Hadoop势微,云原生上位——传统大数据平台的云原生化改造

    以Hadoop为中心的大数据生态系统从2006年开源以来,一直是大部分公司构建大数据平台的选择,但这种传统选择随着人们深入地使用,出现越来越多的问题,比如:数据开发迭代速度不够快,集群资源利用效率过低 ...

  4. 数据中台,什么是数据中台?

    导读: 数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为"腾讯数据中台论"再度成为了人们谈论的焦点.在 3 月 15 日 ThoughtWork ...

  5. 数据中台 画像标签_数据中台为什么这么火?

    原标题:数据中台为什么这么火? 数字时代的到来加速了全行业数字化的进程,阿里.腾讯.百度.京东等头部互联网公司纷纷调整架构,将To B计划调整为企业的发展重点战略,并在组织架构中增设"数据中 ...

  6. 数据湖+数据中台,金山云大数据平台竞争力如何?

    随着疫情稳定,出行的解禁,正是拉动老客户消费和挖掘潜客的机会,那么银行在数字化时代的营销业务是如何实现的?首先在业务层面需要与各大电商平台.OTA.出行.O2O.线下餐饮.购物中心达成广泛的权益合作: ...

  7. 数据中台精华问答 | 数据中台和传统数仓的区别是什么?

    中台系统把业务层同性的算法能力,服务能力,业务能力高度集成,有效组织 ,动态规划.更好的帮助上层业务. 今天就让我们看看关于数据中台的问答吧. 1 Q : 什么是数据中台? A : 数据中台是指通过数 ...

  8. 再问数据中台-数据中台和数据仓库,数据平台的关系是什么?

    早期,企业的数据是少量的,利用Excel等数据文件处理工具来进行统计和手工分析. 然后,企业希望能够更快的处理比较多的数据,就有了数据仓库的出现,也希望利用数据来支撑运营和分析.接下来不仅有了结构化数 ...

  9. 百分点“数据隧道”玩转大数据平台实时数据复制

    实时数据复制技术在银行.电信.保险.政务和电商等领域应用非常广泛. 比如银行领域的收单业务涉及收单行.银行卡组织及发卡行的数据同步.收单行的数据需要传输到银行卡组织,再由银行卡组织传输给发卡行. 如果 ...

最新文章

  1. 设备树的具体使用方法
  2. 我们来聊点成年人的话题!
  3. android 仿ios timepicker,android:TimePicker仿照IOS時間選擇器,可自定義選擇器
  4. linux下各权限的细分
  5. sqlMetal用法和例子
  6. 上海电子信息职业技术学院计算机网络技术,上海电子信息职业技术学院计算机网络技术专业...
  7. input限制输入字符
  8. fmea第五版pfmea表格_第五版PFMEA模板(含附属评分准则编写指南全套EXCEL表)
  9. java读取txt配置文件_Java程序读写配置文件(以纯文本.txt类型示例)
  10. iOS 微信支付开发(最新版)
  11. 浙江大学计算机学霸作息,浙大顶级学霸作息表曝光:世界本不公平,你有多努力,就有多特殊...
  12. 2022年Web 前端怎样入门?最新Web前端入门的学习路线
  13. 22、R329刷机受阻和测试仿真环境demo
  14. 金秋去哪儿:黑龙潭喊你带着爸妈免费去登山赏红叶
  15. Highcharts插件常见错误及解决办法
  16. 利用nginx来屏蔽网页爬虫
  17. IT行业概念、岗位、职能
  18. 用C++类模板实现栈结构出现的问题以及思考
  19. jmp_buf的使用,结构定义为数组
  20. 拍卖场里捡个漏—我通过法拍买了一套房

热门文章

  1. centos 8 kubernetes安装详解_8方面图文详解,电气安装工程施工工艺!
  2. 加载oracle属性文件,关于属性文件的详细介绍
  3. mysql 扩展存储过程_MySQL4:存储过程和函数
  4. python中dict转换成list_python里dict变成list实例方法
  5. el-table跨页选中
  6. 知乎热议:如果不发论文,我们用什么证明自己的科研实力?
  7. 致准医学博士生的乘风破浪秘籍
  8. 如何把女儿培养进麻省理工学院?博士爸爸的40封家书,堪称家庭教育的典范!...
  9. 审计利用计算机,利用计算机审计手段 提高审计工作水平
  10. 北京市(朝阳区)(西城区)(海定区)正则表达式(代码保存)