本文选自《数据中台架构:企业数据化最佳实践》一书,作者为袋鼠云合伙人、高级副总裁张旭。 当前的数据中台定义是宽泛的,这与数据中台目前所处的实际业务阶段相符合。我们认为数据中台至少是一个分布式的数据仓库,同时包含相对应实施的方法论和方案,介于分布式数据仓库和企业全面数据化中间的任意一个点都可以被定义为数据中台。

我们认为数据中台是实现企业全面数据化的一个解决方案,是一套支撑企业全面数据化的架构,会成为企业开展全面数据化的基础设施。下面介绍我们所认为的数据中台应该包含的具体内容。

  1. 数据中台应该告诉企业全面数据化是什么样子的 数据中台应该为企业全面数据化建设进行整体蓝图的规划。

首先,数据中台要能完整地描述企业业务。一般来说,数据中台可以从以下几个层面来描述一个企业的业务:

(1)从组织、岗位、职责方面描述企业业务。

(2)从规章制度、业务规范等方面描述企业业务。

(3)从业务流程及业务场景层面描述企业业务。

其次,数据中台要从企业业务现状和业务发展目标入手,规划企业的数据应用场景。数据应用规划应该描述具体的数据应用,是业务统计分析类应用、画像类应用,还是智能智慧的应用,并让这些场景与组织岗位、业务场景、业务流程相关联。

再次,企业要构建规范、清晰的业务指标体系与实体标签体系,并将具体的指标和标签与数据应用相互关联。

然后,企业需要根据数据资产和业务系统现状,要对规划的数据应用进行价值评估,以及优先级排序,以便合理地开展项目建设,逐步实现全面数据化。

最后,企业需要构建数据应用规划体系。构建规划体系是指既要保证当前规划内容的前瞻性、科学性,又可以进行持续的迭代规划。数据应用规划工作没有必要在一开始就规划得大而全,只要规划的内容足以支撑当前的项目启动和运转即可。因为数据的供给和业务的需求是没有尽头的,所以我们要构建一个可以持续规划的体系,以便持续产出规划内容。

  1. 数据中台应该汇聚全域数据 建设数据中台最重要的是构建处于中间位置的数据资产层,汇聚所有企业内的数字化数据。数据资产层是数据中台的核心,其他工作都基于这一层的各个方位延展。具体内容如下。

(1)梳理数据资源。我们要掌握企业当前的所有数据资源情况。如果我们不能掌握所有的数据资源情况,那么数据化建设的最基本条件都将不具备,所谓的全域数据也就无从谈起。数据中台全域数据可以在数据资源全面盘点的基础上根据使用目的分批进入。

(2)制定模型设计规范和开发规划。数据中台应该提供更先进的适用于大数据开发的数据模型设计规范和方法,并提供可以支撑长时间运转的开发规范和维护规范。

(3)构建完整的数据仓库模型。我们应该对汇聚的数据进行科学的数据仓库模型设计。

(4)选用合适的数据仓库产品。我们需要在当前技术体系下,选择性价比最优、最能够支撑企业业务发展的数据仓库产品,以存储全域数据。

(5)进行数据中台技术架构设计。我们应该根据企业当前情况,设计数据中台的技术架构,包括如何兼容原有的数据仓库产品、是否部署在云上、数据中台和其他应用的交互关系如何等。

(6)进行数据抽取、清洗、开发。数据中台需要构建操作数据存储(Operational Data Store,ODS)层,进行数据的抽取和同步,并对数据进行必要的清洗和开发等。

(7)支撑数据应用建设。数据中台应该为可能进行的数据应用提供数据及数据模型支持,提供系统权限,让数据应用的开发部门在数据中台内部完成开发。

  1. 数据中台应该能够检验数据治理的成果 数据中台和数据治理工作相互独立,我们甚至不鼓励在数据中台上做过度的数据清洗和包装,因为这些只是对原始数据的美化和润色,而我们并不能确定这样的美化和润色是完全正确的。但是我们可以通过数据中台做数据质量的检验工作,并通过检查的结果推动数据治理工作前行或者对数据治理的结果进行检测。具体内容如下。

(1)基础数据的数据治理检验。

检验数据是否有多个源头,是否做到了一物一码。

检验数据属性的定义是否清晰。

检验数据内容是否与数据属性的定义一致。

(2)业务交易数据的数据治理成果检验与校正。

检验交易数据的模型定义与当前数据内容是否相符,若不相符则进行校正。

判断数据完整度,若不完整则进行校正。

检验某个数据属性内的数据是否异常,若异常则进行校正。

检验一条记录中的数据内容是否与业务逻辑关系冲突,若冲突则进行校正。

(3)实体行为数据的数据治理成果检验与校正

实体行为数据大抵可以归纳到大数据的范畴,也就是说这些数据天然就不是非常完整的,持久化的形式也可能是文件、文档的形式,且严谨性要求也相较于交易数据偏低。所以,实体行为数据的治理可以被理解为降噪,利用简单的清洗或者算法对数据中的杂乱数据进行过滤。如果数据质量低于可使用的情况,那么要求数据源头参与治理。

(4)业务指标与实体标签的定义与规范管理

业务指标和实体标签散落在企业中的各条业务线与业务部门之中。统一的定义和管理是对企业业务数据化的一次大动作,同时也是把数据化从部门级别提升到企业级别的一次整体进步。

4.数据中台应该全面支持数据应用落地 数据中台并不直接产生数据的应用价值或者业务价值。绝大多数业务价值都是由数据应用产生的,就像在足球比赛中,大多数进球的球员都是前锋,但是我们不能说中锋、后卫和守门员是没有用的。反而在现代足球运动中,中场球员更多地扮演球队大脑的角色,是一场比赛的指挥者和灵魂人物。数据中台的价值也可以通过它对数据应用的支撑间接衡量。

(1)在实施数据应用之前做好数据情况判断。在实施数据应用之前,我们可以从数据中台中查看所需数据情况和数据质量情况,从而判定数据应用落地的可行性和成功率。

(2)在实施数据应用之中提供数据开发环境。数据应用从数据中台中获取数据,并且大部分数据开发都要在数据中台中进行和完成。

(3)在实施数据应用之后进行数据任务的监控和维护。在实施数据应用之后,我们需要依靠数据中台进行任务监控和维护。

  1. 数据中台可以包含企业数据化组织规划内容 数据运营解决了传统企业中数据应用与业务应用中间的问题。在企业当前的状况中,业务部门对数据的接受程度、对数据的需求和运用需求还处于一种朴素的状态,企业需要一个能够有效地理解企业业务,收集数据应用需求或者具备数据应用的实践经验,为业务部门提出数据应用解决方案的组织。同时,数据运营团队要驱动数据应用成果的产生,乃至关心一系列的前置环节。

更多科技资讯请见微信公众号:博文视点Broadview(微信号:bvbooks)

数据中台是什么?数据中台应包含什么?来听听袋鼠云合伙人张旭的回答!相关推荐

  1. 袋鼠云的mysql_袋鼠云数据中台专栏2.0 | 数据中台之数据集成

    关于袋鼠云数据中台专栏V2.0 数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型?袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量 ...

  2. 袋鼠云 oracle,袋鼠云数据中台专栏2.0 | 数据中台之数据集成

    关于袋鼠云数据中台专栏V2.0 数据中台如何定义?企业数据化与数据中台的关系是什么?数据中台如何支撑企业战略转型?袋鼠云近两年来,先后为国内数十家大型龙头企业提供数据中台咨询与实施落地服务,积累了大量 ...

  3. GDPR从数据主体处收集信息时的信息提供,应包含哪些内容?怎样做才合规?

    2018年GDPR条例实施以后很多企业认识到,GDPR虽是欧盟法律,但有广泛的域外效力.根据GDPR第3条,对于在欧盟境内设有机构的企业,如其通过该机构开展业务的过程中涉及对个人数据的处理,不管该处理 ...

  4. 袋鼠云融资成功解读,全链路数据价值获市场认可 | 爱分析调研

    据信通院数据,2022年在疫情等因素持续影响下,以企业服务.电子商务.互联网金融.医疗健康等为代表的我国互联网投融资总金额持续下探,互联网企业融资环境持续恶化.但在这样的大背景下,仍不乏优质企业获得融 ...

  5. 袋鼠云数据库数据同步之flinkx1.10版入门-搭配flink1.11

    1.前提介绍 公司最近有个项目要做数据库之间的数据离线同步,经过调研在git上发现了袋鼠云的flinkx插件,感觉很好用,我们可以理解flnkx就是封装了同步操作的jar包,调用起来也很方便,我们只需 ...

  6. 聚焦数据智能,袋鼠云亮相2018云栖大会

    9月19日,2018杭州·云栖大会在云栖小镇正式开幕,大会第一天就吸引了12万多名观众到场参加,堪称历届之最.本次大会以"驱动数字中国"为主题展开数字化的探索和研究.在3万平米的生 ...

  7. 数据中台是下一代大数据_全栈数据科学:下一代数据科学家群体

    数据中台是下一代大数据 重点 (Top highlight) Data science has been an eye-catching field for many years now to you ...

  8. 数据平台、大数据平台、数据中台……傻傻分不清?这次终于有人讲明白了!

    来源 | 智领云科技 造概念,在IT行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩,真正做到雅俗共赏.各有趣味.近年来,数据中台之火爆,什么数据 ...

  9. 数据平台、大数据平台、数据中台……还分的清不?

    造概念,在IT行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩,真正做到雅俗共赏.各有趣味.近年来,数据中台之火爆,什么数据平台.数据中台.数据湖 ...

  10. 大数据平台搭建_一文读懂数据平台、大数据平台、数据中台

    作者 | June 来源 | 智领云科技(ID:LinkTimeCloud) 造概念,在 IT 行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩, ...

最新文章

  1. python需要基础吗-没有任何基础,要怎么学习Python?
  2. 怎样学好python-如何学习 Python
  3. 爬虫--用python中requests和urllib模块爬取图片
  4. 计算机里面如何更改处理器,电脑处理器如何更换 电脑处理器更换方法介绍【详解】...
  5. RxJava 2.x 教程
  6. python豆瓣历史评分_Python实战-爬取豆瓣top250评分高于指定值的电影信息
  7. PHP 超级全局变量
  8. __cdecl、__stdcall、__fastcall 与 __pascal 浅析
  9. python将图片存入数据库_使用python把图片存入数据库
  10. 追求极致速度,极简多模态预训练模型ViLT,推理速度比UNITER快60倍!(ICML2021)...
  11. JS-分支结构(单向-双向-多向-嵌套)
  12. RabbitMq(十三)消息发送确认与回调机制
  13. android安卓技能进阶篇
  14. 异步电机参数计算的公式法
  15. Photoshop CC 2020软件安装教程
  16. 【vuejs】有关UI框架“ydui”中的tabbar底部导航的应用以及tabbar切换激活状态的现实
  17. notifier通知链机制
  18. 网络流(最大流和最小费用流)
  19. iPortal地图大屏自定义组件示例--立体地图
  20. 清理Java缓存步骤:

热门文章

  1. java day12【Object类、常用API】
  2. linux pstack命令总结
  3. 设置应用栏(Setting Up the App Bar)
  4. Python实现淘宝秒杀聚划算自动提醒源码
  5. swift 运算符快速学习(建议懂OC或者C语言的伙伴学习参考)
  6. Java应用开发的一条重要经验:先建立基础设施
  7. C++ enum类型的一个更好的用法
  8. 如何获取母版页上控件的值?
  9. [导入]ASP.NET重用代码技术 - 用户控件技术
  10. (Ditto)开源免费的 Windows 剪贴板增强工具神器 (方便复制粘贴多条历史记录、支持多种类型的文件)