本文根据王琤先生在【DQMIS 2020第四届数据质量管理国际峰会】现场演讲内容整理而成。

图1.1

Datablau数语科技创始人 王琤

演讲嘉宾介绍 - 王琤      

  • 信通院数据资产专家委员会成员,数据资产白皮书主要撰写人,IEEE member,OMG member,DAMA CDMP,复旦大学、人民大学、北京航空航天大学的客座讲师 。

  • 2006年加入CA,曾任CA ERwin全球研发负责人;在数据建模领域有十几年经验,客户多来自世界500强,如美国银行(BOA),SunTrust,AT&T,壳牌等。 深度参与建设银行新一代系统数据模型设计。

  • 2016年率ERwin原研发team部分骨干创立Datablau,创新型数据治理理念及国际水准的建模工具DDM、数据资产平台DAM、数据目录DDC产品市场高度认可。公司已成功服务多家国内大型企业的数据治理项目,包括华为,中国人寿,平安银行,微众银行,国电水电,嘉实基金,东方航空等大型企事业单位,具有丰富的数据治理项目咨询,管理和实施经验。

演讲目录

  • 数据架构简史

  • 数据架构最新趋势

  • 阿里中台与数据架构

  • 数据模型设计

  • 数据模型管控

  • 实战案例分享

王总:各位新老朋友,好久不见,这是疫情之后首个数据治理线下大规模的会,如今各个企业的数据治理制度体系都已经慢慢地建立起来了,下一步就是我今天主要演讲的内容,中台架构,包括数据模型管控,这块就是躬身入局,开始真正落地数据治理了。大家对我都很熟悉了,数据管理的老兵,以前做产品ERwin,负责整个ERwin全球研发,做了十几年,如果大家需要做模型设计肯定都会用到这个产品。我们2016年成立Datablau这家公司,现在服务了国内很多的大型企业,提供数据治理相关的产品和服务。

图1.2

公司核心的团队都是以前ERwin的研发团队,相关的数据治理的产品已经到了5.0,这是我们的一些客户,现在的客户Logo比去年又多了一倍,涉及银行、保险、证券、基金,能源、制造业、航空等等。

我看到今天很多嘉宾有提到DAMA DMBOK,我所讲的涉及到DMBOK上的数据架构(DataArcchitecture)和数据模型(Data  Modeling& design),数据建模是一个行为活动,而数据架构其实是一个产物,最主要就是数据模型。

图1.3

图1.4

进入到正题,先介绍一下数据架构简史,数据架构的概念从上个世纪60年代已经开始有了,最早是E.F  Codd提出数据关系建模,后来General  Mills提出了一些维度和事实。

再之后Peter  Chen,他是一个台湾华人,他1976年提出来ER图,到80年代、Inmon、Kimball,如果大家做数仓比较多,肯定看过两个大师的著作,一个是叫《The Data Warehouse Toolkit》,一个是《Building the data warehouse》。

图1.5

今天主要涉及敏捷数仓,包括Data  Vault模型。今天提到的很多概念都来自于这几本基础书籍,如果大家后面有一些概念不太熟悉,可以回头翻这几本书,一个就是《Data  Warehouse  Toolkit》,还有一个《Building  the  Data  Warehouse》,《数据架构》里面谈到Data  Vault模型,当然也会涉及到阿里比较经典的书《大数据之路》,这本书前段时间很热,大家可能都有翻到过。

今天我讲的内容是基于这些再往上的实践。

先说一说Inmon和Kimball的差别,我相信如果涉及到数据架构、数据数仓,一定会用其中的一种模式。

图1.6

Inmon的核心是三范式的企业级数仓(EDW),右边Kimball会更直接一点,直接上一个星型模型,简单灵活直接。

图1.7

当然也有一些更细节的差别,比如说Inmon通常是分阶段来建设的,刚才前面国网的老师也提到了,一个阶段一个阶段地去设计整个企业级的数仓。Kimball更合适快速交付,比如说有一些业务、财务部门很着急出一些报表,直接设计一个星型模型把这个数先拉出来。从开发难度上看, Inmon企业级数仓会难一点,但未来的投入会不断减少,而Kimball未来的投入是不断递增的。

星型模型其实涉及一个非常严重的问题,就是数仓重构,一旦我们的数仓有改变,不管是前面引入一些新的业务数据源,还是后面的数据需求有变化,都会引起整个数仓的重构。

图1.8

所以,可以看到前阶段是引入新的数据源,在这个过程中引起很大的变化,后面就是需求有变化的时候,又会引起新的变化,这经常会引起非常混乱的状态。

图1.9

比如说,以前有财务的、销售的数据,现在引入采购的系统,引进后整个数仓都涉及重构问题,比如说我们原来有一些维度表,可能数据会有丢失,如果大家做数仓年头比较久,肯定碰到过这样的痛点。

图1.10

像我们说的Kimball星型模型,这个维护量其实是逐步递增的,一开始我有一个星型设计,然后越来越复杂,可能一开始我只需要几十万的投入,90天就把这个事做完了,再之后就是逐步递增。我们知道一个数仓的建设周期经常是过百万的,蛮大的一个项目,里面涉及到是数仓的重构,交付时间、难度、维护成本,都越来越高。我们看到有一些业务部门开始自己去搞自己数仓,放弃找数据部门来干这个事了。这对数据部门是非常被动的情况。

图1.11

我们现在看到很多企业,最终就是销售部门、财务部门、市场部门把整个的数仓拷走,自己再找一个供应商去干这个事,这个是星型模型Kimball的原罪。

图1.12

怎么解决?这里涉及到刚才谈的敏捷数仓,关键是业务规则的前置,弱化维度模型的模式。第一是各行业里都是有主题域的概念,比如说涉及到财务域、客户域、营销域等。这主要分两大类,一个面向业务的,一个面向分析的。面向业务的其实就是我们的业务规则,我们叫它硬规则,面向分析的叫软规则,就是跟着业务需求来的。

硬规则有很多可以参考的东西,比如说以前IBM FSDM这些行业模型,像金融行业的,制造业、零售业、交通业,包括航空有一些行业模型,可以把我们的业务抽象化。

图1.13

这是今天要讲的最重要最核心的。要把硬规则和软规则分开,整个企业架构,数据架构最核心的问题之一是要把这两块的内容分离,把硬规则前置,放到EDW企业的数仓之前,也就是客观的业务逻辑,比如刚才谈到国网SG-CIM4.5,就是国网输电、设备台帐等相关的核心业务,放到前置作为硬规则。

后面这个软规则其实是很主观的业务需求,这些业务需求是跟着业务部门的需求而变化的,要把它分离到后面去。

这是我们现在讲的敏捷数仓或者是Data  Vault模型的核心的本质。

图1.14

一开始打基础会比较花时间,因为要做企业级数据模型,也可以按不同的业务域来逐步迭代,之后的成本是一路往下走的。

图1.15

这是Data  Vault模型的基本概念了,里面分成Hub, Link、Satellite,3个核心概念,还是强调它是一个三范式的模型。

从企业级数仓在往后的业务需求软规则,才到数仓的模型,那块您可以继续使用星型模型。

图1.16

简单回顾一下,其实我们核心就是3个模型的范式:

第一个是星型模型,这里专门用了一个保时捷的图,因为它是比较灵活的,建星型模型的时候,面向某一个主题,一个聚合的场景,适合多维的分析,它的问题就是大量的辅助表。

图1.17

三范式的模型,这里用大卡车的图,很强壮,尤其是支持多对多的关系,高度结构化,没有冗余,相对来说容易扩展,这个是三范式模型最强悍的地方,我们以前业务系统设计的时候都用三范式模型。

它的劣势,第一是不能直接对接BI,因为它是一个多对多的关系,我们最终对接BI的时候没有办法多对多,不利于下钻,物理模型的设计跟业务会有不匹配的情况。

图1.18

最后这块就是Data  Vault模型,它其实是把三范式模型跟星型模型做了结合,所以它既有三范式的一些优势,又有星型模型的优势,既适合敏捷的场景又能快速构建一个星型模型,所以一般星型模型是在Data  Vault模型之后的,涉及到一些业务的关联的表达方式,也是比较灵活的,刚才讲的分成Hub、Link和Satellite(类似于我们以前的维度,会把它的属性拆出去),但是它的劣势是实体拆的比较零散,所以涉及到大量的表连接,这块我们一般都是在ETL Staging时处理,也不会太担心它的性能,因为这块不是直接对BI。

图1.19

我建议大家可以考虑企业级数仓用Data  Vault模型,做整体业务表述的构建,这里涉及到Hub、Link、Sat Link,后面再出相应的星型模型或宽表的数据集市,来构建整体的企业架构。

图1.20

这里我也拿阿里的OneData举个例子,我发现那本书大家更关注架构组件,其实那本书有一个精华,我看大家没有谈太多,OneData里涉及到统一定义、标准建模、规范研发和工具保障,这是OneData里面最核心的东西,可以看到它其实跟刚才我讲的内容一样。

最底层是ODS,中间是公共的维度模型CDM,这更多讲的统一的业务模型。到上面ADS是变化的需求,是跟我们讲的Data  Vault这个模型的概念思想一致的。

图1.21

这里引用阿里书里的一些东西,像它的命名标准,前面数据治理制度体系做完了,管理流程设立了,后面就是执行落地,数据库设计的怎么样,数据资产使用的怎么样。命名规范就是非常重要的落地手段,这里涉及到数仓分层,而且都是有规范的,在DW层、DW的明细层还是汇总层,业务主题分类,二级主题分类,描述性修饰符,及对应指标的信息,其实这些都是OneData里面的一些精华。

图1.22

涉及到模型设计,包括模型评审,模型的规范,怎么去命名它,要有一个统一的模型库来管理,有统一的模型设计工具来设计,设计完了以后涉及到评审,这一整套东西是中台架构里面最精华的东西。

图1.23

我们的数据建模工具,支持从三范式模型到Data  Vault模型,到后面的宽表的数据模型设计。可以基于这个设计,比如说前面这三张表,直接生成一个宽表,或者生成一个Data  Vault为模型,可以基于映射关系直接生成它的数据操作脚本,数据开发那部分的DML脚本已经在这里面直接生成。

当然我们最近也是跟阿里的Data  Works有一些合作,假如大家说用的是比较轻的方式,基于阿里的云平台,可以前面的逻辑模型、物理模型,包括数据库的设计在我们的建模工具里,到数据开发、数据迁移、数据服务的时候在这个Data  Works里面,这也是我们当前跟阿里合作的主要模式。

图1.24

数据模型的概念不多说了,三层:概念模型、逻辑模型、物理模型。

数据标准,大家可能都会涉及到,管理属性、业务属性、技术属性,这个阶段大家有制度了,有标准了,然后像建行一些头部的客户,他们把这个标准做成一个企业级数据模型,然后把这个模型作为标准,这是更高级的一个用法。

图1.25

图1.26

这是个例子,数据模型管控从需求分析,从概念模型到物理模型,到物理模型。

要形成闭环,后面还有几步,一个是上线交付的时候,要把模型封版,然后到运行维护的时候,要跟生产态的数据库做比对,当前封版这个模型与当前的生产库元数据做比对,这是整体的模型管控流程。

所以,事前做模型设计,事中做模型评审,事后的做模型检查和运维,其实模型管控和数据标准的管理运维要形成一个闭环的,因为现在落标这件事情一直是行业里最痛的点,怎么把数据标准落进去,通过发布标准,跟开发新建系统的模型设计结合在一起,在源端生产设计态做这个事情。

图1.27

整体实施落地过程,先将模型导入,之后基于当前导入的模型做设计,最终发版到投产,这样一个过程。

图1.28

最后开个脑洞,我们最近也是有一些超大型的客户,他们业务系统的开发本身是先设计逻辑模型,先把数据库里面不同业务系统的ER图抽出来,发现这个ER图的业务关联关系,基于这些关联关系的业务逻辑,再去开发上面的UI,这个是从数据模型驱动的开发业务系统。

简单总结一下今天的演讲,第一个是躬身入局,因为前面的数据治理制度体系都有了,后面一定是开始去落地,核心就是数据架构、数据模型。第二是统一的数据模型工具,有模型的管控流程。第三是中台的架构分离成硬规则和软规则,企业级数仓 EDW之前是硬规则,出去之后偏分析的、偏变动更强的软规则,构建起这套数据架构。

我们Datablau提供国内唯一的数据建模工具,及数据模型管控平台,在很多的大型企业已经大面积使用。同时我们本身也是提供一些数据架构相关的咨询服务内容,我们团队很多以前一直都在搞模型,本身我们对这些行业模型都蛮熟悉的,银行、保险、证券、基金、电力、航空等等,我们也是积累了很多行业的命名词典、行业规范等。我们也可以提供相关的培训服务。

这大概是我今天介绍的内容,大家如果有兴趣可以线下到我们展位那边做更多的了解,谢谢大家。

阿里中台架构与数据模型管控相关推荐

  1. 中台架构与数据模型管控

    中台架构与数据模型管控 本文根据王琤先生在[DQMIS 2020第四届数据质量管理国际峰会]现场演讲内容整理而成. 各位新老朋友,好久不见,这是疫情之后首个数据治理线下大规模的会,如今各个企业的数据治 ...

  2. 阿里总监谢纯良,讲透《阿里中台架构实践与思考》,PPT 音频!

    欢迎关注"技术领导力",每天早上8:30推送 来源| AS大会 本文整理了,阿里技术方案总监--谢纯良,在AS大会上的题为<阿里巴巴中台技术架构--实践与思考>的分享. ...

  3. 中台架构究竟是什么?为什么这么火?通过阿里中台架构实战让你的架构思维有所成长

    背景 中台是一剂良药, 对症下药能治顽疾,用药不当,会送了你的命. 你真的知道中台吗? 最近有不少于两百个小伙伴问到了我关于中台的事,本文聊聊中台. 今年在IT圈内,中台的概念确实比较火,你可能在朋友 ...

  4. “阿里中台架构”15篇刷屏文章精选,快收藏!

    点击"技术领导力"关注∆  每天早上8:30推送 来源:技术领导力(ID:jishulingdaoli) 转载请加微信:tojerry123 近三个月以来,"技术领导力& ...

  5. CTO让我研究中台(一):阿里的“数据+业务”双中台架构

    作者| Mr.K 来源| 技术领导力(ID:jishulingdaoli) 本文重新整理了阿里中台相关资料,包括阿里的几位技术专家,如谢良纯.玄难等,关于中台架构的几次分享内容,结合老K的理解进行梳理 ...

  6. CTO丢给我中台总结:阿里的“数据+业务”双中台架构

    Mr.K 技术领导力(jishulingdaoli) 读完需要 5 分钟 速读仅需 2 分钟 作者| Mr.K   编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 本文重新 ...

  7. 再探阿里的“数据+业务”双中台架构

    01 阿里中台架构的定义 中台是一种架构理念和方法.任何一种架构的方法,其本质不外乎,利用分.合.打散.重组等技术手段,对系统进行有序化重构,以达到减少系统"熵"的过程,使系统得以 ...

  8. 学阿里中台,80%的人只学到了皮毛!揭秘阿里中台的12个架构思维和原则

    戳蓝字"CSDN云计算"关注我们哦! 来源 | 阿里技术官方公众号(ali_tech) 作者|九摩/阿里技术专家 许多企业都忙于学习阿里的中台系统,想通过中台系统,解决企业当前的痛 ...

  9. 阿里架构师钟华,揭秘《阿里中台战略思想与实战》,ppt分享!

    点击"技术领导力"关注∆  每天早上8:30推送 本文整理了,阿里中间件首席架构师--钟华(古谦),在云栖大会上的分享,原主题为<企业核心业务数字化转型最佳实践>.如果 ...

最新文章

  1. 0909 编译原理1
  2. python正则表达式操作指南_Python重新正则表达式操作指南
  3. VTK:Rendering之MotionBlur
  4. mysql日期格式转化
  5. oracle11g中SQL优化(SQL TUNING)新特性之SQL Plan Management(SPM)
  6. 关于协程和 ES6 中的 Generator
  7. 【零基础学Java】—自定义异常(四十八)
  8. Android开发学习之仿手机QQ消息列表侧滑删除效果
  9. linux内核编译选项ccl,嵌入式Linux学习笔记(一)
  10. 简书android 输入法设置,Android输入法弹出流程
  11. JAVA IO之管道流总结大全(转)
  12. 二叉树的深度(剑指 Offer 55 - I)
  13. Notepad++官网下载
  14. 【毕业设计】67-基于单片机的三相电压型SPWM逆变器控制设计及应用(仿真、原理图、源代码、低重复参考文档、答辩PPT、英文文献)
  15. html圈c为什么显示问号,朋友圈中能翻译变文字的“问号”是怎么回事?
  16. 如何用计算机制作海报,稿定设计如何制作海报 一键生成海报的方法
  17. 开机动画适配方案_修改开机动画教程
  18. 查询电脑关机/重启记录
  19. Android入门,android开发需要什么基础
  20. IOT Core-设备接入网关

热门文章

  1. 硬件接口开发之Modem来电显示
  2. STM32单片机(五)第二节:EXTI外部中断练习1(对射式红外传感器计次)
  3. RS-232与RS-422及RS-485三者之间的特性与区别
  4. Unet简明代码实现眼底图像血管分割
  5. 固定电话转接设置方法
  6. 【3D 目标检测】M3DETR
  7. 大学生影视主题网页制作 HTML CSS JS仿360影视网站 dreamweaver电影HTML网站制作
  8. javascript php开发,JavaScript 开发者调查报告:PHP是最好的编程语言!
  9. 智能仓储管理(WMS)系统建设理念
  10. html图片上面怎么 画,HTML5使用drawImage()方法绘制图像