数据模型能够促进业务与技术进行有效沟通。只要基于数据进行决策及拓展业务边界,好的数据模型必不可少。

那么,企业究竟该如何构建数据模型呢?

9月16日,「数智·泛零售」04课,奇点云高级数据模型架构专家天启结合实践经验分享的《泛零售数据中台实施之模型设计》解答了疑惑。

01 数据中台能解决什么问题?

我们用四个字总结「全、、通、用」。

全:数据中台和数据仓库的区别,数据仓库是满足业务需求或业务主题的;而数据中台是一个大而全的概念,为企业提供战略性的数据中台服务。数据应收尽收,所有能沉淀到数据中台的数据都收集到数据中台,包括增量、全量、实时、离线的数据。

统:统一数据标准规范。从数据质量标准、安全标准、模型规范、开发规范统一起来形成数据资产。

通:打通人的身份ID、商品ID、媒介ID,消除数据孤岛。

用:体现在数据服务,用起来会有流共享、批共享及其他共享。总结起来:「全」是基础;「统和通」是途径;「用」是最终目的,最高境界是数据驱动业务创新和变革。数据中台=方法论+实施+工具

数据中台能落地的关键点:强大的数据中台理论体系支撑+大数据实施流程体系、业务团队能力+大数据建设产品工具集。

One Data方法论

One Data = One Model + One ID + One Service

One Model:统一数据模型,规范指标、标签,消除二义性,将数据从成本中心变成利润中心。One ID:实体ID的唯一性,数据打通后进行数据升维,将数据从孤立变为融通。One Service:统一数据服务,数据从过去的复制到一次开发,多次复用。

02 数据模型选择思考

熟悉数据仓库的同学都了解两位大师,一位是数据仓库之父——Bill Inmon,他提倡的顶层设计是自顶向下的,采用三范式的设计,非常严谨可减少数据的冗余。

另一位是维度建模大师——Ralph Kimball,维度建模更简单,执行起来更容易上手。顶层设计思路是自底向上的,从业务出发,从概念模型到逻辑模型再到物理模型,提倡先有数据集市,各个小的数据集市可以组成数据仓库。

这里仅列举两种模型:星型模型与雪花模型。星型模型是维度建模中比较经典的模型,也是目前用的较普遍的模型,星型模型是所有维度表都直接连接到事实表上,整个图解就像星星一样。

雪花模型是对星型模型的扩展。通过三范式建模,数据冗余比较少,更加规范、严谨,更有利于保持数据的一致性。

通常情况下,为了让下游能更好理解业务,快速提供数据服务,我们会选择星型模型;而在维度信息变化非常频繁,或者数据存储成本非常高的情况下,我们可以采用雪花模型。归根到底,数据模型没有好坏之分,只有能否解决业务问题。

那泛零售企业该如何选择数据中台模型?

顶层设计、建模理论、业务场景三个大方向考虑。顶层设计:数据中台是大而全的概念,Inmon大师自顶向下的设计思路兼顾业务全局,比较符合数据中台理论。

建模理论:主要以维度建模为核心,结合多种建模百花齐放。

业务场景:如泛零售行业最主要的是「人货场」,从「人」:组织、客户;「货」:商品、服务;「场」:渠道、门店、商场等;「行为」:订单、营销、工单等考虑。

One Model

普遍情况下,一个大的集团可能有好多个大的业务板块,比如地产、金融、电商等。而一般的小公司业务比较单一的话就只分一个业务板块。

数据域是面向业务分析,将业务过程或者维度进行抽象的集合。

业务过程是指企业的业务活动事件,如下单、支付、退款都是业务过程。

维度设计是维度建模的灵魂,也是数据中台模型设计的基础,维度设计的核⼼是构建⼀致性维度。而粒度可以认为是维度的组合,如卖家和买家结合起来可以理解为两个维度,一个粒度。

03 数据模型最佳实践

好的数据模型最终都为业务而生。

具体来说,就是把业务抽象化,提炼成数据模型,再通过数据解决业务问题。

数据建模过程中有哪些常见问题?

数据域划分:可理解,全局考虑,数量适中。

业务过程:是一个逻辑的概念,需与度量关联。

一致性维度:做维度表的时候,有的公司有自己的主数据系统,但有些公司没有自己的主数据系统,需要将数据合并,因此诞生了桥接表,用逻辑的维度表,底层是多张表拼凑而成,且维度表每天都在变化。

明细事实表:分为多事实、单事实、无事实的事实表,很多人会误解为事实表一定要有度量值,但不一定,有的是行为的操作数据,甚至维度表和事实表之间可以相互转换,只有在粒度一致的情形下,才能将多个的事实进行合并。

数仓分层:从ODS-CDM-ADS。

了解维度和粒度之间的关系, 粒度是维度的组合。

数据模型过程中,有何设计心得?

数据不丢失,是最重要的一点。在ODS层的设计就需体现,要长期保留数据。

数据不重复,为保证数据治理的准确性,重复的数据需要提前剔除。

模型能共享,数据集市中的模型共享容易做到,数据集市是满足业务需求的,但是数据中台的模型共享,明细事实表和维度表都需要用到,但是业务会不断进行迭代和创新,所以也可能避免不了要从原始数据中取的可能。

空间换时间,为了能更大程度进行共享,可以做冗余的设计。

任务能重跑,保证后期的运维能力。

业务是爸爸,所有不考虑业务的数据模型都是耍流氓。即使数据模型设计得再好,若业务模型不认可,不满足业务的数据模型都是无效的。数据模型最终都是为业务服务的。不管是黑猫白猫,在一定的设计思想里满足之后都是可以进行创新的。

04 数据模型的前沿畅想

新方向=产品化+行业化+智能化

模型产品化盘点即上云:若对数据进行认真盘点,收集足够多的元数据,把表结构、字段类型、数据库类型,只要把元数据盘点完后一键导入,并可以一键生成头部任务,因此,数据开发人员只需要解决异常情况即可。

设计即开发:有了模型的设计,维度表、事实表、指标定义后,底层的代码是自动实现的,不必再担心SQL的优化、性能调优。

资产即服务:所有的数据进行模型设计后,所有的表都可以进行数据资产化,有了资产即有服务。

模型行业化每个行业有明显的特点,如泛零售行业对人货场的分析比较固定,因此建的模型固定的部分是可以通用的。

模型智能化模型设计越来越简单,容易上手,模型物理层的优化越来越智能,模型和智能应用结合,赋能业务。

数据模型与决策_好的数据模型最终都为业务而生相关推荐

  1. 数据模型与决策_数据模型与决策复习资料拿走不用客气

    下周华师大MBA就要考试啦~ 小伙伴们复习的怎么样啦? 特别是令大家头疼的数据模型与决策~ 是不是还在咬笔头苦恼从哪里开始复习呀! 流浪de猫00给大家准备了一些 复习资料和往届试卷 拿走不用客气~ ...

  2. python 数据模型好学吗_闪银数据模型组求人----靠谱 Python 开发有那么难招吗?(20k 起)...

    来自北京闪银的风控架构师, 求 Python 开发 诚心招靠谱的 Pythoner ( 2-3 人),技术是第一考核标准 闪银这边风控团队急缺靠谱的 Python 开发,有很多有意思的项目将要启动,技 ...

  3. 大数据模型研究报告pdf_大数据模型与决策课程案例分析报告

    数据模型与决策课程案例一 生产战略 一.问题提出 好身体公司( BFI )在长岛自由港工厂生产健身练习器械.最近他们设计了两种针对家庭锻 炼所广泛使用的举重机. 两种机器都是用了 BFI 专利技术, ...

  4. mysql是网状_三种数据模型---层次模型、网状模型以及关系模型

    本文转载自:http://www.cnblogs.com/yue-blog/p/6010527.html 一.层次数据模型 定义:层次数据模型是用树状结构来组织数据的数据模型. 其实层次数据模型就是的 ...

  5. 读书 | 一切红利最终都是趋势红利

    [读书总结]| 总结/Edison Zhou 在去年年底就读完了刘润老师2016年出版的<趋势红利>,一直没有来得及做笔记整理,于是,这就来了. 1所有红利最终都是趋势红利 中国的企业近年 ...

  6. 均值回归理论,均值回归法则是指万物最终都将回归于其长期的均值

    均值回归理论,均值回归法则是指万物最终都将回归于其长期的均值 均值回归(reversion to the mean)法则是指万物最终都将回归于其长期的均值. 当事物发展严重偏离其长期均值时,总有内在力 ...

  7. 最讨厌心灵鸡汤 所有失败最终都是人不行

    刘强东:最讨厌心灵鸡汤 所有失败最终都是人不行 2017年08月05日12:29 中国企业家 886微博微信QQ空间添加喜爱 刘强东说,业绩不行就是团队出了问题. 文|刘强东    编辑|付迎爽 来源 ...

  8. jmeter 不同场景 比例_在JMeter测试中如何根据业务场景来控制运行比例

    性能测试混合场景中,我们需要组合多个业务操作到场景中来. 比如有一个论坛的业务分布如下: 开新帖与回复帖子的比例为2:3, 那么我们在JMeter测试计划中如何控制其比例呢? 下面我们介绍两种方式: ...

  9. 习惯了等待的伤感QQ日志_散了,回忆都淡了

    习惯了等待的伤感QQ日志_散了,回忆都淡了 - 习惯了等待的伤感QQ日志_散了,回忆都淡了 人,很可能在初恋失败的那一刻,或年轻丧偶的那一天,便已经把自己一生的爱,跟着埋葬.剩下的只是身体,在人间过着 ...

  10. 计算机中数的存储和处理都使用二进制对吗,计算机中的数据可分为两种类型:数字和字符,它们最终都要转换为二进制代码进行存储和处理。对于人们习惯的十进制数字,通常用____进行转换。...

    计算机中的数据可分为两种类型:数字和字符,它们最终都要转换为二进制代码进行存储和处理.对于人们习惯的十进制数字,通常用____进行转换. 更多相关问题 [单选] 电力线路巡视检查周期,定期巡视每月至少 ...

最新文章

  1. 便携式不锈钢管道焊接机器人_304不锈钢管居然可以发黑!?
  2. Docker之 默认桥接网络与自定义桥接网卡
  3. 全能王PDF转换器 V2.0.0.2
  4. 打开多网页用服务器系统好吗,如何在打开多个网页后,只需在一个网页上操作,其他网页都会同步操作?...
  5. c语言验证鼓角猜想,患者,男,43岁,交通警察。下肢酸胀、沉重6年,活动或休息后减轻。体格检:小腿外侧有蚓状团块,足靴区...
  6. arp 已知mac找ip_ARP协议修订版
  7. 宏观经济学——GDP
  8. 谁说小米手机拍照差?开启这3个模式,瞬间拍出单反的效果
  9. WIN10下msi GE62 1077 无线热点掉线问题处理(更新:取消自动关闭热点
  10. linux tar高级用法,Linux中tar命令高级用法——备份…
  11. python查询12306余票_「python」12306余票查询GUI
  12. Window系统多硬盘设置新引导盘
  13. 如何批量将 ppt 后缀格式的演示文稿转换为 pptx 格式
  14. 页面图片 “懒加载”
  15. Java实现 四舍五入取整到百位 四舍五入取整到千位 数字取整到千位 数字取值到千位 数字取整到百位 数字取值到百位
  16. 二进制安装habor
  17. SQL 查询的分布式执行与调度
  18. 小型数据库系统开发作业
  19. JavaScript检查浏览器是否为IE8以上版本
  20. 14家国内外医药行业协会于国际医药创新大会联合签署《医药创新宣言》

热门文章

  1. linux mint 向“显示(display)”面板添加没有提供的分辨率选项,使虚拟机中的linux mint可以全屏显示...
  2. 操作数据库为什么需要进行事务控制
  3. C#3.0亮点 —— lambda表达式
  4. TensorFlow应用实战-18-Policy Gradient算法
  5. Django中ORM之创建模型
  6. VMware仅主机网络联网设置
  7. puppetmaster 自动签名
  8. nginx 逻辑运算
  9. Jersey the RESTful Web Services in Java
  10. 了解PHP中$_SERVER变量对路径的解析