数据模型与决策_好的数据模型最终都为业务而生
数据模型能够促进业务与技术进行有效沟通。只要基于数据进行决策及拓展业务边界,好的数据模型必不可少。
那么,企业究竟该如何构建数据模型呢?
9月16日,「数智·泛零售」04课,奇点云高级数据模型架构专家天启结合实践经验分享的《泛零售数据中台实施之模型设计》解答了疑惑。
01 数据中台能解决什么问题?
我们用四个字总结「全、统、通、用」。
全:数据中台和数据仓库的区别,数据仓库是满足业务需求或业务主题的;而数据中台是一个大而全的概念,为企业提供战略性的数据中台服务。数据应收尽收,所有能沉淀到数据中台的数据都收集到数据中台,包括增量、全量、实时、离线的数据。
统:统一数据标准规范。从数据质量标准、安全标准、模型规范、开发规范统一起来形成数据资产。
通:打通人的身份ID、商品ID、媒介ID,消除数据孤岛。
用:体现在数据服务,用起来会有流共享、批共享及其他共享。总结起来:「全」是基础;「统和通」是途径;「用」是最终目的,最高境界是数据驱动业务创新和变革。数据中台=方法论+实施+工具
数据中台能落地的关键点:强大的数据中台理论体系支撑+大数据实施流程体系、业务团队能力+大数据建设产品工具集。
One Data方法论
One Data = One Model + One ID + One Service
One Model:统一数据模型,规范指标、标签,消除二义性,将数据从成本中心变成利润中心。One ID:实体ID的唯一性,数据打通后进行数据升维,将数据从孤立变为融通。One Service:统一数据服务,数据从过去的复制到一次开发,多次复用。
02 数据模型选择思考
熟悉数据仓库的同学都了解两位大师,一位是数据仓库之父——Bill Inmon,他提倡的顶层设计是自顶向下的,采用三范式的设计,非常严谨可减少数据的冗余。
另一位是维度建模大师——Ralph Kimball,维度建模更简单,执行起来更容易上手。顶层设计思路是自底向上的,从业务出发,从概念模型到逻辑模型再到物理模型,提倡先有数据集市,各个小的数据集市可以组成数据仓库。
这里仅列举两种模型:星型模型与雪花模型。星型模型是维度建模中比较经典的模型,也是目前用的较普遍的模型,星型模型是所有维度表都直接连接到事实表上,整个图解就像星星一样。
雪花模型是对星型模型的扩展。通过三范式建模,数据冗余比较少,更加规范、严谨,更有利于保持数据的一致性。
通常情况下,为了让下游能更好理解业务,快速提供数据服务,我们会选择星型模型;而在维度信息变化非常频繁,或者数据存储成本非常高的情况下,我们可以采用雪花模型。归根到底,数据模型没有好坏之分,只有能否解决业务问题。
那泛零售企业该如何选择数据中台模型?
从顶层设计、建模理论、业务场景三个大方向考虑。顶层设计:数据中台是大而全的概念,Inmon大师自顶向下的设计思路兼顾业务全局,比较符合数据中台理论。
建模理论:主要以维度建模为核心,结合多种建模百花齐放。
业务场景:如泛零售行业最主要的是「人货场」,从「人」:组织、客户;「货」:商品、服务;「场」:渠道、门店、商场等;「行为」:订单、营销、工单等考虑。
One Model
普遍情况下,一个大的集团可能有好多个大的业务板块,比如地产、金融、电商等。而一般的小公司业务比较单一的话就只分一个业务板块。
数据域是面向业务分析,将业务过程或者维度进行抽象的集合。
业务过程是指企业的业务活动事件,如下单、支付、退款都是业务过程。
维度设计是维度建模的灵魂,也是数据中台模型设计的基础,维度设计的核⼼是构建⼀致性维度。而粒度可以认为是维度的组合,如卖家和买家结合起来可以理解为两个维度,一个粒度。
03 数据模型最佳实践
好的数据模型最终都为业务而生。
具体来说,就是把业务抽象化,提炼成数据模型,再通过数据解决业务问题。
数据建模过程中有哪些常见问题?
数据域划分:可理解,全局考虑,数量适中。
业务过程:是一个逻辑的概念,需与度量关联。
一致性维度:做维度表的时候,有的公司有自己的主数据系统,但有些公司没有自己的主数据系统,需要将数据合并,因此诞生了桥接表,用逻辑的维度表,底层是多张表拼凑而成,且维度表每天都在变化。
明细事实表:分为多事实、单事实、无事实的事实表,很多人会误解为事实表一定要有度量值,但不一定,有的是行为的操作数据,甚至维度表和事实表之间可以相互转换,只有在粒度一致的情形下,才能将多个的事实进行合并。
数仓分层:从ODS-CDM-ADS。
了解维度和粒度之间的关系, 粒度是维度的组合。
数据模型过程中,有何设计心得?
数据不丢失,是最重要的一点。在ODS层的设计就需体现,要长期保留数据。
数据不重复,为保证数据治理的准确性,重复的数据需要提前剔除。
模型能共享,数据集市中的模型共享容易做到,数据集市是满足业务需求的,但是数据中台的模型共享,明细事实表和维度表都需要用到,但是业务会不断进行迭代和创新,所以也可能避免不了要从原始数据中取的可能。
空间换时间,为了能更大程度进行共享,可以做冗余的设计。
任务能重跑,保证后期的运维能力。
业务是爸爸,所有不考虑业务的数据模型都是耍流氓。即使数据模型设计得再好,若业务模型不认可,不满足业务的数据模型都是无效的。数据模型最终都是为业务服务的。不管是黑猫白猫,在一定的设计思想里满足之后都是可以进行创新的。
04 数据模型的前沿畅想
新方向=产品化+行业化+智能化
模型产品化盘点即上云:若对数据进行认真盘点,收集足够多的元数据,把表结构、字段类型、数据库类型,只要把元数据盘点完后一键导入,并可以一键生成头部任务,因此,数据开发人员只需要解决异常情况即可。
设计即开发:有了模型的设计,维度表、事实表、指标定义后,底层的代码是自动实现的,不必再担心SQL的优化、性能调优。
资产即服务:所有的数据进行模型设计后,所有的表都可以进行数据资产化,有了资产即有服务。
模型行业化每个行业有明显的特点,如泛零售行业对人货场的分析比较固定,因此建的模型固定的部分是可以通用的。
模型智能化模型设计越来越简单,容易上手,模型物理层的优化越来越智能,模型和智能应用结合,赋能业务。
数据模型与决策_好的数据模型最终都为业务而生相关推荐
- 数据模型与决策_数据模型与决策复习资料拿走不用客气
下周华师大MBA就要考试啦~ 小伙伴们复习的怎么样啦? 特别是令大家头疼的数据模型与决策~ 是不是还在咬笔头苦恼从哪里开始复习呀! 流浪de猫00给大家准备了一些 复习资料和往届试卷 拿走不用客气~ ...
- python 数据模型好学吗_闪银数据模型组求人----靠谱 Python 开发有那么难招吗?(20k 起)...
来自北京闪银的风控架构师, 求 Python 开发 诚心招靠谱的 Pythoner ( 2-3 人),技术是第一考核标准 闪银这边风控团队急缺靠谱的 Python 开发,有很多有意思的项目将要启动,技 ...
- 大数据模型研究报告pdf_大数据模型与决策课程案例分析报告
数据模型与决策课程案例一 生产战略 一.问题提出 好身体公司( BFI )在长岛自由港工厂生产健身练习器械.最近他们设计了两种针对家庭锻 炼所广泛使用的举重机. 两种机器都是用了 BFI 专利技术, ...
- mysql是网状_三种数据模型---层次模型、网状模型以及关系模型
本文转载自:http://www.cnblogs.com/yue-blog/p/6010527.html 一.层次数据模型 定义:层次数据模型是用树状结构来组织数据的数据模型. 其实层次数据模型就是的 ...
- 读书 | 一切红利最终都是趋势红利
[读书总结]| 总结/Edison Zhou 在去年年底就读完了刘润老师2016年出版的<趋势红利>,一直没有来得及做笔记整理,于是,这就来了. 1所有红利最终都是趋势红利 中国的企业近年 ...
- 均值回归理论,均值回归法则是指万物最终都将回归于其长期的均值
均值回归理论,均值回归法则是指万物最终都将回归于其长期的均值 均值回归(reversion to the mean)法则是指万物最终都将回归于其长期的均值. 当事物发展严重偏离其长期均值时,总有内在力 ...
- 最讨厌心灵鸡汤 所有失败最终都是人不行
刘强东:最讨厌心灵鸡汤 所有失败最终都是人不行 2017年08月05日12:29 中国企业家 886微博微信QQ空间添加喜爱 刘强东说,业绩不行就是团队出了问题. 文|刘强东 编辑|付迎爽 来源 ...
- jmeter 不同场景 比例_在JMeter测试中如何根据业务场景来控制运行比例
性能测试混合场景中,我们需要组合多个业务操作到场景中来. 比如有一个论坛的业务分布如下: 开新帖与回复帖子的比例为2:3, 那么我们在JMeter测试计划中如何控制其比例呢? 下面我们介绍两种方式: ...
- 习惯了等待的伤感QQ日志_散了,回忆都淡了
习惯了等待的伤感QQ日志_散了,回忆都淡了 - 习惯了等待的伤感QQ日志_散了,回忆都淡了 人,很可能在初恋失败的那一刻,或年轻丧偶的那一天,便已经把自己一生的爱,跟着埋葬.剩下的只是身体,在人间过着 ...
- 计算机中数的存储和处理都使用二进制对吗,计算机中的数据可分为两种类型:数字和字符,它们最终都要转换为二进制代码进行存储和处理。对于人们习惯的十进制数字,通常用____进行转换。...
计算机中的数据可分为两种类型:数字和字符,它们最终都要转换为二进制代码进行存储和处理.对于人们习惯的十进制数字,通常用____进行转换. 更多相关问题 [单选] 电力线路巡视检查周期,定期巡视每月至少 ...
最新文章
- 便携式不锈钢管道焊接机器人_304不锈钢管居然可以发黑!?
- Docker之 默认桥接网络与自定义桥接网卡
- 全能王PDF转换器 V2.0.0.2
- 打开多网页用服务器系统好吗,如何在打开多个网页后,只需在一个网页上操作,其他网页都会同步操作?...
- c语言验证鼓角猜想,患者,男,43岁,交通警察。下肢酸胀、沉重6年,活动或休息后减轻。体格检:小腿外侧有蚓状团块,足靴区...
- arp 已知mac找ip_ARP协议修订版
- 宏观经济学——GDP
- 谁说小米手机拍照差?开启这3个模式,瞬间拍出单反的效果
- WIN10下msi GE62 1077 无线热点掉线问题处理(更新:取消自动关闭热点
- linux tar高级用法,Linux中tar命令高级用法——备份…
- python查询12306余票_「python」12306余票查询GUI
- Window系统多硬盘设置新引导盘
- 如何批量将 ppt 后缀格式的演示文稿转换为 pptx 格式
- 页面图片 “懒加载”
- Java实现 四舍五入取整到百位 四舍五入取整到千位 数字取整到千位 数字取值到千位 数字取整到百位 数字取值到百位
- 二进制安装habor
- SQL 查询的分布式执行与调度
- 小型数据库系统开发作业
- JavaScript检查浏览器是否为IE8以上版本
- 14家国内外医药行业协会于国际医药创新大会联合签署《医药创新宣言》
热门文章
- linux mint 向“显示(display)”面板添加没有提供的分辨率选项,使虚拟机中的linux mint可以全屏显示...
- 操作数据库为什么需要进行事务控制
- C#3.0亮点 —— lambda表达式
- TensorFlow应用实战-18-Policy Gradient算法
- Django中ORM之创建模型
- VMware仅主机网络联网设置
- puppetmaster 自动签名
- nginx 逻辑运算
- Jersey the RESTful Web Services in Java
- 了解PHP中$_SERVER变量对路径的解析