大数据之路—— 数据整合和管理体系
九、数据模型篇—— 数据整合和管理体系
- 9.1 体系架构图
- 9.2 名词术语
- 9.3 指标体系
- 9.4 模型设计
- 9.4.1 基本原则
- 9.5 模型实施
大数据建设方法论的核心:从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理性、可追溯、可规避重复建设。
<>
建设统一的、规范的数据接入层和中间层,完成数据公共层建设,提供标准化的、共享的、数据服务能力,降低成本等。
9.1 体系架构图
9.2 名词术语
- 数据域:指面向业务分析,将业务过程或者维度进行抽象的集合。是要抽象提炼,并且长期维护和更新的,不轻易变动。如交易域、商品域、会员域
- 业务过程:一个个不可拆分的行为事件(企业活动中的事件)。如下单、支付、退款(交易域),发布、上架(商品域),发帖(互动域)
- 时间周期:明确数据统计的事件范围或时间点。如最近30天、截止当日
- 修饰类型:对修饰词的抽象划分。从属于某个业务域。如访问终端类型
- 修饰词:除了统计维度以外指标的业务场景限定抽象。如:PC端、无线端
- 度量/原子指标:基于某一业务事件行为下的度量,不可拆分的指标,有明确业务含义的名词。如支付金额
- 维度:指度量的环境,**用来反映业务的一类属性,**这类属性的集合构成一个维度。如地理维度、事件维度、买家下单事件中的买家
- 维度属性:隶属于一个维度,如国家、地区、省市
- 派生指标:一个原子指标+多个修饰词(可选)+ 时间周期构成。对原子指标业务范围统计的圈定。如:原子指标为支付金额,那么派生指标可以是最近一天海外买家支付金额
9.3 指标体系
- 派生指标:一个原子指标+多个修饰词(可选)+ 时间周期构成。且可选择多个修饰词,修饰词之间的关系为或或者且,派生指标唯一归属于一个原子指标。
- 原子指标:要有确定的英文字段名(动作+度量)、数据类型和算法说明。
- 修饰词:只有时间周期才会有英文名。如最近一天1d,截止当日td,最近7天1w
- 一般来说有三种指标:
- 事务型指标: 对业务活动进行衡量的指标。如新发商品数、新增注册会员数
- 存量型指标:实体对象英文名 + stock。如在线会员数、注册会员总数等
- 复合型指标:在上面两个指标的基础上复合而成。如浏览UV下单买家数转换率。(比率型、比例型、变化量型、变化率型、统计型、排名型、对象集合型)
- 事务和存量指标,他们只会唯一定位到一个业务过程,两个行为同时发生、需要多个修饰词、生成一个派生指标的情况,会选择时间靠后的行为创建原子指标,前面的行为为修饰词。
9.4 模型设计
维度建模理论为基础,基于维度数据模型总线架构,构建一致性的维度和事实
操作数据层(ODS):操作系统数据几乎无处理地存放在数据仓库中。主要做的操作:同步、结构化、累计历史、清洗。
公共维度模型层(CDM):存放明细事实数据、维表数据以及公共指标汇总数据。采用维度退化的手段,把维度退化到事实表中,减少事实表和维表的管理,提高易用性和复用性。主要操作:组合相关和相似数据、公共指标统一加工、建立一致性维度
应用数据层(ADS):存放数据产品个性化的统计指标数据。主要操作:个性化指标加工、应用的数据组装
9.4.1 基本原则
- 高聚合低耦合,业务相近或相关的设计为一个物理模型,高概率同时访问的放一起。
- 核心模型和扩展模型分离
- 公共处理逻辑下沉及单一,底层进行封装和实现
- 成本与性能平衡
- 数据可回滚
- 一致性
- 命名清晰、可理解
9.5 模型实施
需要充分的业务调研和需求分析,这个是基石;
进行数据总体架构设计,主要是根据数据域对数据划分;
按照维度建模理论,构建总线矩阵、抽象出业务过程和维度;
对报表需求整理出指标体系。
大数据之路—— 数据整合和管理体系相关推荐
- 大数据之路读书笔记-09阿里巴巴数据整合及管理体系
大数据之路读书笔记-09阿里巴巴数据整合及管理体系 面对爆炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性, 直是 ...
- 数据模型篇:二、阿里巴巴数据整合及管理体系
阿里巴巴数据整合及管理体系 文章目录 阿里巴巴数据整合及管理体系 一.概述 1.1.定位和价值 1.2.体系架构 二.规范定义 2.1.名词术语解释 2.2.指标体系 指标类型 操作细则 三.模型设计 ...
- 【阿里巴巴大数据实践笔记】第9章:阿里巴巴数据整合及管理体系
1.大数据系统建设追求目标 建设高效的数据模型和体系, 对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性. 2.阿里巴巴OneData OneData 是阿里巴 ...
- 万字总结阿里大数据之路-数据技术篇(建议收藏)
目录 一.日志采集 1.1 浏览器的页面日志采集 1.2 无线客户端的日志采集 1.3 日志采集的挑战案例 二.数据同步 2.1 数据同步基础 2.2 数据同步策略 2.2.1 批量数据同步 2.2. ...
- 大数据之路——数据同步
三.数据技术篇-- 数据同步 3.1 数据同步基础 @ 3.1.1 直连同步 3.1.2 数据文件同步 3.1.3 数据库日志解析同步 3.2 数据仓库同步方式 3.2.1 批量数据同步 3.2.2 ...
- 阿里大数据之路 总述
大数据之路 一.总述 1. 数据采集 2. 数据计算 3. 数据服务 4. 数据应用 一.总述 数据有序.有结构地分类和存储,从而产生价值. 实时:数据量大,要实时.准确 离线:采集.存储.计 ...
- 《大数据之路:阿里巴巴大数据实践》-第3篇 数据管理篇 -第15章 数据质量
<大数据之路:阿里巴巴大数据实践>系列丛书 第1章 总述 第1篇 数据技术篇 第2章 日志釆集 第3章 数据同步 第4章 离线数据开发 第5章 实时技术 第6章 数据服务 第 ...
- 数据库仓工具箱及阿里大数据之路--阅读总结
一.数据仓库工具箱 1.主要内容 结合业务场景,阐述 1.维度建模以及事实表的基本及相关概念. 2.根据业务主题的总线矩阵图,梳理业务流程.指标以及对应的维度. 3.关于事实表的阐述. 4.企业层面的 ...
- 大数据之路读书笔记-01总述
大数据之路读书笔记-01总述 此系列文章为大数据之路的读书笔记,如侵可删 2014 年,马云提出,"人类正从 IT 时代走向 DT 时代 "如果说IT时代是以自我控制.自我管理为主 ...
最新文章
- zimbra邮件服务器配置,Zimbra邮件服务器无需登录任意邮箱伪造漏洞修复
- Vue中的箭头函数=>目的是用来简化函数的写法的分为三部分:被赋值的变量 传入的参数 返回的数据
- Google Spanner 论文笔记
- 项目中缺少maven dependencis,或者pom文件报红
- 补习系列(21)-SpringBoot初始化之7招式
- Spring Boot基础学习笔记15:实现文件下载功能
- Java项目——博客系统(毕业设计)
- JS魔法堂:浏览器模式和文档模式怎么玩?
- 谷歌紧急修复已遭在野利用的Chrome 0day
- 大数据技术对互联网的影响
- 30秒您学会配置TomCat环境变量,并运行无错
- Python测试Kafka集群(pykafka)
- MySQL数据库MyISAM与InnoDB存储引擎的比较
- linux usb bulk传输,2.1.1.2. USB MSC Bulk-Only (BBB) Transport
- form表单钩子,局部钩子和全局钩子
- win10 软路由_软路由和硬路由的区别分析
- 给你一个网站你是如何来渗透测试的?
- 按照斗地主的规则,完成洗牌发牌的动作
- 从代码上看鸿蒙 APP 与安卓 APP 的关系
- Boost(一)——Boost简介