九、数据模型篇—— 数据整合和管理体系

  • 9.1 体系架构图
  • 9.2 名词术语
  • 9.3 指标体系
  • 9.4 模型设计
    • 9.4.1 基本原则
  • 9.5 模型实施

大数据建设方法论的核心:从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理性、可追溯、可规避重复建设。
<>
建设统一的、规范的数据接入层和中间层,完成数据公共层建设,提供标准化的、共享的、数据服务能力,降低成本等。

9.1 体系架构图

9.2 名词术语

  • 数据域:指面向业务分析,将业务过程或者维度进行抽象的集合。是要抽象提炼,并且长期维护和更新的,不轻易变动。如交易域、商品域、会员域
  • 业务过程:一个个不可拆分的行为事件(企业活动中的事件)。如下单、支付、退款(交易域),发布、上架(商品域),发帖(互动域)
  • 时间周期:明确数据统计的事件范围或时间点。如最近30天、截止当日
  • 修饰类型:对修饰词的抽象划分。从属于某个业务域。如访问终端类型
  • 修饰词:除了统计维度以外指标的业务场景限定抽象。如:PC端、无线端
  • 度量/原子指标:基于某一业务事件行为下的度量,不可拆分的指标,有明确业务含义的名词。如支付金额
  • 维度:指度量的环境,**用来反映业务的一类属性,**这类属性的集合构成一个维度。如地理维度、事件维度、买家下单事件中的买家
  • 维度属性隶属于一个维度,如国家、地区、省市
  • 派生指标一个原子指标+多个修饰词(可选)+ 时间周期构成。对原子指标业务范围统计的圈定。如:原子指标为支付金额,那么派生指标可以是最近一天海外买家支付金额

9.3 指标体系

  • 派生指标一个原子指标+多个修饰词(可选)+ 时间周期构成。且可选择多个修饰词,修饰词之间的关系为或者,派生指标唯一归属于一个原子指标。
  • 原子指标:要有确定的英文字段名(动作+度量)、数据类型和算法说明。
  • 修饰词:只有时间周期才会有英文名。如最近一天1d,截止当日td,最近7天1w
  • 一般来说有三种指标:
    • 事务型指标: 对业务活动进行衡量的指标。如新发商品数、新增注册会员数
    • 存量型指标:实体对象英文名 + stock。如在线会员数、注册会员总数等
    • 复合型指标:在上面两个指标的基础上复合而成。如浏览UV下单买家数转换率。(比率型、比例型、变化量型、变化率型、统计型、排名型、对象集合型)
    • 事务和存量指标,他们只会唯一定位到一个业务过程,两个行为同时发生、需要多个修饰词、生成一个派生指标的情况,会选择时间靠后的行为创建原子指标,前面的行为为修饰词

9.4 模型设计

维度建模理论为基础,基于维度数据模型总线架构,构建一致性的维度和事实

  • 操作数据层(ODS):操作系统数据几乎无处理地存放在数据仓库中。主要做的操作:同步、结构化、累计历史、清洗。

  • 公共维度模型层(CDM):存放明细事实数据、维表数据以及公共指标汇总数据。采用维度退化的手段,把维度退化到事实表中,减少事实表和维表的管理,提高易用性和复用性。主要操作:组合相关和相似数据、公共指标统一加工、建立一致性维度

  • 应用数据层(ADS):存放数据产品个性化的统计指标数据。主要操作:个性化指标加工、应用的数据组装

9.4.1 基本原则

  1. 高聚合低耦合,业务相近或相关的设计为一个物理模型,高概率同时访问的放一起。
  2. 核心模型和扩展模型分离
  3. 公共处理逻辑下沉及单一,底层进行封装和实现
  4. 成本与性能平衡
  5. 数据可回滚
  6. 一致性
  7. 命名清晰、可理解

9.5 模型实施

需要充分的业务调研和需求分析,这个是基石;

进行数据总体架构设计,主要是根据数据域对数据划分;

按照维度建模理论,构建总线矩阵、抽象出业务过程和维度;

对报表需求整理出指标体系。

大数据之路—— 数据整合和管理体系相关推荐

  1. 大数据之路读书笔记-09阿里巴巴数据整合及管理体系

    大数据之路读书笔记-09阿里巴巴数据整合及管理体系 面对爆炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性, 直是 ...

  2. 数据模型篇:二、阿里巴巴数据整合及管理体系

    阿里巴巴数据整合及管理体系 文章目录 阿里巴巴数据整合及管理体系 一.概述 1.1.定位和价值 1.2.体系架构 二.规范定义 2.1.名词术语解释 2.2.指标体系 指标类型 操作细则 三.模型设计 ...

  3. 【阿里巴巴大数据实践笔记】第9章:阿里巴巴数据整合及管理体系

    1.大数据系统建设追求目标 建设高效的数据模型和体系, 对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性. 2.阿里巴巴OneData OneData 是阿里巴 ...

  4. 万字总结阿里大数据之路-数据技术篇(建议收藏)

    目录 一.日志采集 1.1 浏览器的页面日志采集 1.2 无线客户端的日志采集 1.3 日志采集的挑战案例 二.数据同步 2.1 数据同步基础 2.2 数据同步策略 2.2.1 批量数据同步 2.2. ...

  5. 大数据之路——数据同步

    三.数据技术篇-- 数据同步 3.1 数据同步基础 @ 3.1.1 直连同步 3.1.2 数据文件同步 3.1.3 数据库日志解析同步 3.2 数据仓库同步方式 3.2.1 批量数据同步 3.2.2 ...

  6. 阿里大数据之路 总述

    大数据之路 一.总述 1. 数据采集 2. 数据计算 3. 数据服务 4. 数据应用 一.总述 数据有序.有结构地分类和存储,从而产生价值. ​ 实时:数据量大,要实时.准确 ​ 离线:采集.存储.计 ...

  7. 《大数据之路:阿里巴巴大数据实践》-第3篇 数据管理篇 -第15章 数据质量

    <大数据之路:阿里巴巴大数据实践>系列丛书  第1章 总述 第1篇 数据技术篇  第2章 日志釆集  第3章 数据同步  第4章 离线数据开发  第5章 实时技术  第6章 数据服务  第 ...

  8. 数据库仓工具箱及阿里大数据之路--阅读总结

    一.数据仓库工具箱 1.主要内容 结合业务场景,阐述 1.维度建模以及事实表的基本及相关概念. 2.根据业务主题的总线矩阵图,梳理业务流程.指标以及对应的维度. 3.关于事实表的阐述. 4.企业层面的 ...

  9. 大数据之路读书笔记-01总述

    大数据之路读书笔记-01总述 此系列文章为大数据之路的读书笔记,如侵可删 2014 年,马云提出,"人类正从 IT 时代走向 DT 时代 "如果说IT时代是以自我控制.自我管理为主 ...

最新文章

  1. zimbra邮件服务器配置,Zimbra邮件服务器无需登录任意邮箱伪造漏洞修复
  2. Vue中的箭头函数=>目的是用来简化函数的写法的分为三部分:被赋值的变量 传入的参数 返回的数据
  3. Google Spanner 论文笔记
  4. 项目中缺少maven dependencis,或者pom文件报红
  5. 补习系列(21)-SpringBoot初始化之7招式
  6. Spring Boot基础学习笔记15:实现文件下载功能
  7. Java项目——博客系统(毕业设计)
  8. JS魔法堂:浏览器模式和文档模式怎么玩?
  9. 谷歌紧急修复已遭在野利用的Chrome 0day
  10. 大数据技术对互联网的影响
  11. 30秒您学会配置TomCat环境变量,并运行无错
  12. Python测试Kafka集群(pykafka)
  13. MySQL数据库MyISAM与InnoDB存储引擎的比较
  14. linux usb bulk传输,2.1.1.2. USB MSC Bulk-Only (BBB) Transport
  15. form表单钩子,局部钩子和全局钩子
  16. win10 软路由_软路由和硬路由的区别分析
  17. 给你一个网站你是如何来渗透测试的?
  18. 按照斗地主的规则,完成洗牌发牌的动作
  19. 从代码上看鸿蒙 APP 与安卓 APP 的关系
  20. Boost(一)——Boost简介

热门文章

  1. Android之相册实现
  2. 【转】区块链公链的 3 大性能难点、5 大体验障碍
  3. 8051单片机特殊寄存器功能定义
  4. 傅老师课堂:最大子序列
  5. 永久解决Linux(Ubuntu)下安装CH340驱动问题
  6. 「软件」仿站小工具v9.0
  7. 【算法入门图论】【模板】拓扑排序|【模板】单源最短路2 |最小生成树
  8. 如何让你的App永远在后台存活:对Android进程守护、闹钟后台被杀死的研究
  9. 优思学院|六西格玛黑带应如何选择和评估项目?
  10. Oracle 查询技巧与优化(一) 单表查询与排序