数据仓库和商业智能(DW/BI)

企业数据仓库提供了一种减少数据冗余、提高信息一致性,让企业能够利用数据做出更优决策的方法

定义

  • 通过规划、实施和控制过程,来提供决策支持数据,支持从事报告、查询和分析的知识工作者

商业智能的两层含义

  1. 理解组织诉求和寻找商业机会的商业分析活动,分析结果用来提高组织决策的成功率
  2. 支持1这类分析活动的技术合集

业务驱动因素

  • 运营支持职能、合规需求和商务职能活动

目标

  • 建立和维护提供集成数据所需的技术环境、技术和业务流程,以支持运营功能、合规性要求和商务智能活动
  • 支持和赋能只是工作者进行有效的业务分析和决策

数仓建设目标

  • 支持商务智能活动
  • 赋能商业分析和高效决策
  • 基于数据洞察寻找创新方法

数仓建设应遵循原则

  • 聚焦业务目标
  • 以终为始
  • 全局性的思考和设计,局部性的行动和建设
  • 总结并持续优化,而不是一开始就这样
  • 提升透明度和自助服务
  • 与数据仓库一起建立元数据
  • 协同
  • 不要千篇一律

两位思想领袖比尔·恩门(Bill Inmon) 和拉尔夫·金博尔( Ralph Kimball)分别使用范式建模和多维建模来完成数据仓库建模

Inmon和Kimball相似的核心理念

  • 数据仓库存储的数据来自其他系统
  • 存储行为包括以提升数据价值的方式来整合数据
  • 数据仓库便于数据被访问和分析使用
  • 组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据
  • 数据仓库建设有很多目的,涵盖工作流支持、运营管理和预测分析

Inmon企业信息工厂

比尔·恩门在《数据仓库》(Building the Data Warehouse )中定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合

  • 面向主题的
  • 整合的
  • 随时间变化的
  • 稳定的
  • 聚合数据和明细数据
  • 历史的
组成部分
  • 应用程序
  • 数据暂存区
  • 集成和转化
  • 操作型数据存储(ODS)
  • 数据集市
  • 操作型数据集市(OpDM)
  • 数据仓库
  • 运营报告
  • 参考数据、主数据和外部数据

数据从左到右流动带来的变化

  1. 目标从业务功能的执行转向数据分析
  2. 系统最重用户从一线业务人员变成企业决策者
  3. 系统使用从固定操作转向即席查询
  4. 响应时间的要求不再重要
  5. 每个操作、查询或流程设计更多数据

数据仓库和数据集市的数据与应用程序的数据不同

  1. 数据的组织形式是按主题域而不是按功能需要
  2. 数据是整合的数据,而不是‘孤立’的烟囱数据
  3. 数据是随时间变化的系列数据,而非仅当前时间的值
  4. 数据在数据仓库中的延迟比在应用程序中高
  5. 数据仓库中提供的历史数据比应用程序中提供的历史数据多

Kimball多维数据仓库

拉尔夫·金博尔在《数据仓库工具箱》(The DataWarehouse Toolkit)中提出:主张自下而上(DMDW)的方式,力推数据集市建设,他定义为“为查询和分析定制的交易数据的副本

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jYB84y4e-1668067908028)(./kimball.png)]

组件

  1. 业务源系统
  2. 数据暂存区域
  3. 数据展示区域
  4. 数据访问工具

加载处理方式

历史数据

  1. Inmon 类型的数据仓库建议所有数据存储在单个数据仓库层中。这一层中存储已清洗过的、标准化的和受管控的原子级数据。
  2. Kimball 类型的数据仓库建议,数据仓库由包含已清洗过的、标准化的和受管控数据的部门级数据集市合并而成。数据集市将在原子级别存储历史记录,由一致性维度表和一致性事实表提供企业级信息。
  3. Data Vault 作为数据暂存处理的一部分,同样进行数据清洗和标准化。历史数据以规范化的原子结构存储,每个维度定义了代理键(Surrogate key)、主键(Primary key)、备用键(Alternate key)

批量变更数据捕获

方法 对源系统要求 复杂度 事实表加载 维表加载 重叠 删除
时间戳增量加载 源系统中的变化由系统日期和时间戳标识
日志表增加加载 捕获源系统中的变化并记录在日志表 普通 普通
数据库交易日志 在交易日志记录数据库变化 普通 普通
消息增量 源系统中的变化发布在实时消息(队列) 极高
全量加载 没有更改标识符,抽取全表数据并比较判断改动 级低 普通

准实时、实时、数据加载

  • 涓流式(源端累积)
  • 消息传送(总线累积)
  • 流式传送(目标端累积)

活动

  • 理解需求
  • 定义和维护DW&BI架构(技术架构、管理流程)
  • 开发数据仓库和数据集市(数据、技术、工具并行 1.从源映射到目标 2.修正和转换数据)
  • 加载数据仓库
  • 实施BI产品组合(1.根据需要给用户分组 2.将工具与用户要求相匹配)
  • 维护数据产品 (1.发布管理 2.管理数据产品开发生命周期 3.监控和调优加载过程 4.监控和调优商务智能活动和性能)

工具

  • 元数据存储库
  • 数据集成工具
  • 商务智能工具

常见的OLAP操作

  • 切片(Slise)
  • 切块(Dice)
  • 向下/向上钻取(Drill down/up)
  • 向上卷积(Roll-up)
  • 透视

三种经典的OLAP实现方法

  • ROLAP 关系型联机分析处理
  • MOLAP 多维矩阵型联机分析处理
  • HOLAP 混合型联机分析处理

方法

  • 驱动需求的原型
  • 自助式商务智能
  • 可查询的审计数据

实施指南

  1. 就需评估/风险评估
  2. 版本路线图
  3. 配置管理
  4. 组织与文化变革

数据仓库&BI治理

  • 业务接受度
  • 客户/用户满意度
  • 服务水平协议
  • 报表策略

度量指标

  • 使用指标
  • 主题域覆盖率
  • 响应时间和性能指标

DAMA数据治理学习笔记-数据仓库和商业智能(DW/BI)相关推荐

  1. DAMA数据治理学习笔记-大数据和数据科学

    大数据和数据科学 定义 对多种不同类型的数据进行收集(大数据)和分析(数据科学.分析.可视化),以此来为在分析的初始阶段未知的问题找到答案 目标 发现数据和业务的联系 支持将数据源迭代集成到企业中 发 ...

  2. DAMA数据治理学习笔记-数据治理

    数据治理 定义 对数据资产管理行使权力.控制和共享决策(规划.监测和执行)的系列活动. 目标 提升企业数据资产管理能力 定义.规划.批准.执行数据管理的原则.政策.程序.指标.工具.责任. 监控和指导 ...

  3. DAMA数据治理学习笔记-数据管理成熟度评估

    数据管理成熟度评估 数据管理成熟度6个等级 无能力级 初始级 可重复级 已定义级 已管理级 优化级 业务驱动因素 监管 数据治理 过程改进的组织就绪 组织变更 新技术 数据管理问题 目标 全面发现和评 ...

  4. DAMA数据治理学习笔记-数据质量

    数据质量 定义 为了确保满足数据消费者的需求,应用数据管理技术进行规划.实施.控制等管理活动 业务驱动因素 提高组织数据价值和数据利用的机会 提高低质量数据导致的风险和成本 提高组织效率和生产力 保护 ...

  5. DAMA数据治理学习笔记-数据安全

    数据安全 定义 定义.开发.执行.监控安全策略和规程,以提供对数据和信息资产的适当验证.授权.访问.审计 数据安全需求来源 利益相关方 政府法规 特定业务关注点 合法访问需求 合同义务 业务驱动因素 ...

  6. 数据治理学习笔记(一):数据治理是什么,要做什么

    前言: 经常在各种数据工作的文章中看到这个词,看词语意思就是要把数据管理好.作为数据基础支撑工作,其重要性也是可以想象的,平时工作中,有数据问题,一圈查下来就是一条记录的质量问题,更坑的是可能会多次都 ...

  7. 数据管理知识体系指南(第二版)-第三章——数据治理-学习笔记

    目录 3.1引言 3.1.1业务驱动因素 3.1.2目标和原则 3.1.3基本概念 3.2活动 3.2.1规划组织的数据治理 3.2.2制定数据治理战略 3.2.3实施数据治理 3.2.4嵌入数据治理 ...

  8. DAMA数据治理认证 CDGA 知识点总结:0.CDGA、CDGP介绍

    DAMA数据治理认证:CDGA介绍 目录 DAMA数据治理认证:CDGA介绍 一.DAMA介绍 1.1 主要内容 二.CDGA/CDGP介绍 考试时间和地点 认证费用 考点分布 合格标准及证书颁发标准 ...

  9. React学习:路由定义及传参、数据复用-学习笔记

    文章目录 React学习:路由定义及传参.数据复用-学习笔记 在React中使用react-router-dom路由 简单例子 路由定义及传参 React学习:路由定义及传参.数据复用-学习笔记 在R ...

最新文章

  1. 2020-09-21C++学习笔记之与C语言区别和加强——四种const意义(const int a; int const b; const int *c; int * const d)
  2. 在此iphone上尚未受信任_苹果中国官网开启限购!每款iphone每人限购两部
  3. 炫酷!用Python制作漂亮的流动桑基图
  4. cmd c语言 文件,DSP,如何编写CMD文件!(转)
  5. 电子设计竞赛(7)-2017年电赛A题:微电网模拟系统教程
  6. html时间自动,编辑自动结束时间.html
  7. java 动态二维数组,菜鸟求助: 二维数组如何实现动态接收?
  8. 按群计数10以内_10米12米60吨地磅扬州地磅数字地磅厂-鹰衡称重
  9. Linux x86-64 IOMMU详解(五)——Intel IOMMU初始化流程
  10. 印第安纳大学计算机与信息学院,印第安纳大学伯明顿分校管理信息系统(MIS)专业详解...
  11. php 串口 主板,图解主板插槽:教你选对串口卡
  12. 2021牛客寒假算法基础集训营1-E-三棱锥之刻-(计算几何)
  13. 自研·学术·文献查找
  14. 从底层谈webgis原理设计与实现(九)WebGIS中的矢量查询(针对AGS和GeoServer)
  15. 【英文语法】英语是世界上最容易的语言(语法汇总)
  16. NR PUSCH(七) 相干传输
  17. Warning: This Python interpreter is in a conda environment, but the environment has not been activat
  18. HTML5+css+jquery网页设计+加静态网页部署到服务器上
  19. 程序员经验分享:34岁安卓开发大叔感慨,好文推荐
  20. ATC计算机会议,实验室三项成果分别被计算机系统、数据库、分布式计算重要会议 USENIX ATC、ICDE、IPDPS收录...

热门文章

  1. 打造丝滑的滑动视差控件(ScrollParallaxView)
  2. Style Intelligence应用之电商存货周转率分析
  3. 余额宝收益太低怎么办?
  4. 用友软件(U8)和电商系统(旺店通)的系统集成(接口)
  5. 开发那么多年,还不知道XSS怎么防?
  6. 核磁数据分析学习笔记[02_预处理、GLM相关]
  7. spring-boot-打版-破坏前端文件导致字体图标无法显示
  8. 华硕笔记本电脑搜索蓝牙设备问题
  9. 【ceph】mkdir|mksnap流程源码分析|锁状态切换实例
  10. 实时数仓(六)DWM层双流join(订单表和订单明细表join)