DAMA数据治理学习笔记-数据仓库和商业智能(DW/BI)
数据仓库和商业智能(DW/BI)
企业数据仓库提供了一种减少数据冗余、提高信息一致性,让企业能够利用数据做出更优决策的方法
定义
- 通过规划、实施和控制过程,来提供决策支持数据,支持从事报告、查询和分析的知识工作者
商业智能的两层含义
- 理解组织诉求和寻找商业机会的商业分析活动,分析结果用来提高组织决策的成功率
- 支持1这类分析活动的技术合集
业务驱动因素
- 运营支持职能、合规需求和商务职能活动
目标
- 建立和维护提供集成数据所需的技术环境、技术和业务流程,以支持运营功能、合规性要求和商务智能活动
- 支持和赋能只是工作者进行有效的业务分析和决策
数仓建设目标
- 支持商务智能活动
- 赋能商业分析和高效决策
- 基于数据洞察寻找创新方法
数仓建设应遵循原则
- 聚焦业务目标
- 以终为始
- 全局性的思考和设计,局部性的行动和建设
- 总结并持续优化,而不是一开始就这样
- 提升透明度和自助服务
- 与数据仓库一起建立元数据
- 协同
- 不要千篇一律
两位思想领袖比尔·恩门(Bill Inmon) 和拉尔夫·金博尔( Ralph Kimball)分别使用范式建模和多维建模来完成数据仓库建模
Inmon和Kimball相似的核心理念
- 数据仓库存储的数据来自其他系统
- 存储行为包括以提升数据价值的方式来整合数据
- 数据仓库便于数据被访问和分析使用
- 组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据
- 数据仓库建设有很多目的,涵盖工作流支持、运营管理和预测分析
Inmon企业信息工厂
比尔·恩门在《数据仓库》(Building the Data Warehouse )中定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合
- 面向主题的
- 整合的
- 随时间变化的
- 稳定的
- 聚合数据和明细数据
- 历史的
组成部分
- 应用程序
- 数据暂存区
- 集成和转化
- 操作型数据存储(ODS)
- 数据集市
- 操作型数据集市(OpDM)
- 数据仓库
- 运营报告
- 参考数据、主数据和外部数据
数据从左到右流动带来的变化
- 目标从业务功能的执行转向数据分析
- 系统最重用户从一线业务人员变成企业决策者
- 系统使用从固定操作转向即席查询
- 响应时间的要求不再重要
- 每个操作、查询或流程设计更多数据
数据仓库和数据集市的数据与应用程序的数据不同
- 数据的组织形式是按主题域而不是按功能需要
- 数据是整合的数据,而不是‘孤立’的烟囱数据
- 数据是随时间变化的系列数据,而非仅当前时间的值
- 数据在数据仓库中的延迟比在应用程序中高
- 数据仓库中提供的历史数据比应用程序中提供的历史数据多
Kimball多维数据仓库
拉尔夫·金博尔在《数据仓库工具箱》(The DataWarehouse Toolkit)中提出:主张自下而上(DMDW)的方式,力推数据集市建设,他定义为“为查询和分析定制的交易数据的副本
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jYB84y4e-1668067908028)(./kimball.png)]
组件
- 业务源系统
- 数据暂存区域
- 数据展示区域
- 数据访问工具
加载处理方式
历史数据
- Inmon 类型的数据仓库建议所有数据存储在单个数据仓库层中。这一层中存储已清洗过的、标准化的和受管控的原子级数据。
- Kimball 类型的数据仓库建议,数据仓库由包含已清洗过的、标准化的和受管控数据的部门级数据集市合并而成。数据集市将在原子级别存储历史记录,由一致性维度表和一致性事实表提供企业级信息。
- Data Vault 作为数据暂存处理的一部分,同样进行数据清洗和标准化。历史数据以规范化的原子结构存储,每个维度定义了代理键(Surrogate key)、主键(Primary key)、备用键(Alternate key)
批量变更数据捕获
方法 | 对源系统要求 | 复杂度 | 事实表加载 | 维表加载 | 重叠 | 删除 |
---|---|---|---|---|---|---|
时间戳增量加载 | 源系统中的变化由系统日期和时间戳标识 | 低 | 快 | 快 | 是 | 否 |
日志表增加加载 | 捕获源系统中的变化并记录在日志表 | 中 | 普通 | 普通 | 是 | 是 |
数据库交易日志 | 在交易日志记录数据库变化 | 高 | 普通 | 普通 | 否 | 是 |
消息增量 | 源系统中的变化发布在实时消息(队列) | 极高 | 慢 | 慢 | 否 | 是 |
全量加载 | 没有更改标识符,抽取全表数据并比较判断改动 | 级低 | 慢 | 普通 | 是 | 是 |
准实时、实时、数据加载
- 涓流式(源端累积)
- 消息传送(总线累积)
- 流式传送(目标端累积)
活动
- 理解需求
- 定义和维护DW&BI架构(技术架构、管理流程)
- 开发数据仓库和数据集市(数据、技术、工具并行 1.从源映射到目标 2.修正和转换数据)
- 加载数据仓库
- 实施BI产品组合(1.根据需要给用户分组 2.将工具与用户要求相匹配)
- 维护数据产品 (1.发布管理 2.管理数据产品开发生命周期 3.监控和调优加载过程 4.监控和调优商务智能活动和性能)
工具
- 元数据存储库
- 数据集成工具
- 商务智能工具
常见的OLAP操作
- 切片(Slise)
- 切块(Dice)
- 向下/向上钻取(Drill down/up)
- 向上卷积(Roll-up)
- 透视
三种经典的OLAP实现方法
- ROLAP 关系型联机分析处理
- MOLAP 多维矩阵型联机分析处理
- HOLAP 混合型联机分析处理
方法
- 驱动需求的原型
- 自助式商务智能
- 可查询的审计数据
实施指南
- 就需评估/风险评估
- 版本路线图
- 配置管理
- 组织与文化变革
数据仓库&BI治理
- 业务接受度
- 客户/用户满意度
- 服务水平协议
- 报表策略
度量指标
- 使用指标
- 主题域覆盖率
- 响应时间和性能指标
DAMA数据治理学习笔记-数据仓库和商业智能(DW/BI)相关推荐
- DAMA数据治理学习笔记-大数据和数据科学
大数据和数据科学 定义 对多种不同类型的数据进行收集(大数据)和分析(数据科学.分析.可视化),以此来为在分析的初始阶段未知的问题找到答案 目标 发现数据和业务的联系 支持将数据源迭代集成到企业中 发 ...
- DAMA数据治理学习笔记-数据治理
数据治理 定义 对数据资产管理行使权力.控制和共享决策(规划.监测和执行)的系列活动. 目标 提升企业数据资产管理能力 定义.规划.批准.执行数据管理的原则.政策.程序.指标.工具.责任. 监控和指导 ...
- DAMA数据治理学习笔记-数据管理成熟度评估
数据管理成熟度评估 数据管理成熟度6个等级 无能力级 初始级 可重复级 已定义级 已管理级 优化级 业务驱动因素 监管 数据治理 过程改进的组织就绪 组织变更 新技术 数据管理问题 目标 全面发现和评 ...
- DAMA数据治理学习笔记-数据质量
数据质量 定义 为了确保满足数据消费者的需求,应用数据管理技术进行规划.实施.控制等管理活动 业务驱动因素 提高组织数据价值和数据利用的机会 提高低质量数据导致的风险和成本 提高组织效率和生产力 保护 ...
- DAMA数据治理学习笔记-数据安全
数据安全 定义 定义.开发.执行.监控安全策略和规程,以提供对数据和信息资产的适当验证.授权.访问.审计 数据安全需求来源 利益相关方 政府法规 特定业务关注点 合法访问需求 合同义务 业务驱动因素 ...
- 数据治理学习笔记(一):数据治理是什么,要做什么
前言: 经常在各种数据工作的文章中看到这个词,看词语意思就是要把数据管理好.作为数据基础支撑工作,其重要性也是可以想象的,平时工作中,有数据问题,一圈查下来就是一条记录的质量问题,更坑的是可能会多次都 ...
- 数据管理知识体系指南(第二版)-第三章——数据治理-学习笔记
目录 3.1引言 3.1.1业务驱动因素 3.1.2目标和原则 3.1.3基本概念 3.2活动 3.2.1规划组织的数据治理 3.2.2制定数据治理战略 3.2.3实施数据治理 3.2.4嵌入数据治理 ...
- DAMA数据治理认证 CDGA 知识点总结:0.CDGA、CDGP介绍
DAMA数据治理认证:CDGA介绍 目录 DAMA数据治理认证:CDGA介绍 一.DAMA介绍 1.1 主要内容 二.CDGA/CDGP介绍 考试时间和地点 认证费用 考点分布 合格标准及证书颁发标准 ...
- React学习:路由定义及传参、数据复用-学习笔记
文章目录 React学习:路由定义及传参.数据复用-学习笔记 在React中使用react-router-dom路由 简单例子 路由定义及传参 React学习:路由定义及传参.数据复用-学习笔记 在R ...
最新文章
- 2020-09-21C++学习笔记之与C语言区别和加强——四种const意义(const int a; int const b; const int *c; int * const d)
- 在此iphone上尚未受信任_苹果中国官网开启限购!每款iphone每人限购两部
- 炫酷!用Python制作漂亮的流动桑基图
- cmd c语言 文件,DSP,如何编写CMD文件!(转)
- 电子设计竞赛(7)-2017年电赛A题:微电网模拟系统教程
- html时间自动,编辑自动结束时间.html
- java 动态二维数组,菜鸟求助: 二维数组如何实现动态接收?
- 按群计数10以内_10米12米60吨地磅扬州地磅数字地磅厂-鹰衡称重
- Linux x86-64 IOMMU详解(五)——Intel IOMMU初始化流程
- 印第安纳大学计算机与信息学院,印第安纳大学伯明顿分校管理信息系统(MIS)专业详解...
- php 串口 主板,图解主板插槽:教你选对串口卡
- 2021牛客寒假算法基础集训营1-E-三棱锥之刻-(计算几何)
- 自研·学术·文献查找
- 从底层谈webgis原理设计与实现(九)WebGIS中的矢量查询(针对AGS和GeoServer)
- 【英文语法】英语是世界上最容易的语言(语法汇总)
- NR PUSCH(七) 相干传输
- Warning: This Python interpreter is in a conda environment, but the environment has not been activat
- HTML5+css+jquery网页设计+加静态网页部署到服务器上
- 程序员经验分享:34岁安卓开发大叔感慨,好文推荐
- ATC计算机会议,实验室三项成果分别被计算机系统、数据库、分布式计算重要会议 USENIX ATC、ICDE、IPDPS收录...