数据仓库ETL工具箱——清洗和规范化(一)
在ETL系统中,数据的抽取和加载只是改变了数据的格式和数据的位置,而真正改变数据价值的恰恰是清洗和规范化的步骤,这对于数据能否用于预期目标起了决定性的作用。清洗和规范化包含三个重要的可提交内容:
- 数据评估报告
- 错误事件事实表
- 审计维
关于数据评估报告主要针对的是数据质量,数据质量应该保证数据的精确性,精确的数据意味着:
- 正确的:数据的值正确
- 明确的:数据值的描述清晰
- 一致的:固定标识,相同值的描述方式相同
- 完整的:数据值不为空,数据总数完整
设计目标
数据质量子系统为了完成初始化的目标需要支持重要用户参与者的需求,这些参与者包括:
- 数据仓库管理员:负责数据仓库运行期间需要制定的日常决策
- 信息驾驶员:负责定义信息策略
- 信息质量负责人:负责检测、修正、和分析数据质量问题
- 维表管理员:负责创建和发布整个组织使用的一个或多个规范化的维表
- 事实表提供者:本地DBA
数据质量系统的目标可以用正确、彻底、快速和透明的优先级来描述:
确保彻底的含义是数据清洗子系统必须保证在检测、纠正和文档化发布给业务环境的信息质量方面的彻底性;确保快速则是整个ETL过程必须能在越来越短的时间里处理不断增长的数据量;确保正确的数据最好是在源系统抽取时进行,若因业务原因无法做到,则在清洗时要矫正存在的问题;确保透明则是要求数据仓库必须暴露出错误。
以上四方面在数据仓库中不可能全部达到最优,必然有一个平衡点,比如速度和完整性如下图:
书中给出了数据质量问题策略 :
从图中我们可以看出,在数据源头处理的数据质量是最高的。
清洗提交报告
数据清洗子系统在整个ETL过程中跟随在抽取步骤之后,而清洗提交的报告主要有三个比较重要的:
1.数据评估结果:数据评估分析应该充分的根据数据源分析,而分析的一句就是元数据资料库的描述方式
√ 结构定义
√ 业务对象
√ 域
√ 数据源
√ 表定义
√ 别名
√ 数据规则
√ 数据值规则
√ 需要处理的问题
2.错误事件表:
3.审计维:取得(描述)每一个事实表记录的特性数据质量的上下文
在设计目标和提交报告后,我们应该确定如何做(过滤器)以及详细的设计和报告如何相互作用提交清洗好的数据到维度数据仓库中。详细的介绍我们将在下一篇进行介绍。
数据仓库ETL工具箱——清洗和规范化(一)相关推荐
- 数据仓库ETL工具箱——实时ETL系统
建立实时ETL数据仓库的解决方案需要理解不同的整合技术,这个领域体现了具有新技术.新方法.新词汇的全新理念.通过选择合适的实时ETL技术.特征.方法来指导专业实验数据仓库构建实时ETL的四个过程: 调 ...
- 数据仓库ETL工具箱——元数据
由于ETL是数据仓库得核心,时常承担着管理和存储数据仓库大量元数据得职责.在数据仓库中ETL处理程序是元数据最重要得创建者--数据沿袭.数据沿袭追踪数据从源系统和文件中得请确位置直到最终被装载之前.数 ...
- [原创]-数据仓库ETL开发
ETL开发 概述 ETL是数据仓库的后台,主要包含抽取.清洗.规范化.提交四个步骤,传统数据仓库一般分为四层模型. 分层的作用: 1.划分ETL阶段工作重心,便于管理 2.降低开发和维护成本 3.减少 ...
- 字节大数据手册火了 ! 离线数据/实时数据/数据仓库ETL/实时交易系统/啥都有 !...
最近有幸在一位字节跳动大数据高级工程师手里扒到了这份学习笔记,将部分知识章节发布到了在B站上竟然获得了5000+点赞! 本来想将文件上传到github上,但由于文件太大有的都无法显示所以直接整理成多个 ...
- python名词解释数据仓库_python实现数据仓库ETL
通常讲的数据仓库ETL, 可以分为ETL和ELT两种实现方式. ELT是在加载到仓库后, 再做数据转换. ETL 是在加载之前完成转换, 落地的数据就是转换后的样子了. ELT多使用在MPP架构的 ...
- 清晰的数据仓库ETL流程(有干货)
数据仓库ETL流程 整体思路 具体步骤 1.工具 2.流程 3.小结 总结 整体思路 要想开发一个完整的数据仓库etl流程必须先从整个项目的结构层次入手,逐个剖析每一层的程序,在纸上画出整个的流程图, ...
- 大数据学习——基于大数据平台的数据仓库ETL基本思路
大数据平台数据仓库ETL基本思路 ETL工具 开源工具: Sqoop:Hadoop(hive)和关系型数据库之间传输数据的开源ETL工具. Beeline:hive客户端工具,基于SQLline的JD ...
- ETL工具箱 5提交维表
维度的基础框架 主键是指包含一个无意义的,唯一标识数字的字段,数据仓库拥有这些代理键值但并不把他赋给任何实体.维度的主键主要用于连接事实表.因为所有事实表必须保持表的参照完整性,因此维表中的主键连接的 ...
- 国产免费数据仓库ETL调度自动化运维专家—TASKCTL
TASKCTL是什么 批量调度自动化技术是大数据时代数据整合后台不可缺少的重要技术.TASKCTL 是一款作业批量调度工具,支持各类脚本.程序的调度.具备可视化图形拖拽式设计界面,可视化作业管控.计划 ...
最新文章
- 写得不错的几篇C/C++博客
- C 库函数 int fprintf(FILE *stream, const char *format, ...) 发送格式化输出到流 stream 中
- 全国计算机一级d类考试内容,全国计算机一级考试WPS office复习题及答案2017
- 全球计算机与工程学科排名:MIT夺冠 中国23所高校上榜
- 减少到处衍生的实体类
- 跳转到企业缓存之前要考虑的事项
- Linux 服务器远程控制三剑客Telnet、SSH 和 VNC 之 VNC
- 语音识别开放化开发平台有哪些?
- cad图框尺寸标准图_基于AutoCAD2020的动态图框制作与图纸比例问题
- Alink、Tensorflow on Flink 在京东的应用
- php 刷新腾讯云cdn
- Rust:Programming Rust:所有权
- “泰迪杯”技能赛丨第二期赛前培训预告
- 镁光ddr3布线规则_讨论一下DDR3 缓存的电压和频率
- Autodesk 3ds Max 2014选择集闪退问题
- idc数据中心机房机柜收费标准
- 计算机组成原理语言方框图,计算机组成原理实验报告3 语言方框图
- Risc-v 技术架构
- v18.02 鸿蒙内核源码分析(源码结构) | 内核文件各自含义 | 百篇博客分析HarmonyOS源码
- Hadoop实战——MapReduce实现主播的播放量等数据的统计及TopN排序(第一篇)