数据治理(三):数据质量管理
目录
数据质量管理
一、数据质量概述
二、数据质量问题根源
三、数据质量保障原则
1、完整性
2、准确性
3、一致性
4、及时性
四、思维导图
数据质量管理
一、数据质量概述
在大数据早期,做数据治理最主要的目的,就是为了提升数据质量,让报表、分析、应用更加准确。到今天,虽然数据治理的范畴扩大了很多,我们开始讲数据资产管理、知识图谱、自动化的数据治理等等概念,但是提升数据的质量,依然是数据治理最重要的目标之一。因为数据要能发挥其价值,关键在于其数据的质量的高低,高质量的数据是一切数据应用的基础。在数据质量不高的环境下,做数据分析可谓问题重重,数据质量问题已经严重影响了组织业务的正常运营。通过科学的数据质量管理,持续地提升数据质量,已经成为组织内刻不容缓的优先任务。
二、数据质量问题根源
做数据质量管理首先要搞清楚数据质量问题产生的原因,原因有很多方面,例如:技术、管理、处理流程、业务逻辑错误等都会碰到,但从根本上来讲数据质量问题产生的绝大多数原因在业务上。
解决数据质量问题不是简单通过一个工具就能搞定,需要从根本上认识到数据质量问题产生的真正根源,从而从业务上着手解决数据质量问题。从业务角度着手解决数据质量问题,重要的是建立一套科学、可行的数据质量评估标准和管理流程。
三、数据质量保障原则
评估数据质量的好坏,业界标准并不统一。阿里巴巴对数据仓库主要从四个方面进行评估,即完整性、准确性、一致性和及时性。
1、完整性
完整性是指数据的记录和信息是否完整,是否存在缺失的情况。数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成数据不准确,所以说完整性是数据质量最基础的保障。
比如交易中每天支付订单数都在100万笔左右,如果某一天支付订单数突然下降到1万笔,那么很可能是记录缺失了。对于记录中某个字段信息的缺失,比如订单的商品ID、卖家ID是必须存在的,这些字段的空值个数肯定是0,一旦大于0就必然违背了完整性约束。
2、准确性
准确性是指数据中记录的信息和数据是否准确、是否存在异常或者错误的信息。例如,成绩单中分数出现负数或订单中出现错误的买家信息或负的订单金额等,这些数据都是问题数据。确保记录的准确性也是保证数据质量必不可少的一部分。
3、一致性
一致性通常体现在跨度很大的数据仓库中。例如,某公司有很多业务数仓分支,对于同一份数据,在不同的数仓分支中必须保证一致性(数仓各层数据经过ETL后,条数、数据值、类型需要与上层保持一致)。例如,从在线业务库加工到数据仓库,再到各个数据应用节点,用户ID必须保持同一种类型,且长度也要保持一致。
4、及时性
保障数据的及时产出才能体现数据的价值。例如,决策分析师通常希望当天就可以看到前一天的数据。若等待时间过长,数据失去了及时性的价值,数据分析工作将失去意义。这里离线数仓一般都是凌晨运行任务,及时性可以得到保证。
四、思维导图
-
数据治理(三):数据质量管理相关推荐
- DAMA数据治理与数据质量--非结构化数据的数据质量管理
本文根据汪广盛先生在[DQMIS 2020第四届数据质量管理国际峰会]现场演讲内容整理而成. 图1.1 DAMA(国际数据管理协会)中国区主席 汪广盛 演讲嘉宾介绍 -- 汪广盛 国际数据管理协会( ...
- 不忘初心方得始终:数据治理之数据质量管理
写在前面: 这是一个系列文章,沉淀了我在数据治理领域的一些实践和思考.共分为5篇.分别是: 一.大数据治理:那些年,我们一起踩过的坑 主要讲讲数据治理工作中常见的一些误区. 二.要打仗,你手里先得有张 ...
- 大数据的淘金之旅,数据治理之数据资产管理
写在前面: 这是一个系列文章,沉淀了我在数据治理领域的一些实践和思考.共分为5篇.分别是: 一.大数据治理:那些年,我们一起踩过的坑 主要讲讲数据治理工作中常见的一些误区. 二.要打仗,你手里先得有张 ...
- 【数据科学】数据治理与数据认责概述
一.本文预期读者: • 企业领导 • 各主要业务部门领导 • 技术执行管理人员:在客户数据治理路线规划.设计和实施当中,需要资 深的管理人员支持. • 数据管理相关部门:负责客户数据管理和监管报送相关 ...
- 数据仓库(11)什么是大数据治理,数据治理的范围是哪些
文章目录 主数据管理 元数据管理 数据标准 数据质量管理 数据安全管理 数据计算管理 数据存储管理 什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战.最基础的 ...
- 【2016年第3期】大数据治理的数据模式与安全
马朝辉1,聂瑞华1,谭昊翔1,林嘉洺1,王欣明1,唐华2,杨晋吉1,赵淦森1 1. 华南师范大学计算机学院,广东 广州 510630: 2. 华南师范大学软件学院,广东 佛山 528225 摘 ...
- 数据治理:数据治理之道-数据文化-数据思维融入企业文化
参考<一本书讲透数据治理>.<数据治理>等 大数据的根本价值在于从数据的不确定性中发现规律,获得确定性.想要在繁杂的大数据中快速找到价值数据,并依靠数据发现.分析.解决.跟踪问 ...
- CDGA|数据治理中数据如何分类分级呢?
CDGA|数据治理中数据如何分类分级呢? 数据分类是数据管理的第一步,如果企业不对数据进行分类分级,就谈不上数据治理和数据保护,甚至都不会清楚企业到底有哪些数据,更别说要了解哪些是敏感数据,以及他们都 ...
- 数据治理:数据质量问题出现的原因及解决思路
众所周知,要体现数据价值,前提就是数据质量的保障,质量没有得到 100% 保证的数据是很难体现出业务价值的,如果基于这些有问题的数据做决策支持,或做业务办理,将会得到灾难性的结果,让领导层和数据使用方 ...
- 治数如治水,数据治理和数据创新难在哪?
古人有云:"流水不腐,户枢不蠹." 数字经济时代,数据如水,滋润万物生长.数据治理则恰如治水,数据创新或数据泛滥均维系于此,重要性甚比数据本身. 固然,数据治理都并非新鲜事物,但随 ...
最新文章
- 人工智能(16)---长租公寓领域的智能硬件
- anki 新的卡片类型_用 Anki 建立高效复习错题体系
- java中的类、成员变量、方法的修饰符。
- python中如何调用类_python中如何调用类的方法
- Linux 基本命令(一)--ls 常用命令
- hping 详解_hping3使用
- Spring框架学习笔记6-AOP编程-AspectJ方式
- 安卓handler机制
- python VTK画3D方框
- python周环比增长率怎么算_Pandas实现计算同比、环比
- android简单计时器源码,Android简单计时器实现
- 为知笔记的快捷键整理
- Android推送技术总结
- 智能手机内存完全透析
- (四)Python小甲鱼入门教程笔记——思维导图训练
- 哥德巴赫猜想两种题目解法
- Java行业薪资待遇一般都多少钱?
- 服务器修改了 金碟软件用不到,金蝶软件金蝶软件KIS系统客户端连接服务器时,有时会有连接不上的情况,提示服务器不是有效的,请重新设置...
- 针对某软件系统的测试论文,计算机软件论文:软件可靠性及其测试分析
- linux python excel文件,Linux下用python处理excel
热门文章
- rancher部署项目Validation failed in API: Deployment.apps“”must be no more than 63 characters问题原因及解决方法
- 2022-2028年中国UI设计行业现状调研分析及发展趋势研究报告
- 2022-2028年现代农业背景下中国家庭农场深度调研及投资前景预测报告
- 55道常见的计算机面试题
- NLP.TM | GloVe模型及其Python实现
- 在Cuda上部署量化模型
- 扩展LLVM:添加指令、内部函数、类型等
- 英特尔Intel® Arria® 10 FPGA加速器设计
- 未来几年自动驾驶预测(上)
- 2021年大数据ELK(二十四):安装Kibana
- DAMA数据治理与数据质量--非结构化数据的数据质量管理