数据质量评估的六个主要维度
原文下载: https://download.csdn.net/download/bigdatapang/12125767

 DAMA版权所有, 翻译修订by大数据庞涛13811850730

摘要
本文描述了评估数据质量的六个方面,由英国DAMA工作组制作

定义评估数据质量的维度

背景

‘数据质量维度’这个词已经被广泛的在业内使用了很多年,然后一直没有一个统一的标准。

数据质量从业者也总是感到困惑,而商业组织的领导们就更迷惑了。

哲人苏格拉底说:智慧从定义术语开始。因此本文旨在定义关键质量维度并给出上下文,以便能形成大家一致的共识。

卡尔·R·波普爵士说过:“我没有说定义事物不能帮助链接具体问题,但是我强调的是一个术语能否可以定义出来和大多数问题确实不相关”。基本上,大家相互理解是非常非常必需的。这再次强调了本文的维度定义是帮助我们如何交流数据质量,而不是为了说明数据本身的含义和如何展现。

2012五月, DAMA UK 召集志愿者参加一个工作组来考虑出版和发布一些最佳实践,得到了大家的热烈响应,同时印证了本项工作的意义。

其他数据管理职业组织也一直支持本项工作,如 Julian Schwarzenbach, Chair of the BCS Data Management Specialist Group和 Gary Palmer, charter member of IAIDQ to join the working group.

目录

定义评估数据质量的维度 1
背景 1
什么是数据质量维度? 3
上下文 3
应用 3
如何使用数据质量维度指标 4
六个核心数据质量维度 5
完整性 6
独特性 7
时效性 (时序性) 7
有效性 8
准确性 9
一致性 10
术语表 12
作者 12
参考文献 13

什么是数据质量维度?

一个数据质量 (DQ)维度是数据管理从业者基于已有的一些标准用来评估和衡量数据质量的一个特征*方面。
例如:

• 测试数据有93%,还差7%,这是完整度;
• 测试数据的准确度是84%

一个DQ 维度不能和另外一个DQ维度类似和混淆。如:
• 其他数据管理的方面如数据仓库重的维度或数据立方体中的维度;
• 物理学中描述一个结构或物体的时间或空间维度

上下文

本文列出的最佳实践案例可以帮助数据质量从业者给他们的组织查看和描述他们的数据质量.

本文定义了六个通用的标准的数据质量维度.这可以帮助在考量数据质量的时候消除不一致的理解,消除理解上的困惑.建议数据质量从业者采用这些维度和定义作为评估和描述数据质量的通用标准.当然,某些场景里不是所有的维度都能全部用的上.

企业组织使用这些维度来评估贫乏的数据的冲击,从费用,声誉和法律法规等角度来看.

应用

本文提供了一个数据质量评估的检查列表,它不是一个强制性的列表.这个列表会根据不同的商业和工业需求而不同.

为了帮助应用本文的这些评估维度,每个维度都给出了一个仔细设计的学院样例. 这样例是精心挑选出来的,具有普遍的应用意义.

在尝试使用本文数据质量维度之前,这个组织需要为要评估的数据质量达成一致的质量规则. 这些规则基于这六个数据质量维度来开发,基于本组织的数据需求和如果不遵照这个质量规则会带来什么影响.比如:

• 错误的和空缺的电子邮箱地址对任何一个市场活动都有巨大的影响;
• 不精确的个人信息细节可能会导致丢失销售机会或者增加客户抱怨;
• 货物可能被运算到错误的地址;
• 不正确的产品测量数据会导致严重的运算问题,比如产品装不进卡车或者预定了过多的卡车;

数据一般只有在能支持业务过程或者组织决策时才有真正的价值。大家共识的数据质量规则应该考虑到数据能提供的价值。如果确认这些数据在特定场景有重大价值,那么在该场景下需要更加严谨精确的数据质量规则。

如何使用数据质量维度指标

选择数据质量的维度和相关指标应该基于商业场景,需求,和风险水平等。注意每一个维度都有不同的权重,同时未来获得更准确的数据质量,特变需要确定每一个维度对于整体数据质量的影响有多少。

一个典型的数据质量评估方法可以如下:
确定哪一个数据项需要为了数据质量进行评估,典型的就是那些对于业务运行和管理报告起到关键作用的数据项。

  1. 评估应该哪一个数据质量维度以及相关权重;
  2. 对于每一个数据维度,数值定义和取值范围代表着数据质量好坏。请注意,一个数据集可能支持多种需求,可能还需要多种数据质量评估手段;
  3. 对数据项应用评估标准;
  4. 审查结果并且决定数据质量是不是可接受的;
  5. 数据清洗和数据处理过程优化(防止错误重复)
  6. 阶段性重复上述过程来监测数据质量趋势

数据质量审计的结果可以判断出该数据支持特定商业场景的好与坏。要看数据是不是很好地支持特定的商业需求会需要多种不同的数据质量检查。如果一个商业需求不能够足够地反映到数据质量规则里,那么数据质量检查就不能提供有效地评估。同样的,当要重复做数据质量检查的时候,一定要看商业数据的需求是否与上次发生了改变。

尽管大部分数据质量维度可以通过分析数据本身获得,但是准确评估数据只能通过下面两种:
• 针对代表事实的数据进行评估,如员工何时考察一个项目;
• 针对权威数据集进行评估,如通过投票列表来检查客户详情;

图1-不同数据维度应用的范例

六个核心数据质量维度

  1. 完整性
  2. 独特性
  3. 时效性
  4. 有效性
  5. 准确性
  6. 一致性

完整性

主题 完整性
定义 针对’百分百完整’获取数据的比例
参考 定义什么是百分百完整的商业规则
度量 非空/非奇异点数据的比例
范畴 0-100% , 针对衡量的关键数据,记录,或数据集数据库等
度量单位 百分比
度量类型:
• 描述型
• 连续型
• 离散型 描述型
相关维度 有效性和准确性
其他 如果一个数据项至关重要,要获取到100%的完整性, 有效性和准确性还将会检查数据是不是正确地获得了100%完整.
举例 学校新生的父母需要完成一个调研表,包括健康状况,紧急联系方式,并确认姓名年龄家庭住址和学生生日等.

场景:

秋季学期第一个星期末,针对联系表做了一个数据分析’首要紧急联系人电话号码’.学校有300个学生,294个人有记录,所有完整性是294/300=98%
编程逻辑 Count ‘First Emergency Contact Telephone Number’ where not blank in the Contact table/ count all current students in the Contact table.

注脚: 1. 先考察关键数据的完整性, 非关键数据是否完整或许不那么重要

独特性

主题 独特性
定义 如何唯一确定一件事至关重要
参考 数据自身的度量,或它的对标数据项或数据库
度量 分析真实世界和数据集里面的数据记录的可比性. 真实世界的事务可以由更可信的数据集或相关外部比对来决定.
范畴 用单一数据集去比对所有数据集(译者加:看有没有重复或可被替代)
度量单位 百分比
度量类型
• 描述型
• 连续型
• 离散型 离散型 (译者加: 男/女, 是/否等)
相关维度 一致性
其他 取决于环境因素
举例 一个学校现有120的学生和380个以前的学生(总共500人).可是学生数据库显示有520个不同的学生的记录.这可能包括Fred Smith和Freddy Smith算成了不同的人,事实上学校只有一个叫Fred Smith. 这代表了500/520 x 100 = 96.2%的独特性.
编程逻辑 (Number of things in real world)/(Number of records describing different things)
外部参考 IAM 资产信息质量手册
数据管理原理, Keith Gordon

注脚: 1. 独特性就是首先要检查重复度有多少

时效性 (时序性)

主题 时效性
定义 数据从时间的角度所反映的现实
参考 真实世界记录事件的时间.
度量 时间差
范畴 任何数据项,记录,数据集和数据库
度量单位 时间
度量类型
• 描述型
• 连续型
• 离散型 描述型和连续型
相关维度 准确度,因为准确度肯定会因为时间而减弱
其他 取决于业务的需求
举例 Tina Jones 2013年6月1日提交了紧急联系人的细节,但是6月4日才被更新到学生数据库.这显然有了三天的延迟,因为系统变更的服务时间是两天.
编程逻辑 Date emergency contact number entered in the Student database (4th June 2013) minus the date provided (1st June 2013) = a 3 Day delay.

注脚: 1. 每个数据集会有一部分因时间变化的动态数据,也会有比较稳定静态的数据.

有效性

主题 有效性
定义 数据只有服从业务属性(格式,类型,范围)才是有效的
参考 数据库,元数据或文档规则,相关的数据类型(字符串,整数型,浮点型,指针型等), 格式(长度,数量等)和范围(最小,最大,或在允许的数值范围内)
度量 数据元数据或文档对比的结果
范畴 所有数据都需要验证有效性,有效性原则适用于所有层级
度量单位 百分比:有效数据集比数据集
度量类型
• 描述型
• 连续型
• 离散型 描述型,连续型,离散型
相关维度 准确性,完整性,一致性和独特性
其他 强制性的
应用性
举例 英国中学的每个班级都会有个班号,包括三个教师名字首字母和两个年份,如AAA99,三个大写字母两个数字.

场景 1:
一个9年级新老师, Sally Hearn (没有中间名字), 只有两个名字首字母.那必须决定怎么应用两个首字母,否则就不符合数据库的入库规则,’SH09’这样的班号就入不了库.后来决定补充个’Z’字母凑成: “SZH09”, 不过这样就不够精确了.更好的解决方案是修改数据库入库规则来接受两个或三个首字母和一个或两个数字.
场景 2:
英国小学的入学年龄是填在入学申请表上的.输入数据库的时候检查规则是4-11岁,如果表上填有14岁或者空着,数据库就认为是无效数据而禁止入库.
编程逻辑 Scenario 1:
Evaluate that the Class Identifier is 2 or 3 letters a-z followed by 1 or 2 numbers 7 – 11.

Scenario 2:
Evaluate that the age is numeric and that it is greater than or equal to 4 and less than or equal to 11.

准确性

主题 准确性
定义 数据描述真实世界对象或要描述的事件的正确程度
参考 理想的真实世界的事实是通过严格的科研建立起来的.可是科学研究不容易,通常使用的第三方参考数据来源于公认的同年的可信材料.
度量 数据能够反映出真实世界对象或者事务的真实度.
范畴 任何真实世界物体或者能够被数据描述的,可以被转化为数据项,记录,数据集或数据库
度量单位 通过数据准确性检测的百分比.
度量类型
• 描述型
• 连续型
• 离散型 描述型,如关键研究或对对可信数据的参考说明
连续型,如学生年龄
离散型,如记录的年龄
相关维度 有效性是直接相关的质量维度,因为不有效就谈不上准确.
其他 必须, 如果不准确就不能应用
应用
举例 一个欧洲学校从每年九月报名人员收到申请书,同时要求在入学年的8月31日以前年满5周岁.

在这种情况下,美国公民在申请欧洲学校的时候填写的生日用美国日期格式月/日/年,而欧洲的格式是日/月/年, 这就导致了月和日的顺序颠倒. 结果,生日是09/08/YYYY实际上是08/09/YYYY的孩子就符合了8月31日前五周岁的入学要求.

这个现象,实际上是区域格式的差别,经常会导致数据不够准确.
编程逻辑 ((Count of accurate objects)/ (Count of accurate objects + Counts of inaccurate objects)) x 100
Example: (Count of children who applied aged 5 before August/YYYY)/ (Count of children who applied aged 5 before August 31st YYYY+ Count of children who applied aged 5 after August /YYYY and before December 31st/YYYY) x 100

一致性

主题 一致性
定义 当对比两个或更多的事件代表数据时根据定义口径没有差异
参考 本数据的度量或跟它对应的另一组的数据集或数据库
度量 模式分析或数值频率
范畴 跨多数据集的一致性分析或跨多数据项的数据值和格式的检查.处理过程包括:人为手工,自动,电子或文本处理.
度量单位 百分比
度量类型
• 描述型
• 连续型
• 离散型 描述型和离散型
相关维度 有效性, 准确性和独特性
其他 数据一致不代表有效和准确
举例 学校行政: 学生的生日和存在学生数据库里面的数据格式和数值是一样的.
编程逻辑 Select count distinct on ‘Date of Birth’

其他数据质量的考量因素
理解和使用好六个核心维度是至关重要的.然而,还会有一些其他因素会影响到有效使用数据.甚至六个数据质量维度都满足,该数据还是可能不会有预期分析结果.
数据可能比较完美地符合完整性,独特性,时效性,有效性,准确性和一致性. 然而如果数据都是英文的而使用者又不懂英文也就没有用了.

针对数据询问如下问题或许能有所帮助:

数据可用性 – 它好理解吗? 简单吗? 有关联性吗? 能访问可维护吗?是在某个层级上也准确吗?

时间问题(不是时效和时序问题) – 法规执行如果有变化(比如到期了),这些数据还能有效吗?

数据灵活性 - 能兼容和与其他数据进行比对吗? 能复用吗?能复制吗?

数据置信度 – 有数据治理,保护和安全机制吗? 数据的口碑怎么样? 可以得到确认和证实吗?

数据代价 – 该数据性价比好吗? 能数尽其用吗? 会侵犯公众隐私和公共安全吗? 会影响公司的法律责任吗? 会破坏企业形象和口碑吗?

术语表

术语 定义
维度 通常是一个深思熟虑总结出来的通用属性
描述型 由算法检查, 产生于公认的数据或应用研究. 比如’最长’,模式序列, 公认的数据如邮政编码,或专家讨论等.
连续型 周期性地检查,如年龄,体重,身高,随时间还会变化.
离散型 检查数据是不是孤立的绝对值,如性别,生日,出生地
数据项 数据记录的一个独立字段,一般指数据库中的一列.
记录 一个数据记录就是一组相关数据,一般是数据库的一行数据
数据集 一个数据集就是一组数据,一般就是一个二维数据表
数据库 有组织地大批数据
度量 建立该维度的程度范围的计算单位
范畴 该维度的应用范围
度量单位 计算的方式方法的程度和范围
相关维度 定义相关联的质量维度
可选 是不是必须要求的
事务 ? 数据项,数据集,数据库等
参考 针对要考量的维度找出关联的
编程逻辑(伪码) 用简单的英语表示出如何编写一个符合逻辑的程序

原文下载: https://download.csdn.net/download/bigdatapang/12125767
作者

• Nicola Askham - The Data Governance Coach; DAMA UK Committee Member
• Denise Cook - Senior Manager, Data Governance, Security & Quality, Lloyds Banking Group, Fellow of the BCS
• Martin Doyle - CEO, DQ Global
• Helen Fereday - Data Management Consultant, Aviva UK Health
• Mike Gibson - Data Management Specialist, Aston Martin
• Ulrich Landbeck - Data Management Architect, Microsoft Corporation
• Rob Lee - Group Head of Information Architecture, Lloyds Banking Group
• Chris Maynard - Director, Transforming Information Ltd
• Gary Palmer - Chief Alchemist, Information Alchemy; Charter Member IAIDQ
• Julian Schwarzenbach - Director, Data and Process Advantage; Chair, BCS Data Management Specialist Group

参考文献

• DAMA Body of Knowledge – First Edition
• DAMA Dictionary of Data Management DAMA Body of Knowledge – First Edition • DAMA Dictionary of Data Management - 2nd Edition
• IAIDQ Glossary
• Institute of Direct Marketing Award in Data Management
• Institute of Asset Management Asset Information Quality Handbook
• Siemens Industry Online Support
• Wikipedia Data Consistency Entry
• Execution - MiH
• The Practitioner’s Guide to Data Quality Improvement - David Loshin
• The TIQM Quality System for Total Information Quality
• Management – Larry English (MIT Information Quality Industry Symposium, July 15-17, 2009)
• Data Quality, The Accuracy Dimension - Jack E Olson
• Improving Data Warehouse and Business Information Quality - Larry English

This paper represents the views of DAMA UK and the Data Quality Dimensions Working Group and not necessarily the viewpoint of the organisations which the authors work for.

|–|--|
| | |

国际权威数据质量原文修订:数据质量评估的六个主要维度相关推荐

  1. 吴恩达:告别大数据,AI需要高质量小数据!

    来源:AI科技评论 本文约5000字,建议阅读10分钟 本文向大家谈下吴恩达对基础模型.大数据.小数据以及数据工程的一些感悟. 吴恩达是人工智能(AI)和机器学习领域国际最权威的学者之一,最近一年里, ...

  2. 医疗数据治理——构建高质量医疗大数据智能分析数据基础

    医疗数据治理--构建高质量医疗大数据智能分析数据基础 阮彤,邱加辉,张知行,叶琪 华东理工大学计算机科学与技术系,上海 200237   摘要:以专病真实世界研究为背景,分析了医疗数据治理和数据可用性 ...

  3. 广东省质量技术监督局信息系统数据应急处置项目

    第三部分 招标需求 一.     项目概述 随着信息化建设的不断深入,目前广东省质量技术监督局已安装部署了大量的服务器.存储系统,这些设备系统承载着本局业务信息.OA办公.特种设备系统.产品质量管理系 ...

  4. 独家 | 识别并解决数据质量问题的数据科学家指南

    作者:Arunn Thevapalan 翻译:陈超校对:王紫岳本文约3000字,建议阅读9分钟 本文介绍了Python中的Ydata-quality库如何应用于数据质量诊断,并给出数据实例进行详细的一 ...

  5. 如何快速准备高质量的AI数据?

    本文分享自华为云社区<如何快速准备高质量的AI数据?>,原文作者:徐波. 一.背景 通常来讲,AI人工智能的三要素是数据.算法和算力.这三要素缺一不可,都是人工智能快速发展的必备条件.这一 ...

  6. [机器学习笔记] 用Python分析:红葡萄酒质量分析(数据探索)

    用Python分析:红葡萄酒质量分析(数据探索) 数据集:winemag-data_first150k.csv 先来导入数据 import numpy as np import pandas as p ...

  7. 大数据成推动经济高质量发展新动能

    近日,备受关注的<中共中央.国务院关于构建更加完善的要素市场化配置体制机制的意见>(以下简称<意见>)正式发布.在这份<意见>中,首次将数据与土地.劳动力.资本.技 ...

  8. 浅谈网易大数据平台下的数据质量

    大数据平台的核心理念是构建于业务之上,用数据为业务创造价值.大数据平台的搭建之初,优先满足业务的使用需求,数据质量往往是被忽视的一环.但随着业务的逐渐稳定,数据质量越来越被人们所重视. 千里之堤,溃于 ...

  9. 技术16期:如何更好的保证数据质量【大数据篇】

    数据质量管理不单纯是一个概念,也不单纯是一项技术.也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论.技术.业务和管理为一体的解决方案. 通过有效的数据质量控制手段,进行数据的管理 ...

最新文章

  1. 力扣1002.查找常用字符
  2. 进程和程序的主要区别是
  3. PowerShell2.0之维护网络(三)设置网络适配器
  4. 在Ubuntu 16.10 安装 git 并上传代码至 git.oschina.net
  5. java四行代码实现图片下载
  6. python 批量下载文件
  7. 【C / C++】关于数组默认初值问题
  8. TJU 2248. Channel Design 最小树形图
  9. 游族网络回应被新浪财团收购:有相关计划 但对方身份尚不知情
  10. Pythonipython安装注意事项
  11. is,as,sizeof,typeof,GetType
  12. PROFIBUS-DP现场总线的结构及应用
  13. Button的单击变色+button上面图片下边文字+圆角
  14. CC2530 串口通信
  15. ai中如何插入签名_如何在PDF文件中插入手写签名?手把手教会你,轻松设置签名...
  16. vsftpd移植到ARM开发板
  17. 在linux中 要删除abc目录,在Linux中,要删除abc目录及其全部内容的命令为()A.rmabcB.rm-rabcC.rmdirabcD.rmdir-rabc...
  18. 华为低端路由器配置脚本
  19. React中文文档之Thinking in React
  20. Python 批量将.xlsx文件转为.xls文件

热门文章

  1. 【win】Photoshop+蓝湖插件安装小白教程(下)
  2. 微信备份聊天记录,显示网络复杂(PC)
  3. Vue 列表下一页 上一页
  4. 自定义控件其实很简单 七
  5. 论文阅读《Paired Overbounding for Nonideal LAAS and WAAS Error Distributions》
  6. 超级表格企业版特邀用户免费体验。
  7. android tcpstomp协议,StompProtocolAndroid 使用方法
  8. html语言密码框,HTML表单密码框INPUT标签
  9. 电子技术经典资料汇总:PCB设计篇
  10. 文件改名:如何将文件夹进行批量翻译重命名