一、相关概念

1.1 数据质量

数据的一组固有属性满足数据消费者要求的程度。

1)数据固有属性

  • 真实性:即数据是客观世界的真实反映
  • 及时性:即数据是随着变化及时更新的
  • 相关性:即数据是数据消费者关注和需要的

2)高质量数据满足要求(消费者角度)

  • 可得的,当数据消费者需要时能够获取到;
  • 及时的,当需要时,数据获得且是及时更新的;
  • 完整的,数据是完整没有遗漏的;
  • 安全的,数据是安全的,避免非授权的访问和操控;
  • 可理解的,数据是可理解和解释的;
  • 正确的,数据是现实世界的真实反映。

1.2 数据质量管理

数据质量管理,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

二、评估维度

任何改善都是建立在评估的基础上,知道问题在哪才能实施改进。通常数据质量评估和管理评估需通过以下几个维度衡量。常见的以下维度:

1)完整性

完整性,是指数据信息是否完整,是否存在缺失情况。数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。记录的完整性,一般使用统计的记录数和唯一值个数。完整性的另一方面,记录中某个字段的数据缺失,可使用统计信息中的NULL的个数进行审核。一般空值的占比基本恒定,同样可以使用统计的空值个数来计算空值占比,如果空值的占比明显增大,很可能这个字段的记录出现了问题,信息出现缺失。总而言之,完整性可用记录数、均值、唯一值、空值占比等指标来衡量。

2)规范性

规范性,是指记录是否符合规范,是否按照规定的格式存储(例如标准编码规则)。数据规范性审核是数据质量审核中比较重要也是比较复杂的一块。规范性检验主要是检验数据和数据定义是否一致,因此可以通过合规记录的比率来衡量。比如取值范围是枚举集合的数据,其实际值超出范围之外的数据占比,比如存在特定编码规则的属性值不符合其编码规则的记录占比。

3)一致性

一致性,是指数据是否符合逻辑,数据内单项或多项数据间存在逻辑关系。一致性检验,存在逻辑关系的属性之间的校验,比如属性A取某定值时,属性B的值应该在某个特定的数据范围内,都可以通过合规率来衡量。

4)准确性

准确性,用于度量哪些数据和信息是不正确的,或者数据是超期的。准确性可能存在于个别记录,也可能存在于整个数据集上。准确性和规范性的差别在于规范性关注合规,表示统一,而准确性关注数据错误。因此,同样的数据表现,比如数据实际值不在定义的范围内,如果定义的范围准确,值完全没有意义,那么这属于数据错误。

数据的准确性可能存在于个别记录,也可能存在于整个数据集。如果整个数据集的某个字段的数据存在错误,这种错误很容易发现,利用平均数和中位数也可以发现这类问题。当数据集中存在个别的异常值时,可使用最大值和最小值的统计量去审核,或者使用箱线图也可以让异常一目了然。

还有几个准确性的审核问题,字符乱码的问题或者字符被截断的问题,可以使用分布来发现这类问题,一般的数据记录基本符合正态分布或者类正态分布,那么那些占比异常小的数据项很可能存在问题。如果数据并没有显著异常,但仍然可能记录的值是错误的,只是这些值和正常值比较接近而已,这类准确性检验最困难,一般只能与其他来源或者统计结果进行对比来发现问题。

5)时效性

数据从产生到可以查看的时间间隔,也叫数据的延时时长。某些实时分析和决策需要用到小时或者分钟级的数据,这些需求对数据的时效性要求极高,所以及时性也是数据质量的组成要素之一。例如定义某张表在每月最晚达到的日期是几号。

6)唯一性

唯一性,用于度量哪些数据是重复数据或者数据的哪些属性是重复的。即对存在于系统内或系统间的特定字段、记录或数据集意外重复的测量标准。

7)合理性

合理性,是从业务逻辑角度判断数据是否正确。评估方面可参照规范性、一致性做法。

8)冗余性

冗余性,是指多层次数据中是否存在不必要的数据冗余。

9)获取性

获取性,是指数据是否易于获取、易于理解和易于使用。

三、影响因素

影响数据质量的因素主要来源于四方面:信息因素、技术因素、流程因素和管理因素。

1)信息因素

产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质(如:数据源规格不统一)得不到保证和变化频度不恰当等。

2)技术因素

主要是指由于具体数据处理的各技术环节的异常造成的数据质量问题。数据质量问题的产生环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面的内容。

3)流程因素

是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节。

4)管理因素

是指由于人员素质及管理机制方面的原因造成的数据质量问题。如人员培训、人员管理、培训或者奖惩措施不当导致的管理缺失或者管理缺陷。

四、解决质量问题方法

十步法原则

4.1 定义业务需求与方法

找出有哪些业务受到数据质量问题的影响,或者由于数据质量的改进将会为企业带来更好的业务效益的需求,评估这些业务需求并按照重要等级排序,作为本次数据质量提升的目标与范围。只有明确了业务需求与方法,才能确保要解决的数据质量问题是与业务需求相关的,从而真正的解决了业务问题。

4.2 分析信息环境

细化已定义的业务需求,识别出业务需求与数据、数据规范、流程、组织和技术(如系统、软件等)之间的关联信息,定义信息生命周期,确定数据来源及范围。通过分析信息环境,不仅可以为后续的原因分析提供帮助,也可以使我们对数据问题及现状有一个更全面、直观的理解与认识。

4.3 评估数据质量

从相关数据源提取数据,围绕已定义的业务需求,设计数据评估维度并利用相关工具完成评估,将数据质量评估结果以图表或报告形式准确的表达出来,使相关领导或业务人员都能够清晰的、直观的了解实际的数据质量情况,确保数据问题是与业务需求相关的,并能够得到相关领导或业务人员的重视与支持。

4.4 评估业务影响

了解低质量数据是如何影响业务的,为什么这些数据很重要,如果改善这些问题会带来哪些业务价值。评估方式的复杂度越高所花费的时间越长,不过与评估效果却并不一定成正比,所以在评估业务影响时也要注意方法的选择。另外,要将业务影响评估结果及时归档,这样,随着时间的推移即便问题被淡化,也能够有迹可查。

4.5 确定根本原因

在纠正数据问题之前要先确定其根本原因,产生问题的根源有很多。不过,有些问题的发生仅是表象,并不一定是导致错误数据的根本原因,所以在分析的过程中,要不断的去追踪数据进行问题定位,确定问题最早出现的根本原因;或者多问自己几遍“WHY”以弄清楚问题的根本原因,进而使问题得到有效的解决,达到治标又治本的效果。

4.6 制定改进方案

通过前面几步详细的问题分析及原因确定,在这一步则可以有针对性的制定出合理的数据质量改进方案,包括对已知数据问题的改进建议及如何预防未来类似错误数据的发生。

4.7 预防未来数据错误

根据解决方案的设计,预防未来错误数据的发生。

4.8 纠正当前数据错误

根据解决方案的设计,解决现有数据问题。这一步更多是”脏活累活”,但对于最终质量目标的达成至关重要。

4.9 实施控制监控

实施持续的监测,确定是否已经达到预期效果。

4.10 沟通行动和结果

对结果和项目进展情况沟通,保证整体项目的持续推进。

五、数据质量产品设计

5.1 数据产品价值

  • 完整检核标准梳理方法及指标规则模板。
  • 自动化的检核处理及问题通知机制,达到无人值守。
  • 提供全面的数据分析机制,加速问题解决。
  • 规范的问题管理流程及制度,精确管理问题每个阶段。
  • 完善的质量问题解决共享机制,实现数据治理的闭环管理。

5.2 处理问题流程

  • 确定规则:数据质量指标
  • 发现问题:数据质量检核
  • 提出问题:质量问题告警
  • 解决问题:质量问题分析
  • 归纳问题:问题管理流程

5.3 主要功能模块

1)质量评估

提供全方位数据质量评估能力,如数据的重复性、关联性、正确性、完全性、一致性、合规性等,对数据进行体检进而识别和理解数据质量问题。有评价体系作为参照,需要进行数据的采集、分析和监控,为数据质量提供全面可靠的信息。在数据流转环节的关键点上设置采集点,根据系统对数据质量的要求,配置相应的采集规则,通过在采集点处进行质量数据采集并进行统计分析,就可以得到采集点处的数据分析报告。

2)检核执行

提供配置化的度量规则和检核方法生成能力,提供检核脚本的定时调度执行和第三方调度工具的调度执行功能。

3)质量监控

系统提供报警机制,对检核规则或方法进行阀值设置,对超出阀值的规则进行不同级别的告警和通知。

4)问题管理

对数据问题进行流程处理支持,规范问题处理机制和步骤,强化问题认证,提升数据质量。通过质量评价体系和质量数据采集系统,可以发现问题,之后还需要对发现的问题及时作出反应,追溯问题原因和形成机制,根据问题种类采取相应的改进措施,并持续跟踪验证改进之后的数据质量提升效果,形成正反馈,达到数据质量持续改良的效果。

在源头建立数据标准或接入标准,规范数据定义,在数据流转过程中建立监控数据转换质量的流程和体系,尽量做到在哪发现问题就在哪解决问题,不把问题数据带到后端。

5)质量报告

系统提供了丰富的API可进行定制化数据质量包括开发,另外系统内置了常用质量报告。

6)质量分析

提供多种问题分析能力,包括血统分析,影响分析,全链分析,定位问题产生的根源。

解决数据质量问题方案相关推荐

  1. 独家 | 识别并解决数据质量问题的数据科学家指南

    作者:Arunn Thevapalan 翻译:陈超校对:王紫岳本文约3000字,建议阅读9分钟 本文介绍了Python中的Ydata-quality库如何应用于数据质量诊断,并给出数据实例进行详细的一 ...

  2. 百度大数据质量保障方案探索

    百度大数据质量保障方案探索 传统的测试验证手段专注于通过测试设计构建合理的输入输出,来实现代码路径覆盖.随着行业中大数据的逐渐兴起,无法满足这一新领域测试挑战.机器学习.数据挖掘.长数据流系统.大规模 ...

  3. 战地指挥官 服务器维护,战地指挥官突然显示数据包损坏怎么办 解决数据包损坏方案...

    战地指挥官突然显示数据包损坏怎么办 解决数据包损坏方案.战地指挥官是一款非常好玩的游戏,许多玩家被其优秀的内容和有趣的玩法所吸引.但是近日有小伙伴反应战地指挥官突然显示数据包损坏,小编这里整理了一些战 ...

  4. 十步法原则解决数据质量问题

    一.相关概念 1.1 数据质量 数据的一组固有属性满足数据消费者要求的程度. 1)数据固有属性 真实性:即数据是客观世界的真实反映 及时性:即数据是随着变化及时更新的 相关性:即数据是数据消费者关注和 ...

  5. 数据治理:数据质量问题出现的原因及解决思路

    众所周知,要体现数据价值,前提就是数据质量的保障,质量没有得到 100% 保证的数据是很难体现出业务价值的,如果基于这些有问题的数据做决策支持,或做业务办理,将会得到灾难性的结果,让领导层和数据使用方 ...

  6. 数据质量低该如何解决

    数据是一种珍贵资产.尤其是在当今快消品当道的背景下,你需要数据来帮助你准确定位.深度投入和优化前景.如果你不能合理的管理这些数据,就可能会错失良机.降低效率,甚至对你的盈亏造成负面影响.那么针对数据质 ...

  7. 数据流被污染?数据质量不高?蚂蚁金服数据资产管理平台了解一下

    今年年初,蚂蚁金服ATEC城市峰会在上海举办.金融智能专场分论坛上,蚂蚁金服数据平台部高级数据技术专家李俊华做了主题为<蚂蚁金服数据治理之数据质量治理实践>的精彩分享. 演讲中,李俊华介绍 ...

  8. 提高数据质量的方法有哪些

    要想真正解决数据质量问题,明确业务需求并从需求开始控制数据质量,并建立数据质量管理机制.从业务出发做问题定义,由工具自动.及时发现问题,明确问题责任人,通过邮件.短信等方式进行通知,保证问题及时通知到 ...

  9. 企业数据打通有什么好处?不同行业怎么解决数据打通难题?

    企业数据打通有什么好处?不同行业怎么解决数据打通难题? 企业大数据来源于互联网.企业系统ERP.金蝶.Excel表格和物联网等信息系统,经过大数据治理系统的分析发掘,产生新的知识支撑企业决策和业务智能 ...

  10. 数据中台:企业数据质量参差不齐?听听专家怎么说

    本文节选自<数据中台> 作者:付登坡,江敏,任寅姿,孙少忆 等 1 数据质量管理的目标 数据质量管理主要解决"数据质量现状如何,谁来改进,如何提高,怎样考核"的问题.在 ...

最新文章

  1. 表单界面的兼容PC手机端解决方案
  2. 12/12团队会议10
  3. PM Basic Skill---Communicate Plan
  4. java对象 Java中 VO、 PO、DO、DTO、 BO、 QO、DAO、POJO的概念
  5. vue 将字符串最后一个字符给替换_一步一步的实现Vue(一)
  6. 集合-2(Set(HashSet、TreeSet、LinkedHashSet)、List(ArrayList、LinkedList、Vector)、Map(HashMap、TreeMap...))
  7. Python合并字典的七种方式!
  8. Java黑皮书课后题第5章:*5.50(对大写字母计数)编写一个程序,提示用户输入一个字符串,然后显示该字符串中大写字母的数目
  9. ES01 数据类型、正则表达式、身份证校验
  10. MySQL高级 - 锁 - InnoDB行锁 - 介绍及背景知识
  11. LVM逻辑卷,RAID磁盘阵列
  12. 数据结构----二叉树叶子结点到根节点的高度计算
  13. 高颜值可定制在线作图工具-第二版
  14. android中自定义RadioButton
  15. 举例说明操作系统在计算机系统中的重要地位,第一二三章作业参考答案
  16. java sql merge_sql merge用法
  17. 在JavaScript中使用JSON
  18. Linux磁盘ext3变成ext4,从Ext3迁移到Ext4
  19. activex控件 java_ActiveX控件不自动安装
  20. 第一章 绪论 1.2 时域采样定理及其应用

热门文章

  1. 框架设计--第七章 MyBatis的核心配置--习题答案
  2. Ocr答题辅助神器 OcrAnswerer4.x,通过百度OCR识别手机文字,支持屏幕窗口截图和ADB安卓截图,支持四十个直播App,可保存题库...
  3. 英雄联盟服务器状态在线怎么解决,解决英雄联盟无法连接到服务器的方法 看完就明白了...
  4. docker部署kafka踩坑
  5. 如何使用Mobile_Detect来判断访问网站的设备:安卓,平板,电脑
  6. wifi 小米pro 驱动 黑苹果_小米Pro 15.6英寸(i7 8550U-MX110)游戏本黑苹果
  7. Tomcat创建Servlet容器
  8. BSD协议和FreeBSD
  9. maven配置阿里云镜像
  10. VNX VMX and delete luns