拒绝“脏”数据——数据质量评估深入剖析
随着数据呈爆发式地增长,多数传统企业也开始走上了数字化转型的道路。与此同时,数据中蕴藏的商业价值也逐渐被人们挖掘出来。而大数据类的项目都有一个特点:都以数据为核心。数据将作为产生业务价值和实现业务目标的基石,因此,数据质量就成为影响这类项目的一个极其重要的因素。
本文选自《数据治理:工业企业数字化转型之道》一书,将在技术基础上,从数据质量管理的技术指标和业务指标两大部分对数据质量评估进行深入的分析。
一本数据从业者都需要的工作指南
数据质量评估
互联网、智能手机、可穿戴设备及智能家居的快速普及,使得每一个人和每一台接入互联网的设备都在产生数据,这些数据被相关企业或组织通过合法的渠道收集、存储并加以分析,进而产生价值。
“数据即资产”的概念得到了人们的广泛认同,并且对数据的重视程度被提到前所未有的高度。然而,不是所有的数据都能成为资产,数据的价值与数据质量密切相关。
▼
数据质量是分析和利用数据的前提,是获取数据价值的重要保障。
业界比较通用的方式是基于完整性、一致性、及时性和准确性4个维度来评估数据质量。但如何能真正辅助企业判断数据价值却是一直以来大家都在探讨的问题。
为了应对挑战,各企业逐渐提出了数据管理能力成熟度评估模型以评估数据质量。
其从企业数据的采集、存储及应用等环节进行全方位的评估,并根据该企业数据能力的制度建设、过程监督和管理、组织人员的建设、工具的应用等多个方面进行评分,然后根据评分的结果汇总成数据能力成熟度等级分布。
数据管理能力成熟度评估模型——数据质量应用范例
通过数据能力成熟度的评估,企业可以更加准确地发现自身存在的问题、与相关企业在数据质量管理和应用方面存在的差异,以及自身的优势,从而明确下一步改进的方向,为数据资产的价值变现和提升奠定了基础。
数据质量问题起因
在企业的实际经营中,引发数据质量问题的因素广泛、复杂,涉及企业的信息系统、组织架构、人员、制度流程、企业文化等。引起数据质量问题的原因有以下几个:
- 公司IT建设:系统建设调整,技术平台升级
- 业务需求:表单设计不科学,数据描述不一致
- 操作水平:企业操作人员技术水平不一
- 控制机制:缺少有效的审核纠错机制
- 应用程序:数据完整性要求被忽略,缺乏全面校验流程
- 数据交换:数据量大,各系统对数据的标准不一致
因为数据的多样化和复杂化,在连续采集、高速存储、有效整合、实时分析、多维度呈现等各方面,都不是通过简单的数据统计分析所能解决的,在此可以使用鱼骨图进行定量问题分析。可以分别在信息系统、流程、技术及人员方面分模块进行分析。
将数据质量问题形成鱼骨图进行分析
数据质量管理技术指标
数据质量管理技术指标是从技术角度对企业数据进行评估,主要包括以下指标:
(点击查看大图)
1.唯一性
唯一性是指存储在不同系统中的同一个数据是一致的。此项主要明确企业所有系统中的数据是否一致,是否有重复数据。
2.完整性
完整性是指数据信息不能存在缺失的情况。数据缺失的情况可能是整个数据记载缺失,也可能是数据中某个字段信息的记载缺失。
3.相关性
相关性是指数据之间的关联程度。此项指标主要明确不同数据元之间的数据的关联程度。
4.有效性
有效性是指数据应遵循预定的语法规则的程度,应符合其定义,比如数据的类型、格式、取值范围等。此项指标主要明确企业系统里所有的数据值是否都在对应的字段里。
5.及时性
及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。如果数据延时超出统计的要求,则可能导致分析得出的结论失去了意义。此项指标主要明确当需要数据时是否可以即时拿到。
6.非重复记录
非重复记录是指用于度量哪些数据是重复数据或者数据的哪些属性是重复的。此项指标主要明确企业系统中的数据是否存在多个记录表现同一实体的现象。
数据质量管理业务指标
数据质量管理业务指标是从业务角度对企业数据进行评估,主要包括以下指标:
(点击查看大图)
1.真实性
真实性是指数据库中的实体必须与对应的现实世界中的对象一致,以样本数据的真实数据为衡量标准。
2.精确性
精确性是指数据精度符合业务需要,以样本数据满足业务对精度需求的比率为衡量标准。
3.一致性
一致性是指数据与其他系统(或者系统内部)一致,以样本数据不同存储的匹配率为衡量标准。
4.可理解性
可理解性是指数据含义明确和易于理解,以样本数据易于理解的记录比率为衡量标准。
5.可用性
可用性是指数据可获得,可满足业务使用,以样本数据可获得记录的比率为衡量标准。
相关图书推荐
拒绝“脏”数据——数据质量评估深入剖析相关推荐
- 亿信华辰:怎样去断定一份数据的质量高低?数据质量如何评估?
今天给大家分享一下如何进行数据治理.数据治理包括很多方面,咱今天聊聊数据质量应该如何评估." 数据质量的治理,是数据治理的主要内容之一.数据质量的全面评价,是数据质量治理的准绳." ...
- NanoPlot:三代纳米孔测序数据质量评估
简介 二代测序最常用的质量评估软件是FastQC,多样本时可进一步结合MultiQC.此外速度超快的fastp也特别推荐,而且包括质量评估.质量控制等功能,可以说是国产软件之光,详见下方详细教程: 数 ...
- 企业如何进行数据质量评估
一般来说,当企业有了全新的业务需求.重大的技术变更,又或者从一个新的数据来源获取了全新的数据,并期望将它应用在一个具体的业务中的时候,我们都需要进行比较完整的数据质量分析.数据质量评估步骤如下: 1. ...
- ava查询mysql的数据_【技术综述】AVA-第一个大规模的美学质量评估数据库
本文首发于微信公众号<与有三学AI> 不知道你有没有读过笔者之前发过的一篇文章? <干掉柯洁的下一步,阿尔法狗创始人又要毁掉这个行业(深度学习)> 文章在在公众号和知乎专栏都有 ...
- Google Earth Engine(GEE)——MOD10A1 V6 Snow Cover Daily Global 500m积雪、积雪反照率、部分积雪和质量评估 (QA) 数据
MOD10A1 V6 Snow Cover Daily Global 500m 产品包含积雪.积雪反照率.部分积雪和质量评估 (QA) 数据.积雪数据基于采用归一化差异积雪指数 (NDSI) 和其他标 ...
- 数据质量评估入门数据监控
这里的数据质量不是测试的那种质量,而是可以理解为数据自身的质量属性. 什么是数据质量 数据质量指数据是否适合其使用目的的程度,包括数据的准确性.完整性.一致性.可靠性和时效性等方面.数据质量评价是评估 ...
- 国际权威数据质量原文修订:数据质量评估的六个主要维度
数据质量评估的六个主要维度 原文下载: https://download.csdn.net/download/bigdatapang/12125767 DAMA版权所有, 翻译修订by大数据庞涛138 ...
- 数据分析 - 基础原理 之 第三章:数据质量管理 - 第一节:数据质量评估
请参考原创:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA 前言 数据资产的重要性 数据资产是企业或组织拥有或控制,能带来未来经济利益的数据资源.越 ...
- 基于海量日志和时序数据的质量建设最佳实践
简介: 在云原生和DevOps研发模式的挑战下,一个系统从开发.测试.到上线的整个过程中,会产生大量的日志.指标.事件以及告警等数据,这也给企业质量平台建设带来了很大的挑战.本议题主要通过可观测性的角 ...
- SLCP验厂辅导,SLCP验证员必须遵守验证协议中的验证规则以确保数据的质量和完整性
SLCP(Social&LaborConvergenceProject)是社会劳工整合项目的简称,该项目致力于通过创立和实施一个简单.统一和有效的行业范围的社会与劳工数据收集的融合评估框架(C ...
最新文章
- 阿里问题定位神器 Arthas 的骚操作,定位线上BUG,超给力
- C#获取容器窗体中控件Location问题
- 重学前端----前端知识系统学习推荐专栏
- 伤肾的九个恶习及解决办法(图)
- 技术动态 | 知识图谱上的实体链接
- 【Android群英传】学习笔记(三·一)
- 管理感悟:不要过度自我合理化
- 121、华为交换机配置手册
- Hadoop YARN(入门) —— Hadoop权威指南5
- win7主题文件夹背景破解
- 天邑ty400 wifi6路由 安装第三方扩展 Entware
- 非常好用的节假日查询接口
- 同相放大、反向放大、差分放大电路的开环增益
- 利用xiaopiu做产品原型输出与交互设计
- ATmega16 单片机 AVR单片机 自动计价电子秤
- web前端设计与开发期末作品:旅游网站设计——响应式的出国旅游定制(17页) HTML+CSS+JavaScript 旅游网页html 旅游景点html...
- android 远程管理,教你如何在Android上远程控制电脑
- 微信小程序中使用Echarts 折线图、柱形图、饼状图
- 新生儿登记-申办报告
- 学生课程注册管理系统