数据质量的治理,是数据治理的主要内容之一。数据质量的全面评价,是数据质量治理的准绳。

这一系列的文章,分享一下如何进行数据治理。数据治理包括很多方面了,之前有分享过《数据仓库》相关的内容,也属于数据治理的范畴。今天聊聊数据质量的评估。

一 为什么要进行质量评估

可能很多小伙伴,之前都没有关注过数据质量的事。但如果是经常和数据打交道的话,以下的场景应该不陌生:

场景一:作为分析师,要统计一下近7天用户的购买情况,结果从数仓中统计完发现,很多数据发生了重复记录。

场景二:业务看报表,发现某一天的成交gmv暴跌,经过排查发现,是当天的数据缺失。

以上就是随便举了两个例子。其实很多时候数据有问题,都属于数据质量的范畴。数据质量差,会导致业务分析的结果不准确、导致决策失误、导致内部不一致等等情况。

提升数据质量,是数据治理的必须,是数据发挥价值的基础。没有质量的数据,还不如没有数据。

关于如何提升数据质量,我们后面再来分享。在这之前,首先要知道,我们说的数据质量好或者数据质量差,到底是好在哪、差在哪。这也就是数据质量的评估。只有知道如何评估数据质量,才能有的放矢,有针对性的提升数据质量。

二 如何进行质量评估

那如何进行数据质量的评估呢?先来张总体的概览。

数据质量的评估,主要围绕着以下六个方面进行。

(1)数据完整性

这个其实比较好理解,通俗上来讲,就是我们常说的数据全不全嘛。

但如何用指标来衡量呢,通常看一份数据的总记录数是否正常。比如成交记录是1万条,但数据表只有9000条,这就是不完整的。

当然了,再细一些,可以看到表中具体字段。比如总条数是1万,但是用户ID字段有2000是空的,这也是不完整的。

(2)数据唯一性

唯一性也比较容易理解,就是没有重复的。

这个其实和数据完整性是相对的。完整性看的是数据少没少,数据唯一性看的是数据多没多。

还是上面的例子,比如真实成交1万条,但数据表有3000重复了,成了1.3万条成交记录,这就不符合数据唯一性的评估。

(3)数据有效性

这个主要是看数据是否符合公司业务的真实情况。比如手机号字段,取值是32988,明显是脏数据。

这里列举了几个方面:

代码值域约束:比如**类型的代码值要包含在数据标准的公共代码中

长度约束:比如约束身份证字段长度要等于18位

取值范围约束:比如要求字段值不能是负数

标志取值约束:比如要求字段取值只能是1、2、3

通过以上方面,可以衡量数据内容的质量是否达标

(4)数据一致性

数据一致性的含义,就是通过不同方式取出来的数据,不能是冲突的。这里强调的是多个表或者来源。只有多个对比,才有不一致的概念。

这其实经常是我们交叉验证时的内容,经常会说的一句话:“这数对不上啊!”

通常分为以下三个方面:

等值一致性:一个核验对象的数据取值必须与另外一个或多个核验对象在一定规则下相等。比如,“进出口经营权许可证号”长度13位,后9位应该与“组织机构代码证”一致

存在一致性:一个核验对象的数据值必须在另一个核验对象满足某一条件时存在。比如,“登录状态”是已登录,“登录日期”不能为空

逻辑一致性:一个核验对象上的数值必须与另一个核验对象的数据值满足某种逻辑关系。比如,“支票起号”小于等于“支票止号”

(5)数据准确性

多个表有不一致的概念,单个数据表呢?这就是数据准确性了。这个比较容易理解,比如用户的实际地址是青岛市,但数据表存的是烟台市。

一般原始数据不准的情况不多,都是统计表、汇总表容易出现数据不准的情况。比如统计用户最近30天的成交金额出现偏差。

另外值得注意的是,准确性强调数据是否与真实世界值一致。这个校验有时候不容易进行。

(6)数据及时性

这个也比较容易理解,主要是满足时效性的。这里也划分到了数据质量的范畴。

比如一份数据是统计离线T-1日的,结果都是第二天下午甚至第三天才能统计完,这种数据的应用价值就会大打折扣了。

数据质量的评估维度,就先分享到这里。后面会针对如何落实数据质量的管理、提升数据质量,进行详细分享。

质量评估:如何全面评价一份数据的质量高低?相关推荐

  1. 亿信华辰:怎样去断定一份数据的质量高低?数据质量如何评估?

    今天给大家分享一下如何进行数据治理.数据治理包括很多方面,咱今天聊聊数据质量应该如何评估." 数据质量的治理,是数据治理的主要内容之一.数据质量的全面评价,是数据质量治理的准绳." ...

  2. ava查询mysql的数据_【技术综述】AVA-第一个大规模的美学质量评估数据库

    本文首发于微信公众号<与有三学AI> 不知道你有没有读过笔者之前发过的一篇文章? <干掉柯洁的下一步,阿尔法狗创始人又要毁掉这个行业(深度学习)> 文章在在公众号和知乎专栏都有 ...

  3. 讯飞机器翻译质量评估挑战赛Baseline(PaddlePaddle)

    赛题简介 比赛地址:点击直达 举办方:科大讯飞股份有限公司 任务类型:质量评估(QE).自然语言回归 赛事背景 机器翻译质量评估(QE)指在没有人工翻译参考下对机器翻译系统译文进行自动打分.一方面,Q ...

  4. 腾讯技术开放日 | 腾讯会议如何进行视频质量评估与优化?

    腾讯会议系统中,视频质量是影响用户体验的主要因素,对视频质量进行评估和优化是吸引和留住用户的关键.在开发腾讯会议质量评估系统的过程中,有哪些技术难点和相应的解决方案?在[腾讯技术开放日 · 云视频会议 ...

  5. 企业如何进行数据质量评估

    一般来说,当企业有了全新的业务需求.重大的技术变更,又或者从一个新的数据来源获取了全新的数据,并期望将它应用在一个具体的业务中的时候,我们都需要进行比较完整的数据质量分析.数据质量评估步骤如下: 1. ...

  6. 数据质量评估入门数据监控

    这里的数据质量不是测试的那种质量,而是可以理解为数据自身的质量属性. 什么是数据质量 数据质量指数据是否适合其使用目的的程度,包括数据的准确性.完整性.一致性.可靠性和时效性等方面.数据质量评价是评估 ...

  7. 数据分析 - 基础原理 之 第三章:数据质量管理 - 第一节:数据质量评估

    请参考原创:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA 前言 数据资产的重要性 数据资产是企业或组织拥有或控制,能带来未来经济利益的数据资源.越 ...

  8. NanoPlot:三代纳米孔测序数据质量评估

    简介 二代测序最常用的质量评估软件是FastQC,多样本时可进一步结合MultiQC.此外速度超快的fastp也特别推荐,而且包括质量评估.质量控制等功能,可以说是国产软件之光,详见下方详细教程: 数 ...

  9. Google Earth Engine(GEE)——MOD10A1 V6 Snow Cover Daily Global 500m积雪、积雪反照率、部分积雪和质量评估 (QA) 数据

    MOD10A1 V6 Snow Cover Daily Global 500m 产品包含积雪.积雪反照率.部分积雪和质量评估 (QA) 数据.积雪数据基于采用归一化差异积雪指数 (NDSI) 和其他标 ...

  10. 国际权威数据质量原文修订:数据质量评估的六个主要维度

    数据质量评估的六个主要维度 原文下载: https://download.csdn.net/download/bigdatapang/12125767 DAMA版权所有, 翻译修订by大数据庞涛138 ...

最新文章

  1. ServerSocket
  2. 五子棋java判断平局_2020-10-03 Java初级项目——从零开始制作一个简易五子棋游戏...
  3. NET问答:如何理解 IEnumerableT 和 IQueryableT
  4. [Leedcode][JAVA][第739题][每日温度][暴力][单调栈]
  5. matlab是以什么运算为基础,matlab基础练习题及答案讲解
  6. python判断字符串中[提取、判断只含有、判断不含有]中文
  7. 170819-关于JSTL的知识点
  8. 【面经】字节AI Lab-NLP算法热乎面经
  9. cmd cd 无法切换目录_如何获取用户主目录?os/user 就可以了,为什么要 gohomedir...
  10. STAR:转录组数据比对工具简介
  11. 工具推荐:JDownloader - 下载网盘资料的好工具
  12. windows命令提示符运行.cpp文件
  13. 多项式拟合缺点_常见算法优缺点
  14. IMU预积分公式汇总
  15. 开源软件的安全性风险_认真对待开源安全性
  16. C#:BackgroundWorker的简单使用
  17. 世界曾经有这样一个中国
  18. 使用bootstrap时下拉菜单失效问题解决
  19. 笔记本运行linux亮度低,关于笔记本linux亮度调节
  20. Quick BI 数据大屏快速入门

热门文章

  1. javascript异步编程之回调函数
  2. 下行法求最小割集案例_故障树中最小割集和最小径集的改进算法
  3. linux命令kp使用方法,Linux 命令 使用
  4. NXP RT1052 eFlexPWM—灵活的增强型 PWM
  5. Excel中怎么自动调整行高列宽
  6. webpack中loader和plugin的区别
  7. 形式化验证和功能验证VC Formal-synopsys芯片验证基础篇(六)
  8. m1电脑推荐使用Google Chrome浏览器
  9. js判断用户是第一次点击还是第二次点击
  10. python plc fx5u_三菱PLC FX5U CPU模块专用指令的处理内容