今天来填 2 个月前的坑。之前提到了数据质量:

【数仓】数据质量

我在面试中也碰到了数据质量的问题,没回答出来。今天学习一下数据质量监控原则。欢迎点击此处关注公众号。

1.数据质量概述

数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期,只有达到数据的使用预期才能给予管理层正确的决策参考。数据质量管理作为数据仓库的一个重要模块,主要可以分为数据的健康标准量化、监控和保障。

2.数据质量标准分类

  1. 数据完整性:数据不存在大量的缺失值、不缺少某一日期/部门/地点等部分维度的数据,同时在 ETL 过程当中应保证数据的完整不丢失。验证数据时总数应符合正常规律时间推移,记录数总数的增长符合正常的趋势。
  2. 数据一致性:数仓各层的数据,应与上一层保持数据一致,最终经过数据清洗转化(ETL)的宽表/指标能和数据源保持一致。

3.数据质量校验

3.1 单表数据量监控

一张表的记录数在一个已知的范围内,或者上下浮动不会超过某个阈值。

  • 方法:select count(*)from 表 where 时间等过滤条件。
  • 报警触发条件设置:如果数据量不在 [数值下限, 数值上限], 则触发报警。
  • 同比增加:如果 ((本周的数据量 - 上周的数据量) / 上周的数据量 * 100) 不在 [比例下线,比例上限],则触发报警。
  • 环比增加:如果 ((今天的数据量 - 昨天的数据量) / 昨天的数据量 * 100) 不在 [比例下线,比例上限],则触发报警。
  • 报警触发条件设置一定要有。如果没有配置的阈值,不能做监控。

监控的指标:日活、周活、月活、留存(日周月)、转化率(日、周、月)、GMV(日、周、月)。

例如:平常复购率(日周月)大约 30%,某天检测发现只有 20%。

3.2 单表空值检测

某个字段为空的记录数在一个范围内,或者占总量的百分比在某个阈值范围内。

  • 目标字段:选择要监控的字段。
  • 方法:select count(*) from 表 where 目标字段 is null。
  • 单次检测:如果(异常数据量)不在 [数值下限, 数值上限],则触发报警。

3.3 单表重复值检测

一个或多个字段没有重复记录。

  • 目标字段:选择要监控的字段。
  • 第一步先正常统计条数;select count(*) form 表;
  • 第二步,去重统计;select count(*) from 表 group by 目标字段;
  • 第一步的值和第二步的值做减法,看是否在上下线阀值之内;
  • 单次检测:如果(异常数据量)不在 [数值下限, 数值上限], 则触发报警。

3.4 单表值域检测

一个或多个字段是否满足某些规则。

  • 目标字段:选择要监控的字段,支持多选。
  • 检测规则:填写“目标字段”要满足的条件。
  • 阈值配置与“空值检测”相同。

3.5 跨表数据量对比

主要针对同步流程,监控两张表的数据量是否一致

  • 方法:count(本表) - count(关联表)
  • 阈值配置与“空值检测”相同。

【数仓】数据质量监控相关推荐

  1. 如何保障数仓数据质量?(建议收藏)

    导读 文|傅宇康 有赞数据报表中心为商家提供了丰富的数据指标,包括30+页面,100+数据报表以及400+不同类型的数据指标,它们帮助商家更合理.科学地运营店铺,同时也直接提供分析决策方法供商家使用. ...

  2. 基于MaxCompute的数仓数据质量管理

    声明 本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导. 参考文献 <大数据之路--阿里巴巴大数据实践>--阿里巴巴数据技术及产品部 著. 背景及目的 数据对一个企业来说已 ...

  3. 数据质量监控Griffin——使用

    一.环境 生产环境 数据质量监控griffin: 地址:http://XXXXXXXXX:4200/#/health 账号:admin 密码:123456 二.Griffin是干什么的? 官方介绍 大 ...

  4. 数据仓库之数据质量监控

    文章目录 ==数据质量的理解== ==数据质量维度== ==问题反馈流程== ==数据质量治理的三个阶段== ==数据质量产生的根本原因== ==数据质量治理的对象== ==数据质量战略== ==数据 ...

  5. 【数据仓库学习】数据质量监控

    0x00 前言 往往那些不起眼的功能,最能毁掉你的工作成果. 本篇分享一些和数据质量监控相关的内容.数据质量监控是一个在快速发展的业务中最容易被牺牲和忽略的功能,但是它确实至关重要的. 文章结构 数据 ...

  6. 【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

    编译:刘佳毅,花名佳易,阿里巴巴计算平台事业部EMR团队开发工程师,目前从事大数据安全相关方面工作. 摘要: 本文主要对Databricks如何使用Spark Streaming和Delta Lake ...

  7. 爱奇艺数据质量监控的探索和实践

    01 问题和目标:为什么要进行数据质量监控? 数据质量监控其实跟当前疫情的防控工作有些类似,核酸检测能尽早去发现病毒,溯源则会更了解病毒会在哪些场景,或者对哪些人有比较大的影响,方便进行跟踪,这和数据 ...

  8. 2.4 离线数仓—数据采集模块总结

    离线数仓-数据采集模块总结 前言 一.数据采集模块整体架构图 二.日志数据采集 1.日志数据采集流程图 三.业务数据采集 1.业务数据采集流程图 1)全量表同步说明 2)增量表同步说明 前言 数据采集 ...

  9. 数据分析 - 基础原理 之 第三章:数据质量管理 - 第五节:数据质量监控

    前言 数据质量监控 是容易被忽略的一个重要环节,我刚开始搞数据库时压根也没想到会有这档事,直到频繁出现几次数据"翻车"事故后,才感受到它的重要性与必要性:如果连数据源的状况都不能掌 ...

  10. 开源大数据数据质量监控调研

    开源工具选择不多,目前了解到的就以下3种: Qualitis griffin DolphinScheduler(最近有人上传了分支,支持数据质量监控功能) 1 Qualitis 腾讯微众银行开源,主要 ...

最新文章

  1. 添加议题模块html,WordPress 技巧:为评论模块增加更多 HTML 标签支持
  2. Matlab结构第三版,MATLAB程序设计(原书第3版)
  3. NET问答: 如何让 HttpClient 支持 Http 2.0 协议?
  4. GTJ2018如何导出全部工程量_如何成为优秀的造价员?广联达编制内刊手册,造价员算量高手秘籍...
  5. 线程启动语句的顺序是否决定线程的执行次序。_详细分析 Java 中启动线程的正确和错误方式
  6. Tensorflow动态seq2seq使用总结
  7. 苹果抢安卓用户出“杀手锏”,连安卓手机App都能一键同步
  8. 排序算法与常见数据结构
  9. Spring MVC —— form表单post提交出现乱码
  10. java多线程 线程安全_Java中的线程安全
  11. oracle mrp mps mds 的table关联,ORACLE中的计划-Forecast/MDS/MPS/MRP(转)
  12. android 获取service 实例化,在Activity中,如何获取service对象?a.可以通过直接实例化得到。b.可以通过绑定得到。c.通过star - 众答网问答...
  13. 软件测试 接口测试 入门Jmeter 接口关联 提取器 断言 与fiddler配合使用 使Jmeter录制和创建脚本 操作数据库 持续集成测试
  14. 免费下载IOS/MAc付费软件
  15. r语言和python的区别-r语言和python的详细对比
  16. 思科交换机接口配置trunk_cisco交换机vlan-trunk的配置详解及应用实例
  17. 小爱mini改aux立体声_DIY移动的智能助手-------将小爱音箱搬到爱车上
  18. 不同业务场景该如何选择缓存的读写策略?
  19. 1.2 电流和电压的参考方向
  20. Go基础(7)-golang面向对象三大特征(封装,继承,多态)

热门文章

  1. 清华大学计算机专业辅修课程,清华大学计算机应用专业-辅修专业
  2. 在浏览器中输入URL(如www.baidu.com)到显示页面经历哪些过程,涉及到哪些协议?
  3. 短视频“音频化”,音乐“视频化”
  4. linux命令获取reboot信息,linux的reboot命令
  5. fantastic website
  6. Animation.css动画效果属性
  7. CAP定理以及BASE定理详解
  8. 使用Go语言开发生成阿里云ECS监控报表,定时自动发送邮件给指定人员
  9. 背单词APP调研分析
  10. 基于SSL/TLS双向安全连接设备CA证书认证