(一)数据质量校验流程
数据仓库每天都有很多ETL任务定时执行加载数据,确保ETL加载数据的完整性、准确性是数据质量管理的基本要求。
1)日常数据校验
数据质量管理人员每天要对ETL加载任务执行情况进行检查。
数据校验方法选择
ETL任务数据质量校验要求必须采用以下三类方法中的至少一种来进行判断:记录数检查法;关键指标总量验证法;值域判断法。
数据校验周期
每天ETL加载任务比较多,如果全部执行数据校验需要的时间过长,因此根据每个主题数据的可信等级确定校验频率。
可信等级与校验频率的对应关系如下:
一级:每次加载都必须执行数据校验
二级:每三次加载执行一次数据校验
三级:每六次加载执行一次数据校验
对于需要特别保障的主题数据,可调整校验频率并额外增加经验审核法。
2)定时数据抽查
数据校验确保每天加载的增量数据的完整性、准确性,在此基础上,数据质量管理小组必须每季度组织一次数据仓库的定期抽查。
定期抽查的范围必须包括可信等级为一级的所有主题数据,可信等级为二级的二个主题的数据,可信等级为三级的一个主题的数据。
定期抽查必须采用数据质量评估方法中定义的所有方法。
3)全面数据检查
数据质量管理小组必须每年组织一次数据仓库的全面检查。
全面检查的范围包括企业数据中心平台所有主题的数据。
全面检查必须采用数据质量评估方法中定义的所有方法。
(二)数据异常处理流程
(1)数据质量管理人员发现数据差错应及时核对核实,根据核对核实情况填写数据问题处理单,描述数据质量问题的现状、原因和改正、预防措施。
(2)数据质量管理小组组长审批后,报数据中心主管部门批准后执行数据修正任务。
(三)数据质量的评估报告
最终根据数据质量检查的情况,数据质量管理小组会定期或不定期的生成相关的数据质量评估报告,数据质量报告分为两类:
每月定期提交的数据质量报告,即每月数据质量问题的陈述。
数据质量抽查或全面检查后提交的数据质量报告。
1.每月数据质量评估报告
每月的数据质量报告是在每月月末或者下月月初时编制的月度执行报告,数据质量管理小组会对当月数据质量情况进行汇总统计,并根据“数据质量问题频率”的变化情况对各个主题的等级进行检查策略的调整,报告格式如下:
A、非系统问题
(1)数据质量问题的现象
(2)业务数据范围
(3)问题陈述
B、系统问题
(1)数据质量问题的现象
(2)业务数据范围
(3)问题陈述
2.数据质量抽查或全面检查后提交的数据质量报告
数据质量抽查或全面检查报告是在每次进行完整个企业数据中心抽查或全面检查后编制的质量报告,同每月数据质量报告相比,除了要统计数据质量情况并重新划分主题等级外,还需要对整个质量体系运作的情况进行评估和改进,报告格式如下:
A、基本概况
包括:参与数据质量检查的相关组织与人员;数据质量检查的时间;数据质量检查的地点;数据质量检查的形式;数据质量检查的范围等方面的内容。
B、数据质量的检查与评价
(1)评价过程与步骤
(2)数据检查方式
主要分为全部检查和抽查。全检必须说明检查的范围、内容及方法。抽查必须说明抽样方案、过程及数据检查的范围、内容及方法。
(3)数据质量评价方法
C、数据质量评述与结论
(1)评述
对数据质量进行的综合描述(包括存在问题)。
(2)结论与建议
包括检查结果、可信等级调整建议等。

数据治理之数据质量管控流程(参考)相关推荐

  1. 数据管理、数据治理、数据管控的概念区别和范围是什么?

    数据管理.数据治理.数据管控的概念区别和范围是什么? 1.数据管理是利用计算机硬件和软件技术对数据进行有效的收集.存储.处理和应用的过程.其目的在于充分有效地发挥数据的作用,而实现数据有效管理的关键是 ...

  2. 医疗数据治理——构建高质量医疗大数据智能分析数据基础

    医疗数据治理--构建高质量医疗大数据智能分析数据基础 阮彤,邱加辉,张知行,叶琪 华东理工大学计算机科学与技术系,上海 200237   摘要:以专病真实世界研究为背景,分析了医疗数据治理和数据可用性 ...

  3. 数据治理:数据质量问题出现的原因及解决思路

    众所周知,要体现数据价值,前提就是数据质量的保障,质量没有得到 100% 保证的数据是很难体现出业务价值的,如果基于这些有问题的数据做决策支持,或做业务办理,将会得到灾难性的结果,让领导层和数据使用方 ...

  4. 数据管理,数据治理,数据管控

    最近接触到数据管理.数据治理.数据管控,三个数据相关的专业词汇,对于他们的理解,也是不断加深中. 查资料的时候,碰巧看到一篇国家网信办的文章<试论加强数据治理能力的重要性>,从国家层面理解 ...

  5. DAMA数据治理与数据质量--非结构化数据的数据质量管理

    本文根据汪广盛先生在[DQMIS 2020第四届数据质量管理国际峰会]现场演讲内容整理而成. 图1.1 DAMA(国际数据管理协会)中国区主席  汪广盛 演讲嘉宾介绍 -- 汪广盛 国际数据管理协会( ...

  6. 银行数字化转型导师坚鹏:银行数据治理和数据质量问题解决

    银行数据治理和数据质量问题解决 课程背景: 很多银行存在以下问题: Ø 不知道如何准确理解银保监会数据治理相关政策及要求? Ø 不清楚如何有效解决数据治理及数据质量遇到的重要问题? Ø 科技条线不清楚 ...

  7. 数据治理:数据治理之道-数据文化-数据思维融入企业文化

    参考<一本书讲透数据治理>.<数据治理>等 大数据的根本价值在于从数据的不确定性中发现规律,获得确定性.想要在繁杂的大数据中快速找到价值数据,并依靠数据发现.分析.解决.跟踪问 ...

  8. 华为数据之道:华为数据治理及数据分类管理实践

    节选自<华为数据之道> 作为一家巨型跨国企业,华为在 170 多个国家同时开展各种业态的业务,华为的数据底座是支撑华为业务运营的关键.因此,华为的数字化转型成为行业竞相研究的标杆.应行业要 ...

  9. 【2016年第3期】大数据治理的数据模式与安全

    马朝辉1,聂瑞华1,谭昊翔1,林嘉洺1,王欣明1,唐华2,杨晋吉1,赵淦森1 1. 华南师范大学计算机学院,广东  广州  510630: 2. 华南师范大学软件学院,广东  佛山  528225 摘 ...

  10. 大数据的淘金之旅,数据治理之数据资产管理

    写在前面: 这是一个系列文章,沉淀了我在数据治理领域的一些实践和思考.共分为5篇.分别是: 一.大数据治理:那些年,我们一起踩过的坑 主要讲讲数据治理工作中常见的一些误区. 二.要打仗,你手里先得有张 ...

最新文章

  1. 什么是枚举,为什么有用?
  2. 海康开放平台音视频方案对比(rtsp、http-flv、hls、rtmp)
  3. JDBC连接数据库及其执行操作
  4. Redis数据库的管理
  5. JavaScript new对象的四个过程
  6. 做人真善美,做事拖后腿
  7. x61 linux 驱动 无线网卡,Linux环境Thinkpad X61 4G内存Mtrr表错误
  8. 北京发布人工智能产业政策,该如何高效关注行业动态、把握新机遇?
  9. linux中同时移动多种格式文件
  10. glog 设置日志级别_如何动态改变日志级别
  11. tenorflow异常集合(自用记录)
  12. 如何统计当前Spark程序有多少分区?
  13. opencv中Mat、CvMat和IplImage的相互转化
  14. 在word中输入带圈数字序号的方法总结
  15. 接口做的好怎么形容_游戏耳机怎么选?入耳式游戏耳机测评+游戏音频指南
  16. JavaScript中的Blob你知道多少
  17. 苹果cmsv10仿电影淘淘PC+WAP爱看的高端免费模板
  18. 生产进度管理系统为制造管理提供较完善的解决方案
  19. python生日悖论分析_生日悖论
  20. OpenCV--014: 图像插值

热门文章

  1. 麒麟V10非root用户升级GCC5.4,并解决程序运行出现‘GLIBCXX_3.4.21‘ not found
  2. 五个优秀的视频格式转换工具
  3. ERROR: ld.so: object ‘/usr/local/lib/libc2.28.so‘ from /etc/ld.so.preload cannot be preloaded ...
  4. 布丰投针实验(如何将Geogebra动态文件嵌入博客中)
  5. 运维日志审计是什么意思?用什么工具好?
  6. python中步长_python步长什么意思
  7. matplotlib设置x轴和y轴 设置
  8. binlog2sql快速闪回
  9. 你的系统可靠性和可用性是几个9?
  10. Python绘制bezier曲线