博客《2020大数据面试真题(持续更新)》已迁移至微信公众号!!!     喜欢的朋友可以关注

最新面试题将会在微信公众号更新!

关注公众号即可获得免费学习资源,获得免费指导!!!

一.数据质量基本概念

                                                                                                        

二.影响因素

在此附上数据的生命周期图,包括各环节的数据流转和数据处理。

三.评估维度

  1. 完整性
    数据完整性问题包括:模型设计不完整,例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。
  2. 一致性
    多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。
  3. 准确性
    准确性也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。
  4. 唯一性
    用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。
  5. 关联性
    数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。
  6. 真实性
    数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料。
  7. 及时性
    数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。

需要新增的规则:(待优化)

四.稽核计算方式

规则分类

规则名称

规则编码

规则解释

唯一性

hasUniqueKey

1

验证用户指定的字段是否具有唯一性等

一致性

consistent_dict

2

验证用户指定的字段枚举值是否合乎要求等

完整性

integrity_notNull

3

验证表中必须出现的字段非空等

准确性

accuracy_length

4

验证长度是否符合规定等

1.主键唯一性计算

字段A的唯一性百分比 = count(distinct 字段A)/count(字段A)

2.非空完整性计算

字段A的完整性百分比 = sum(case when 字段A is not null then 1 else 0 end )/count(字段A)

3.字典一致性计算

枚举类型的数据都会维护在一张标准表中 然后和目标表进行比对字段A的 有效性百分比= sum(字段A in (维护的标准表) then 1 else 0 end )/count(字段A)

4.长度准确性计算

字段A的长度有效性百分比 = sum(case when length(字段A)<=设置数值 then 1 else 0 end )/count(字段A)

五.如何提升数据质量

1.事前定义数据的监控规则

提炼规则:梳理对应指标、确定对象(多表、单表、字段)、通过影响程度确定资产等级、质量规则制定

2.事中监控和控制数据生产过程

质量监控和工作流无缝对接

支持定时调度

强弱规则控制ETL流程

对脏数据进行清洗

3.事后分析和问题跟踪

邮件短信报警并及时跟踪处理

稽核报告查询

数据质量报告的概览、历史趋势、异常查询、数据质量表覆盖率

异常评估、严重程度、影响范围、问题分类

六.开发技术

pyspark hive datax mysql

七.开发流程

八.核心表核心字段梳理

九.数据质量报表产出

报表产出需要新增:(待优化)

十.重大问题告警

十一.质量报告及订阅

十.总结

数据质量管理贯穿数据生命周期的全过程,覆盖质量评估、数据监控、数据探查、数据清洗、数据诊断等方面。数据源在不断增多,数据量在不断加大,新需求推动的新技术也不断诞生,这些都对大数据下的数据质量管理带来了困难和挑战。因此,数据质量管理要形成完善的体系,建立持续改进的流程和良性机制,持续监控各系统数据质量波动情况及数据质量规则分析,适时升级数据质量监控的手段和方法,确保持续掌握系统数据质量状况,最终达到数据质量的平稳状态,为业务系统提供良好的数据保障。

===============================================================================================

以后博客的内容都是通过微信公众号链接的形式发布,之后迁移到公众号的文章都会重新修正,也更加详细,对于以前博客内容里面的错误或者理解不当的地方都会在公众号里面修正。

欢迎关注我的微信公众号,以后我会发布更多工作中总结的技术内容。

数据治理之数据质量管理相关推荐

  1. DAMA数据治理与数据质量--非结构化数据的数据质量管理

    本文根据汪广盛先生在[DQMIS 2020第四届数据质量管理国际峰会]现场演讲内容整理而成. 图1.1 DAMA(国际数据管理协会)中国区主席  汪广盛 演讲嘉宾介绍 -- 汪广盛 国际数据管理协会( ...

  2. 不忘初心方得始终:数据治理之数据质量管理

    写在前面: 这是一个系列文章,沉淀了我在数据治理领域的一些实践和思考.共分为5篇.分别是: 一.大数据治理:那些年,我们一起踩过的坑 主要讲讲数据治理工作中常见的一些误区. 二.要打仗,你手里先得有张 ...

  3. 大数据的淘金之旅,数据治理之数据资产管理

    写在前面: 这是一个系列文章,沉淀了我在数据治理领域的一些实践和思考.共分为5篇.分别是: 一.大数据治理:那些年,我们一起踩过的坑 主要讲讲数据治理工作中常见的一些误区. 二.要打仗,你手里先得有张 ...

  4. 数据治理:数据质量问题出现的原因及解决思路

    众所周知,要体现数据价值,前提就是数据质量的保障,质量没有得到 100% 保证的数据是很难体现出业务价值的,如果基于这些有问题的数据做决策支持,或做业务办理,将会得到灾难性的结果,让领导层和数据使用方 ...

  5. 【数据科学】数据治理与数据认责概述

    一.本文预期读者: • 企业领导 • 各主要业务部门领导 • 技术执行管理人员:在客户数据治理路线规划.设计和实施当中,需要资 深的管理人员支持. • 数据管理相关部门:负责客户数据管理和监管报送相关 ...

  6. 数据仓库(11)什么是大数据治理,数据治理的范围是哪些

    文章目录 主数据管理 元数据管理 数据标准 数据质量管理 数据安全管理 数据计算管理 数据存储管理 什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战.最基础的 ...

  7. 数据治理:数据治理框架和标准

    参考<一本书讲透数据治理>.<数据治理>等 数据治理并不是新概念,在国内外都有实践,这里重点介绍下国内外对数据治理的主流框架和标准 国际数据治理框架 国际上,主流的数据治理框架 ...

  8. 数据治理解决方案数据治理标准化现状

    数据治理的范围和原则 数据治理的范围 数据治理工作是在国际协作.国家治理.行业监督和企业管理中,为了提升 数据的质量.降低数据管理成本.保障数据安全和管控数据风险,针对公共数据. 政府数据.企业数据和 ...

  9. 数据管理、数据治理、数据管控的概念区别和范围是什么?

    数据管理.数据治理.数据管控的概念区别和范围是什么? 1.数据管理是利用计算机硬件和软件技术对数据进行有效的收集.存储.处理和应用的过程.其目的在于充分有效地发挥数据的作用,而实现数据有效管理的关键是 ...

  10. 【2016年第3期】大数据治理的数据模式与安全

    马朝辉1,聂瑞华1,谭昊翔1,林嘉洺1,王欣明1,唐华2,杨晋吉1,赵淦森1 1. 华南师范大学计算机学院,广东  广州  510630: 2. 华南师范大学软件学院,广东  佛山  528225 摘 ...

最新文章

  1. php正则匹配utf-8编码的中文汉字
  2. python画动态爱心-【Python】五分钟画一条动态心形曲线~
  3. 108-学习如何格式化字符串
  4. latex 参考文献没有显示_甜甜的磕盐路 | LaTeX论文排版小贴士
  5. 知识蒸馏在推荐系统中的应用
  6. 联想e52进入bios_联想笔记本怎么设置u盘启动|联想笔记本bios设置usb启动步骤
  7. 超线程cpu的寄存器_一文总结 CPU 基本知识
  8. 配置Tomcat的日志系统
  9. CF891B-Gluttony【构造】
  10. 【汇编语言】王爽 - 内中断复习
  11. log4j2 日志框架小记
  12. 文件系统在NVMe SSD上的性能表现分析
  13. 今日博文视点大咖直播伴你读No.3:数据分析学习之道
  14. 设计模式(8)——外观模式
  15. c语言 dirent,dirent / opendir(), readdir()
  16. 《金融学》笔记 第七章 商业银行
  17. 运动控制专题——PPU
  18. 当代中国最贵的汉字是什么?
  19. NASM:Loop指令中的ecx/cx
  20. Linux-------线程安全

热门文章

  1. CCS6图文安装教程
  2. 串口调试助手CRC16_MODBUS校验码计算
  3. 整蛊别人的vbs代码刷屏
  4. 充电和库仑计,charge(bq24161) and coulomb(bq27425)
  5. Centos下nfs+rpcbind实现服务器之间的文件共享
  6. 通俗易懂机器人运动学左乘右乘理解
  7. 最新cs1.6服务器ip地址,CS1.6 IP地址大全(死亡奔跑等)
  8. 一个很好的网址,Visio 使用教程
  9. pe_xscan 增加 O31 项
  10. 【转载】中文知识图谱研讨会的学习总结 (上) 图谱引入、百度知心、搜狗知立...