本期,我们将围绕数据质量管理的流程及如何搭建数据质量管理平台展开阐述。可点击下方链接回顾上期内容。

01

如何制定数据质量管理流程

通过分析数据质量相关理论体系,总结出“定义、测量、分析、整改、监控”五步法的质量管理流程,并明确各环节涉及的工作。

流程一:定义

在执行数据质量管控任务之前首先需要确定数据质量的管控范围与检核规则。并非所有的数据都需要进行数据质量管控,在选择范围时一般遵循两大原则:

重要性原则:数据质量管控应首先应用于组织中最重要的数据。企业内部的重要数据包括主数据与基础数据,企业外则主要关注监管数据。此外,一些痛点问题、关键业务、公司变革、核心KPI所涉及的数据也符合重要性原则。

成本效益原则:任何企业活动开展均需要进行成本效益的判断,若某类数据质量提升所带来的效益或减少的损失低于该活动产生的成本,则此类数据可不优先考虑。当然也应注意到,效益分析时经济效益与社会效益同等重要,例如保持高质量的客户数据对于银行来说是一种重要的企业社会责任。

对于监管数据,数据质量的管控范围已由监管组织给定,所以数据管理团队应侧重于明确检核内容,包括该条规则涉及的底层业务、责任部门等。在定义范围与规则后,数据质量提升的工作才能有的放矢。

流程二:测量

测量环节主要利用专业的质量检核工具对定义的规则进行跑批,输出质量问题数据明细。目前逐渐由人工手动撰写代码跑批发展到定时自动跑批,更加及时发现并跟踪质量问题整改情况,节省手动操作的人力。

流程三:分析

在获取质量问题数据明细之后,需对产生的问题进行归因分析,对症下药。质量问题产生的原因可概括为两大类:人为操作导致的质量问题与系统架构设计不合理导致的质量问题。人为操作下又可分为领导力不足、员工培训不到位等原因,系统架构设计不合理下又可分为业务取数逻辑错误、系统界面设计不佳、数据传输问题、模型设计不准确等因素。对于监管数据来说,因监管提出的质量规范与银行业务实际业务不适配,或将导致新的质量问题。

流程四:整改

质量问题整改并非一蹴而就,需要持续跟踪整改情况。定义管控范围和检核规则之后,针对此项问题需开展“测量-分析-整改”的循环工作以持续提升质量水平。整改方式可分为手工整改错误数据、系统开发优化以及向监管组织解释等。监管数据问题一般要求100%得到解决,对于公司内部数据问题的整改,可运用六西格玛质量管理体系评估其数据质量。

流程五:监控

监控环节涉及数据质量水平监控、质量问题整改考核、数据质量报告发布等内容,力求精确、有效的跟踪企业内部数据质量变化,为质量问题整改的推进提供有力保障。

02

如何建立数据质量规则库和工具平台

如何建立数据质量规则库?我们需要明确哪些数据的质量是银行所关心的,因此必须要知道哪些是银行重要系统,哪些数据项是重点关注的数据,哪些指标能够反映经营状况。基于以上几点,可以将以下几类数据项作为数据质量规则库的内容:

  1. 监管报送涉及的系统以及需要报送的数据项

  2. 高管驾驶舱重点指标加工涉及的系统数据项

  3. 业务部门申报的重点关注数据项

  4. 客户关键信息涉及的系统数据项

以上这些数据项不仅仅是数据质量重点关注的内容,同时也包含在基础标准中,因此可以将基础标准中的数据项作为数据质量规则库的基础。在基础标准层面明确定义数据质量要求,并且完成源系统的基础标准对标工作,就可以直接建立数据质量规则库。质量规则责任到部门,甚至责任到人,建立可分层执行的质量规则库。

质量规则可以分为以下几层:

  1. 贴源层:主要包含数据湖入湖数据,其中EAST报送以及基础标准对应的入湖数据是质量规则重点关注的对象,针对贴源层的检查规则大部分可以在入湖时进行检查,一旦发现质量问题可及时告警;

  2. 公共模型层:主要面向计算平台的主题模型中的数据,公共模型层是整个数据中台核心部分,数据中台上其他应用的数据加工都来源于此,因此公共模型层质量规则重点关注数据加工后的一致性、完整性和有效性;

  3. 领域模型层:这一层的检核规则主要针对各类指标标签加工结果进行检查,重点关注加工后的数据精确性和准确性;

  4. 应用层:应用层的数据质量规则一般由应用前端设置阈值进行实时监控,往往关注数据的异常波动。

通过实践,我们认为将质量规则库分层有以下几个好处:

  1. 自上而下,规则统一

  2. 权责清晰,利于管理

  3. 快速部署,灵活监控

通过建设质量检核平台将以上质量规则进行落地实施,就形成了统一管理的企业级质量规则库,平台内置的质量检核规则主要有以下几种:

  1. 完整性:例如内部机构号不允许为空或null;

  2. 有效性:例如统一社会信用代码长度必须为1、9、10、18位;

  3. 唯一性:例如主键唯一性验证;

  4. 一致性:例如客户经理工号必须在员工表里面存在;

  5. 时效性:例如根据人力资源系统中的员工入职日期和记录创建时间判断信息维护是否符合时效性要求;

  6. 真实性:例如将出生日期与身份证号进行校验,判断其真实性;

  7. 精确性:例如利率、汇率字段的精度是否满足业务需求;

  8. 连续性:例如公共模型中大部分历史表必须保证数据的连续性,除采用经济型拉链算法形成的历史表。

质量检核平台以数据清洁为目标,以业务需求为驱动,通过质量提升任务形成质量规则库,通过质量检核了解数据源质量、监控异常数据、督促质量改进,将数据质量管理作为一项持续性工作,使之“系统化”“持续化”“常态化”。根据质量规则形成质量度量指标,对整体数据质量水平进行综合评价,披露数据质量问题与短板,促进问题改进。质量评测范围包含数据资产目录、数据标准、数据模型、数据分布、设计质量等。

数据中台作为全行数据的中心,不仅包含全行各个源系统的数据,大部分数据加工工作也在数据中台完成,是最适合进行数据质量检查的系统。因此数据质量检核工作由数据质量检核平台、数据治理平台以及数据计算平台协同完成,治理平台负责提供元数据以及血缘信息,质量检核平台负责数据质量规则管理以及质量检核任务调度,计算平台负责执行质量规则并保存检核结果。

由于数据质量检核功能涉及生产业务数据,考虑到生产数据的安全性,将数据质量检核系统单独部署,与数据治理平台隔离。通过访问企业级数据服务平台API接口,连接计算平台进行数据检核,异步提取数据到质量平台Hadoop集群环境。

质量检核平台的各项功能是依据质量管理办法中的质量管理流程进行设计的,具体功能包括质量提升计划、质量规则库、质量规则执行、质量问题跟踪、数据质量报告等功能模块。

1.质量提升计划:当发现数据质量问题后,由数据管理部门或业务部门了解清楚质量问题出现的系统,问题影响范围和严重程度,明确质量提升目标,制定计划启动日期;

2.质量规则库:供质量规则配置功能,支持自定义配置、按模板配置、批量导入的方式;

3.质量规则执行:支持按周期、按时间点配置调度作业,支持查看调度任务执行情况以及执行日志,可以在线调整任务优先级,干预当前正在执行的检核任务,干预类型包含挂起、重跑、结束执行等;

4.质量问题跟踪:整个质量问题跟踪流程主要有问题分析、问题分发、确认质量提升效果这几个步骤。问题分析不能只停留在发现问题的系统本身,而是需要追根溯源找到数据的源头系统,制定问题解决方案。在问题分发环节需要关注问题解决方案的类型,如果是数据缺失需要补录的情况,则分发到各业务部门,由业务部门组织补录,如果需要修改系统代码,则分发到系统主管业务部门发起系统变更需求。在问题分发完成后,需要定时确认质量提升效果,系统将重新执行检核规则,将整改后的数据与整改前进行比对,确认解决状态;

(截图已做模糊处理)

5.数据质量报告:根据质量规则检核结果生成数据质量报告,包括针对某个问题的专项报告或基于基础标准检查的综合性报告。

工作手册:如何实施数据质量管理(下)相关推荐

  1. 工作手册:如何实施数据质量管理(上)

    数据质量是数据治理的主要目标之一,也是数据治理效果的重要校验标准.同时,质量管理(QM)有自身的方法论和基本策略,包括业界著名的6西格玛管理.精益管理等,都把质量的管理和提升上升到了"质量工 ...

  2. 数据治理:数据质量管理策略!

    数据质量管理包含正确定义数据标准,并采用正确的技术.投入合理的资源来管理数据质量.数据质量管理策略和技术的应用是一个比较广泛的范畴,它可以作用于数据质量管理的事前.事中.事后三个阶段. 数据质量管理应 ...

  3. 大数据审计的发展_浅谈大数据时代下审计工作的发展方向

    浅谈大数据时代下审计工作的发展方向 李寒梅 [摘 要] [ 摘 要 ] 随着信息化水平不断提升,企业的审计工作需要处理海量的数 据,而利用常规软件难以对海量数据进行处理,这就需要应用大数据技术.审 计 ...

  4. 浅议大数据时代下消防工作、生活和思维的变革

    最近在微信圈流行的段子:一个客户拨打了披萨店的电话,还没说要什么披萨,仅仅告知了他的会员卡号,店员从系统中就知道了他所有个人信息.包括地址.电话.身高体重.医疗记录.过敏史.家里几口人.家里人的健康状 ...

  5. access对比数据_数据仓库系列之数据质量管理

    数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量.因此数据仓库的数据质量建设是一些公司的重点工作. 一 ...

  6. 案例分享|数据可视化下的驱动业务增长

    在我国,制造业有两种态势:一种是生产同质化产品,产品价格公开,利润几乎透明:一种是高新技术产品,利润大,但创新和管理成本高.如何在同质化的产品中做好精细化和管理和成本控制,如何驱动创新成为制造业重出产 ...

  7. DAMA数据治理与数据质量--非结构化数据的数据质量管理

    本文根据汪广盛先生在[DQMIS 2020第四届数据质量管理国际峰会]现场演讲内容整理而成. 图1.1 DAMA(国际数据管理协会)中国区主席  汪广盛 演讲嘉宾介绍 -- 汪广盛 国际数据管理协会( ...

  8. Oracle DBA日常工作手册

    Oracle DBA日常工作手册   概述... 2 第一章.  事前阶段... 3 一 . 日常工作-每天应做工作内容... 3 1.工作内容-日常环境监控... 3 1.1系统运行环境监控... ...

  9. 数据治理系列:浅谈数据质量管理

    题外话:看过之前的文章的小伙伴不难发现,文章开篇几乎都是定义.概念,这已成了笔者写文章的一个习惯.本着对专业知识和技术的敬畏以及对文章主题的聚焦,笔者认为文章的开篇是非常有必要先把概念或定义交待清楚的 ...

最新文章

  1. 三调 图斑地类面积_国土三调攻坚冲刺,大疆无人机为调查举证提供加速度
  2. redis的观察者模式----------发布订阅功能
  3. oracle php 执行时间,在执行Oracle pl/sql-oci8的PHP中,什么时候执行自动回滚?
  4. 学用MVC4做网站二:2.2添加用户组
  5. [黑马程序员五]:常用的T-SQL语句
  6. 服务器点对点直连,点对点网络连接怎么建立有什么作用
  7. 数据结构中的各种排序---总结篇
  8. FID使用(Frechet Inception Distance score)
  9. vgp虚拟路面_长安大学工程机械国家虚拟仿真实验教学中心|公路路面摊铺施工虚拟仿真实验|...
  10. MySQL(18)--- UNION 操作符
  11. “Talk is cheap, show me the code”你一行代码有多少漏洞?
  12. JDBC 与 JNDI 这两种连接方式 区别
  13. 简单python脚本实例-python常用运维脚本实例
  14. 中国网和七牛云达成战略合作,携手打造国际化融媒中心
  15. NVIDIA英伟达控制面板点击没反应解决方案
  16. GB / ISO / 等保 网络安全相关标准法规
  17. javascript 忽略 报错_JavaScript数据类型中易被忽略的点
  18. L1-078吉老师的回归
  19. tf.matmul函数用法
  20. 腾讯:互联网金融行业HBase实践与创新

热门文章

  1. 长元音和短元音发音以及相应的嘴形
  2. python和django的目录遍历漏洞(任意文件读取)
  3. python循环读取nc格式文件,并存入文本文件中
  4. 新冠治疗研究最新进展(2022年4月)
  5. 将Firefox书签(JSON)导入到Chrome中
  6. linux下多进程聊天室,从0实现基于Linux socket聊天室-多线程服务器模型-1
  7. flutter开发的某app逆向
  8. JAVA——创建用户登录界面
  9. 专访实在智能CEO孙林君:聚焦AI+RPA赛道,为全社会贡献100万个数字员工
  10. AutoCAD 2016官方中文版下载(32+64位) 简体中文官网原生下载地址