众所周知,要体现数据价值,前提就是数据质量的保障,质量没有得到 100% 保证的数据是很难体现出业务价值的,如果基于这些有问题的数据做决策支持,或做业务办理,将会得到灾难性的结果,让领导层和数据使用方对大数据失去信心。本文通过分析数据质量问题出现的原因,给出解决数据质量管理问题的思路,值得参考借鉴。

数据质量问题常见原因

大数据项目建设是一个专业且复杂的工程,涵盖了业务梳理、标准制定、元数据管理、数据模型管理、数据汇聚、清洗加工、中心存储、资源目录编制、共享交换、数据维护、数据失效等等过程。其中任何一个环节中出错,都将导致数据的错误,甚至,源头数据本身就是错误的。所以,数据质量问题不仅仅是一个技术问题,它也可能出现在业务和管理的过程中。我们总结导致数据质量问题的常见原因如下:

1)缺乏领导力:由于组织领导层不重视数据管理,导致缺乏数据管理层面的资源投入;确认企业自顶向下的数据质量管理体系建设,构建企业级数据质量管理闭环。

防治措施:定制数据治理组织架构,构建数据质量闭环管理方案,制定数据考核评价体系,加强宣贯培训。

2)数据输入引起的问题:数据采集端缺乏标准,无数据质量管控导致输入数据不一致和混乱;缺乏过程支持导致错误数据输入,业务流程规则变更、业务流程执行混乱等导致的数据错误。

防治措施:加强数据源头管控,建立数据输入控制,防止无效或不准确的数据进入系统。

3)数据处理引起的问题:引用的数据源出现错误或变更、系统文档不完整或已过时;过时的业务规则;变更的数据结构等。

防治措施:加强元数据管理,制定变更控制,将数据质量管理前置。

4)系统设计引起的问题:未执行参照完整性、唯一性约束、编码不准确和分歧,数据模型不准确,数据映射或格式不正确,主数据管理薄弱导致数据质量问题等。

防治措施:加强系统设计规范及管理。

5)解决问题引起的问题:主要指临时手动修改引发的数据隐患,没有通过应用接口或业务处理规则进行变更,可能导致更多的错误产生更高的风险。

防治措施:实施数据治理和管理制度。

如何解决数据质量问题

综上所述,数据质量的来源非常广泛且复杂,系统开发、运行、操作的任意环节的任何一个问题,都可能造成数据质量的产生。

高质量的数据是进行分析决策、业务发展规划的重要基础,只有通过建立完整的数据质量管理体系,明确数据质量管理目标、控制对象和指标、定义数据质量检验规则、执行数据质量检核,生产数据质量报告,通过数据质量问题处理流程及相关功能实现数据质量问题从发现到处理的闭环管理,从而促进数据质量的不断提升。

根据亿信华辰多年数据治理和数据质量实践经验,我们总结了企业数据质量管理的七步法。

1、定义高质量数据

在启动数据质量方案之前,有益的做法是了解业务需求、定义术语、识别组织痛点,对数据质量改进的目标和优先级事项达成一致。可以从以下几个方面考虑:包括对高质量数据的理解、低质量数据对业务运营和战略的影响,对低质量数据的容忍度,高质量的数据如何赋能业务战略等,全面了解组织中数据质量的当前状态,与利益相关方面谈识别痛点、风险和业务驱动因素,了解业务流程系统情况、技术结构和数据依赖关系。

2、定义数据质量战略

提高数据质量要有一定的战略,应考虑到需要完成的工作以及执行这些工作的方式。数据质量优先级必须与业务战略一致,定义数据质量框架有助于指导战略及开展数据质量管理活动。

3、识别关键业务和质量规则

数据质量管理工作应首先关注组织中最重要的数据,可以根据监管要求、财务价值和对客户的直接影响等因素对数据重要性进行优先级排序。在确定关键数据后,识别梳理数据质量特征要求的业务规则。

4、执行初始数据质量评估

确定关键的业务需求和数据后,通过执行初始数据质量评估,了解数据,定义可操作的改进计划,通过评估结果确认问题及优先级,并作为数据质量规划的基础。

5、识别改进方向并确定优先级

在经过初步数据质量评估后,识别潜在的改进措施,并确定优先顺序,可以通过对大数据集进行全面的数据分析来了解问题的广度,或与利益相关方进行沟通,分析问题的业务影响,最终讨论确定优先顺序。

6、定义数据质量改进目标

初步评估是为特定的数据质量提升目标奠定了基础,根据数据质量改进带来的业务价值的一致性量化,设定具体的、可实现的目标。确定数据质量改进目标时可参考以下因素:受影响数据的关键性,受影响的数据量,受问题影响的业务流程数量和类型,受影响的消费者、客户、供应商或者员工数量,与问题相关的风险,纠正根本原因的成本,潜在的工作成本等。

7、开发和部署数据质量操作

为了保证数据质量,围绕数据质量方案制定实施计划,管理数据质量规则和标准、监控数据与规则的执行一致性,识别和管理数据质量问题,并报告质量水平。

数据质量管理平台推荐

以上步骤的实施需要依托数据质量治理战略、数据质量管控策略,还需要数据质量管理平台的支持,构建数据质量治理的自我完善能力。我们可以简单地通过引入一些工具和规则就可以解决 80% 的问题,也可以引入一个复杂的系统工程来解决 100% 的质量问题,取决于我们希望达到什么样的质量标准。那么亿信华辰数据质量管理平台是如何助力实现数据质量的严密管控的呢?

1)多角度的规则管理

平台提供数据质量规则的定义和管理,数据质量规则定义数据质量审核的业务逻辑,是数据质量审核和监控管理的基础。规则定义提供了规则复制和规则模板的功能对规则进行多模型使用,提升了用户在规则定义过程中的便利性。

2)多种方式的新建规则

平台内置16种规则模板,用户只需通过简单界面化的方式新建规则。平台支持单条和批量建规则,可以根据已经存在的模板新建规则,可以根据标准来新建规则,满足不同场景创建规则的需求。

新建规则

3)强大的智能修复

平台支持对检查出来有问题的数据按照一定的规则进行智能修复,可以支持对空值、值域、规范(身份证、日期、全半角)这些规则进行修复,方便用户对数据的整改。

修复策略编辑

4)全面的监控管理

平台支持数据质量检查方案的定义和管理,包括检查范围、检查时间、检查规则、评分规则、评估报表等。同时,方案支持人工调度和自动调度。提供了完整性评价、规范性评价、逻辑性评价、及时性评价、重复性评价、外键关联性、波动分析、平衡分析等多种评估方法,各评估方法均采用可视化界面,用户无需编程,即可轻松完成所有规则的建立。

数据质量管控

5)详尽的结果管理

通过质量监控,会产生和保存质量结果,包括:对象名称、发生时间、违反规则、级别、状态等。系统会自动生成每个质检方案的明细结果表,并允许用户根据分析需要对明细结果表字段进行自定义,从而为用户进行丰富多样的数据质量分析提供数据。

6)细致自主的数据整改

平台参照工作流管理联盟(WfMC)标准设计,用户可自行定义整改流程,可实现问题分发给数据责任人,并可实时监督流程处理的状态。同时可根据流程的优先级、最终期限、转派次数等提供多角度查询功能。

数据整改管理

亿信华辰数据质量管理平台以全面质量管理PDCA循环管理方法为指导,充分结合国内数据质量管理工作的特点,运用元数据管理、数据挖掘、数据分析、工作流、评分卡、可视化等技术最终帮助企业和政府建立数据质量管理体系,全面提升数据的完整性、规范性、及时性、一致性、逻辑性等,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。

数据治理:数据质量问题出现的原因及解决思路相关推荐

  1. 数据资产运营 = 数据资产盘点 + 数据治理 + 数据价值实现

    略去大数据分析背景与价值部分,言简意赅的介绍如何进行数据资产管理运营. 数据资产管理运营 = 数据资产盘点 + 数据治理 + 数据价值实现 管理和运营是一个全流程的事情,首先我们需要知道有哪些数据(盘 ...

  2. Safe handle has been closed异常的原因及解决思路

    Safe handle has been closed异常的原因及解决思路 参考文章: (1)Safe handle has been closed异常的原因及解决思路 (2)https://www. ...

  3. 无盘服务器0x00000124,知识分享电脑故障0x00000124导致蓝屏的原因和解决思路-电脑蓝屏原因...

    电脑知识分享电脑故障0x00000124导致蓝屏的原因和解决思路 电脑知识分享 电脑故障0x00000124导致蓝屏的原因和解决思路 电脑知识分享 电脑知识分享:蓝屏的原因和解决思路 蓝屏出错代码的缘 ...

  4. wx.getLocation接口申请失败 失败原因总结 解决思路 解决方案 案例

    wx.getLocation接口申请失败 失败原因总结 解决思路 解决方案 案例 目录 wx.getLocation接口申请失败 失败原因总结 解决思路 解决方案 案例 一.添加类目和设置主营类目 ( ...

  5. 数据治理-数据质量-数据质量实施方法

    质量实施方法 数据质量领域研究学者和专家结合自身实践,先后提出了一系列质量管理得项目实施方法,其中以全面信息质量管理.全面数据质量管理.数据管理十步法.六西格玛等.         与传统数据质量管理 ...

  6. 数据治理-数据质量-数据质量管理方法和工具

    常用质量管理工具 目前,在质量管理领域,有一系列常用的数据质量管理工具,主要分为传统的质量管理工具.新的质量管理工具和其他质量管理工具. 传统的质量管理七大工具 传统的七种工具包含分层法.检查表.帕累 ...

  7. 数据治理-数据生命周期管理-大数据采集

    大数据采集 为满足企业或组织不同层次的管理与应用的需求,数据采集分为三个层次. 第一层次,业务电子化.为满足业务电子化的需求,实现业务流程的信息化记录,在本阶段中,主要实现对于手工单证的电子化存储,并 ...

  8. 数据治理|数据资产中心

    01 前言 我们来聊聊数据治理最最核心的部分--数据资产治理,本文主要阐述数据资产治理的策略和工具建设思路. 02 基本概念 广义的数据资产涵盖一切非结构化.半结构化和结构化数据,狭义的数据资产主要包 ...

  9. 数据治理——数据质量管理

    目录 数据质量保障原则 完整性 准确性 一致性 及时性 常见的数据监控原则 单表数据量监控 单表空值检测 单表重复值检测 单表值域检测 跨表数据量对比 在当今这个大数据时代,数据质量对于数据的价值有着 ...

最新文章

  1. C# 中字符串string和字节数组byte[]的转换,16 进制字符串转 int的方法
  2. 摘抄 :methodology 怎么写
  3. H5活动产品设计指南基础版
  4. vue radio双向绑定_Vue 双向绑定
  5. java核心教程_核心Java教程
  6. 常见熟知端口号的记忆技巧
  7. xml property标签注入一个类变量_java开发两年,连Spring的依赖注入的方式都搞不清楚,你工作可能有点悬!...
  8. MySQL 查询部门工资前三高的员工信息
  9. 赚了李嘉诚2.7亿元
  10. java 3d相册源代码_抖音上超火的3D立体动态相册实现代码! 给女朋友一个意外的惊喜...
  11. 非阻塞套接字及select模型 select(0,fread,NULL,NULL,timeOut);
  12. 我Linux桌面上的卡通MM真的很像ZPR吗?
  13. Gimp去除图片背景色方法
  14. ORB_SLAM3系统框图
  15. Java加密套件强度限制引起的SSL handshake_failure
  16. 游戏引擎架构----动画
  17. 一个有趣的字符滚动GIF动态验证码识别
  18. LintCode 92.背包问题
  19. Gmail附件大小及格式限制全面解析
  20. 漏洞检测:异常页面导致服务器路径泄漏 WASC Threat Classification

热门文章

  1. ( 题解 )第六届蓝桥杯决赛试题 -- 完美正方形 (线段树 + 深搜)
  2. 初次使用 python poetry 包管理模块踩坑
  3. [Mur-003] Mur源码分析之三:一个能运行起来的例子
  4. 扎克伯格国会听证最新报道:5小时鏖战44议员!
  5. MEM/MBA数学基础(08)数据分析
  6. MEM/MBA数学基础(04)方程 函数 不等式
  7. H3C配置静态路由、下一跳地址,使PC相通
  8. 计算机术语sage什么意思,Sage Sage的意思解释|Sage是什么意思 -我酷百科
  9. 项目管理的SDCA环、PDCA环
  10. microbit c语言编程软件,Micro:bit系列教程25:自定义Micro:bit软件包