1 概述
1.1 方案背景
随着企业信息化建设的全面展开,各种业务系统在企业的运营和管理等方面扮演着越来越重要的角色。系统中存储的大量数据已经成为企业继“人、财、物”后最具价值的企业资源。企业对数据的依赖程度也在加大,数据质量的好坏直接关系到信息的准确程度,也影响了企业的生存和竞争能力。因此,数据质量作为影响管理层决策正确性的基础元素,已经越来越多地为企业领导者所关注。
但在长期的系统维护和使用中,各系统中的数据因存储分散,时常导致共享困难,并且在各系统数据展现时也容易出现不一致的情况,“数”出多门。这些数据不仅严重影响了目前对企业经营质量分析、客户质量分析、客户群细分等工作的开展,而且对今后各业务的市场拓展产生潜在的影响。著名市场调查公司Gartner在调查中显示,导致如商业智能(BI)和客户关系管理系统(CRM)这些大型的、高成本的管理信息系统方案失败的主要原因就在于企业是根据不准确或者不完整的数据进行决策。
因此在企业整个组织以及服务商、供应商内部,应建立科学有效的数据质量管理系统,对组织的数据质量实施全程、全域和全员的管理。将数据质量管理以制度化、规范化的方式落实到数据生成、传递和使用的各个过程、方面和人员之中,将会成为下一阶段企业信息系统建设中的一项重要工作。
1.2 客户面临的挑战及问题
在企业的信息化运行过程中,有些数据质量问题是不可避免的,这主要是由如下原因引起的:
 数据源问题
(1) 由于多个生产系统相对独立、缺乏统一的规划,必然导致数据的不一致性
(2) 由于业务系统建设时往往缺乏数据质量意味,因此在数据源本身存在大量的脏数据和噪声数据
(3) 数据存在人工操作的情况,导致数据间的不一致性
(4) 不同数据源由不同的部门管理,各部门对数据的关注角度不同也会导致数据粒度、名称、表达方式上的多样性
 数据抽取时间点问题
(1) 由于生产系统的数据是随生产而变化的,在不同的时间点进行数据抽取的数据是不一致的
 业务规则问题
(1) 生产系统的不同版本间对数据的处理规则不同,导致数据的不一致
(2) 各分公司市场政策的差异也会导致数据缺乏参照性
(3) 同一产品、业务在不同生产系统的业务处理规则不同,导致数据的不匹配
(4) 各系统的编码规则差异很大,导致数据难以核对
 统计口径问题
(1) 各系统之间的指标体系、编码规则及分类口径不一致

典型的,系统的数据质量一般包含如下情况:

  • 存在空值
  • 错误的值
  • 重复记录
  • 数据格式不正确
  • 数据粒度不一致
  • 错误的计算规则
  • 数据间缺乏参照完整性
  • 不同的统计口径
  • 命名规则不同

2 方案介绍
2.1 方案设计目标
 实现数据的自动化加载
 实现一套完善的数据稽核规则
 生成完整的数据质量报告
 实现对数据提供方的绩效考核
2.2 方案总体框架
企业数据质量管控总体框架图如下图所示:

在数据抽取的过程中主要包括三方面的数据质量检查:
 数据完整性校验
(1) 将外部系统(业务系统)的数据加载到数据仓库的临时存储区时进行的校验
(2) 主要校验文件本身的正确和数据项的完整性,保证接口数据被完整地加载到数据仓库当中,但不校验数据的正确性
 数据准确性校验
(1) 在数据仓库的清洗过程中进行的校验
(2) 主要校验数据项的一致性和正确性
 数据合理性校验
(1) 在数据仓库的清洗过程中进行的校验
(2) 主要是结合业务规则,从业务合理性的角度对数据进行校验

在数据校验过程中需要生成数据质量报告,并由相关的负责人对错误数据进行修正并重新生成接口数据。
2.3 主要功能说明
 元数据管理
(1) 建立统一的主数据模型
(2) 定义标准的、公司级的指标体系和业务规则
(3) 定义源系统(数据)与标准主数据模型的映射关系
 自动化数据加载
通过配置自动化调度方案,支持文件、时间、状态和依赖等多种触发机制,支持多线程容器中自动均衡处理,可实现对成千上万的数据处理任务有条不紊的进行并发调度和自动执行,真正实现数据处理过程的“无人值守”。
  数据稽核
(1) 完整性稽核
 文件检查:对接口文件本身的正确性进行检查,包括文件大小、文件日期等指标;
 总量检查:对相邻两个环节,对数据的总量进行验证,总量指标包括总记录数、所有度量指标的总和等;
 分量检查:对相邻两个环节,在总量正确的前提下,对数据分布的情况进行稽核,在这个过程中,需要对每个维度进行汇总对比,可以只对部分度量进行分量检查。
(2) 准确性稽核
 常规检查:对数据本身的正确性、一致性进行检查,包括空值错误、格式非法、数据类型错误、值域不符、主键非法、长度非法、重复记录、外键错误等;
 业务检查:结合业务规则对数据的一致性进行检查,如收入-成本=利润等。
(3) 合理性稽核
 在完整性稽核和准确性稽核正确的基础上,基于对业务的预测对数据的合理性进行检查,如收入的增长率(不是基础指标)在±30%之间、离散度(标准差/均方差)等。
 数据质量报告
根据数据稽核的结果生成相应的数据质量报告

3 方案应用场景
本方案可以应用于如下应用场景:

  • 数据中心系统建设
  • 辅助决策支持系统建设
  • 业务系统数据质量考核

4 方案应用价值

传统的数据质量管理主要强调数据的准确性,即数据本身的完整性、准确性和一致性等,而本方案的数据质量管理除了数据本身的准确性之外,还强调:
 数据的时效性
强调数据应及时推送给客户,即使准确的数据如果不能让客户及时获取,也对决策没有价值。
 数据的有效性
推送给客户的数据应该是经过挖掘和加工的,是对客户有价值的信息。

只有满足了数据的准确性、时效性和有效性,这些数据才真正能够为企业的管理员所利用,并依据这些数据做出正确的决策。

久其BI数据质量管控解决方案相关推荐

  1. 基于 Amazon 云端数据质量治理解决方案

    点击上方[凌云驭势 重塑未来] 一起共赴年度科技盛宴! 数据质量治理是数据治理中的一个重要环节,它对于一个面向数字化转型的企业来说尤为重要,而目前市场上缺乏完全基于 Amazon 的.全面覆盖业务和技 ...

  2. 数据质量提升_合作提高数据质量

    数据质量提升 Author Vlad Rișcuția is joined for this article by co-authors Wayne Yim and Ayyappan Balasubr ...

  3. 数据管理体系之数据质量

    数据质量的概念(是什么) 概念 数据质量管理不是一时的数据治理手段,而是循环的管理过程. 数据质量管理不仅包含了对数据质量的改善,同时还包含了对组织的改善. 数据质量管理不单纯是一个概念,也不单纯是一 ...

  4. 【数据质量】数据质量管理工具预研——Griffin VS Deequ VS Great expectations VS Qualitis

    开源数据质量管理工具预研--Griffin VS Deequ VS Great expectations VS Qualitis. 概述 数据质量监控(DQC)是最近很火的一个话题,也是数据治理中最重 ...

  5. 清醒认识数据第一步,把关数据质量

    做过数据产品的人都会知道,质量高的数据对于产品的意义.笔者在之前曾经历过数据质量管理的具体功能设计,算是较为完整地感受过数据质量管理过程.所以在此简单复盘下经验,借此抛砖引玉. 战战兢兢地写下标题,得 ...

  6. 数据治理:数据质量问题出现的原因及解决思路

    众所周知,要体现数据价值,前提就是数据质量的保障,质量没有得到 100% 保证的数据是很难体现出业务价值的,如果基于这些有问题的数据做决策支持,或做业务办理,将会得到灾难性的结果,让领导层和数据使用方 ...

  7. 数据治理服务及数据治理应用解决方案

    本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除. 一.数据治理概述 (一) 数据治理概念 数据治理是指将数据作为组织资产围绕数据全生命周期而展开的相关管控活动.绩效和风险管理工作的集合 ...

  8. 金融业数据质量评价体系

    一.应用背景与目标 首先是外部监管对数据质量要求日益严格,其次内部有效的数据分析与经验决策需要高质量的数据,最终无论对外部还是内部均需要优质的数据质量,才能满足内外部用数的需求,因此要做到" ...

  9. 数据质量(DQ)的建设方法论!离线实时通用

    目录 基础概念 数据质量问题根源 数据质量四个保障原则 数据质量六大基本要素 数据质量管理的方法 数据分析的方面 数据质量检核和监控 数据质量的监控指标一般有哪些 数据质量问题分析及报告 基础概念 什 ...

最新文章

  1. 无线局域网技术白皮书
  2. CVE-2019-8660 iMessage 漏洞复现
  3. 002---设计表结构
  4. jsonobject修改key的值_JSONObject(org.json)的一点修改
  5. 详解 TypyScript 的一个怪异行为
  6. HTTP 连接管理进化论
  7. JAVA 如何将String进行大小写转换
  8. 在 Word 中插入域代码并设置域代码的格式(转)
  9. Android播放器实现横竖屏切换
  10. 文科生的悲哀-斐波拉契数列
  11. 干货!____UI设计中那些创意的图标怎么做
  12. mysql 表聚合_Mysql分表之后的聚合统计
  13. Matlab中Gurobi安装和调试
  14. 文件包含之本地包含的利用
  15. Xcode工程文件pbxproj
  16. lcn场景模拟演示_演示家庭影院的十大电影场景
  17. 什么是数据分类分级?
  18. java后端项目整体代码结构
  19. pms酒店管理系统功能,酒店管理系统软件开发
  20. AS导入安卓源码步骤

热门文章

  1. 厌倦了各种app推送广告?用RSS来订阅自己想看的内容吧
  2. angular5+模块懒加载
  3. linux内核态和用户态
  4. 世界是平的、写诗机、模版式个性化和印客通
  5. itcast-spring
  6. 【云原生之Docker实战】使用docker部署IT资产管理系统GLPI
  7. Escape Rout
  8. 小新air15为啥没人买_小新Air15 2019简测
  9. Strust2远程代码执行漏洞(S2-033)利用分析
  10. 1994-1999年考研数学二真题及其详解