请参考原创:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA

前言

  • 数据资产的重要性

数据资产是企业或组织拥有或控制,能带来未来经济利益的数据资源。越来越多的企业认识到自身的业务数据是一个有别于其他形式又很重要的企业资产。

打理好企业数据资产,可以为企业带来准确及时的决策和有效的行动,为企业的业务分析预测和决策提供有力的支持,让企业在市场中用前瞻性的决策找到的新的盈利点和商业模式,利用数据资产来获取或增强市场竞争优势,给企业带来巨大的回报。

  • 数据质量管理的必要性

数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。”——以上内容摘自百度百科。

以下是原创笔者观点,我也高度赞同:

原创笔者观点:“数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力。在数据治理过程中,一切业务、技术和管理活动都围绕这个目标和开展”。

  • 数据质量管理首要条件

数据质量管理中,首先要区分得出数据质量的好坏 或 划分得开数据质量符不符合要求,如果做不到这点,数据质量管理是无稽之谈;所以数据质量管理的首要条件是有一套 健全的数据质量评估标准与分析流程,然后才有接着的数据质量治理、数据质量监控等等。

1.数据质量评估标准(数据质量问题盘点)

  • 数据真实性:数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料。

  • 数据准确性:准确性也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。

  • 数据唯一性:用于识别和度量重复数据、冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。

  • 数据完整性:数据完整性问题包括:模型设计不完整,例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。

  • 数据一致性:多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致……。相同的数据有多个副本的情况下的数据不一致、数据内容冲突的问题。

  • 数据关联性:数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。

  • 数据及时性:数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。

2.数据质量分析流程(数据质量问题分析)

关于质量问题的分析,笔者推荐采用经典的六西格玛(缩写:6σ 或 6Sigma),六西格玛是一种改善企业质量流程管理的技术,以“零缺陷”的完美商业追求,以客户为导向,以业界最佳为目标,以数据为基础,以事实为依据,以流程绩效和财务评价为结果,持续改进企业经营管理的思想方法、实践活动和文化理念。六西格玛重点强调质量的持续改进,对于数据质量问题的分析和管理,该方法依然适用。

根据六西格玛的DMAIC模型,我们可以将数据质量分析定义为六个阶段:

(1)定义阶段(D阶段)。界定数据质量治理的范围,并将数据质量改进的方向和内容界定在合理的范围内。通过使用主数据识别法、专家小组法、问卷调查法、漏斗法等方法,定义出数据治理的对象和范围。企业数据质量治理对象一般主要包括两类数据:一类是操作型数据,例如:主数据、参照数据和交易数据。另一类是分析型数据,例如:主题数据、指标数据等。

注:根据笔者经验以及80/20法则,企业的数据质量问题80%是由于管理不当或业务操作不规范引起的,参考:《主数据的3大特点、4个超越和三个80/20原则》。

(2)测量阶段(M阶段)。在定义出数据治理对象和内容后,需要选取以下若干个指标来作为数据质量评价指标,建立数据质量评估模型,对企业的数据进行评估和测量。常用的数据质量评价指标就是我们上述提到的:数据唯一性、数据完整性、数据准确性、数据一致性、数据关联性、数据及时性等。

(3)分析阶段(A阶段)。基于数据质量评估模型,执行数据质量分析任务,通过数据分析,找到发生数据质量问题的重灾区,确定出影响数据质量的关键因素。数据治理和大数据分析是密不可分的,数据治理的目标是提升数据质量从而提高数据分析的准确性,而大数据分析技术也可反向作用于数据治理,通过大数据分析算法和大数据可视化技术,能够更准确、更直观的定位到发生数据质量问题的症结所在。该阶段可以用的大数据技术包括:回归分析、因子分析、鱼骨图分析、帕累托分析、矩阵数据分析等。

(4)改进阶段(I 阶段)。通过制定改进管理和业务流程、优化数据质量的方案,消除数据质量问题或将数据质量问题带来的影响降低到最小程度。我们一直在强调数据质量的优化和提升,绝不单单是技术问题,应从管理和业务入手,找出数据质量问题发生的根因,再对症下药。同时,数据质量管理是一个持续优化的过程,需要企业全员参与,并逐步培养起全员的数据质量意识和数据思维。该过程主要用到方法:流程再造、绩效激励等。

(5)控制阶段(C阶段)。固化数据标准,优化数据管理流程,并通过数据管理和监控手段,确保流程改进成果,提升数据质量。 主要方法有:标准化、程序化、制度化等。

数据分析 - 基础原理 之 第三章:数据质量管理 - 第一节:数据质量评估相关推荐

  1. 数据分析 - 基础原理 之 第三章:数据质量管理 - 第二节:数据生命周期

    前言 数据生命周期 网上有许多版本,各行各业的.各类应用场景的:下面是个人认为比较好的两篇介绍,望匆喷,若有推荐请留言,不胜感激. 1.数据全生命周期管理模型 请参考原创:https://www.zh ...

  2. 数据分析 - 基础原理 之 第三章:数据质量管理 - 第五节:数据质量监控

    前言 数据质量监控 是容易被忽略的一个重要环节,我刚开始搞数据库时压根也没想到会有这档事,直到频繁出现几次数据"翻车"事故后,才感受到它的重要性与必要性:如果连数据源的状况都不能掌 ...

  3. (王道408考研操作系统)第三章内存管理-第一节1:内存基础知识、程序编译运行原理

    注意:本节内容和<计算机组成原理>"存储器"那一部分内容相关性很强,组成原理是从硬件角度,操作系统是从软件角度.因此如果没有学习过这部分的同学,强烈建议先看这一部分 王 ...

  4. (王道408考研操作系统)第三章内存管理-第一节7:非连续分配管理方式之基本分段管理方式

    文章目录 一:分段存储管理 (1)基本思想 (2)逻辑地址结构及地址转换 (3)段表 二:分段存储管理实现地址转换 三:分段和分页管理比较 一:分段存储管理 (1)基本思想 基本思想:按照用户进程自身 ...

  5. (王道408考研操作系统)第三章内存管理-第一节6-4:非连续分配管理方式之基本分页存储管理之两级页表

    文章目录 一:单级页表存在的问题 二:两级页表原理 (1)基本原理 (2)逻辑地址结构 三:多级页表 一:单级页表存在的问题 问题一:页表必须连续存放,当页表很大时,就需要占用很多个连续的页框 在32 ...

  6. (王道408考研操作系统)第三章内存管理-第一节6-3:非连续分配管理方式之基本分页存储管理之具有快表的地址变换机构

    文章目录 一:程序访问的局部性原理 二:快表 三:对比 一:程序访问的局部性原理 如下有这样一段简单的C语言程序 int sumarrayrows(int a[M][N]) {int i,j,sum= ...

  7. (最优化理论与方法)第三章优化建模-第一节:优化建模和常见建模技术

    文章目录 一:优化建模概述 二:目标函数的设计 (1)最小二乘法 (2)正则化 (3)最大似然估计 (4)代价.损失.收益函数 (5)泛函.变分 (6)松弛 三:约束的设计 (1)问题本身的物理性质 ...

  8. Web前端开发笔记——第三章 CSS语言 第一节 CSS的基本概念和样式表

    目录 一.CSS和HTML 二.CSS的基本语法格式 三.CSS样式设置 (一)行内样式 (二)内嵌样式 (三)引用外部CSS文件 四.多重样式优先级 结语 一.CSS和HTML CSS,又称为层叠样 ...

  9. (王道408考研操作系统)第三章内存管理-第一节8:非连续分配管理方式之段页式管理方式

    文章目录 一:分段和分页管理优缺点 二:段页式管理基本概念 (1)基本思想 (2)逻辑地址结构 (3)段表和页表 三:段页式管理实现地址管理 一:分段和分页管理优缺点 经过前面几节的叙述,可以看到分段 ...

最新文章

  1. php字符串定义为arraylist,如何把arraylist集合中的字符串数据保存的文本文件中
  2. Centos7安装编译安装zabbix2.219及mariadb-5.5.46
  3. 脑电信号预处理--去趋势化(Detrended fluctuation analysis)
  4. 设计模式之美:Facade(外观)
  5. mysql多表查询书籍_MySQL多表查询及子查询
  6. OpenCASCADE:Modeling Data之几何实用程序
  7. w3c dom操作Xml时从加入另一个XML文件的一个元素
  8. Mybaties配置一对多关系sql实例
  9. 新电脑怎么分盘_新买的笔记本电脑收货后,该如何验机?
  10. Winform中Treeview控件失去焦点,将选择的节点设置为高亮显示 (2012-07-16 13:47:07)转载▼...
  11. 编码的奥秘:电筒密谈
  12. 尝试加载Crystal Reports 运行时时出错
  13. 第十三届“恩智浦”杯全国大学生智能汽车竞赛-信标对抗组比赛总结
  14. 大学生怎样学习一门编程
  15. 人工智能机器学习数据挖掘重要会议日期
  16. 邱昭良:“碎片化”学习真是“一场骗局”吗?
  17. 浅论独立解决问题的能力的重要性
  18. 学习数织物密度/经纬密
  19. ZZULIOJ.1102: 火车票退票费计算(函数专题)
  20. 通达oa显示服务器错误,服务器监控

热门文章

  1. 【飞行器】基于matlab蚁群算法飞行器巡检路径【含Matlab源码 268期】
  2. 个人信息遭泄露 电信诈骗网络信息管理存隐忧
  3. 关于六个嫌疑人的问题
  4. Bullet3物理引擎碰撞检测相关代码片段
  5. django 和 gunicorn
  6. 格林公式的原理理解(考研数学)
  7. 在服务器上面安装小幺鸡
  8. html+js+css打造的高仿苹果时钟组件
  9. 计算机操作系统(第四版)知识点梳理——第一章
  10. system service(电脑蓝屏system_service_exception怎么办)