• 数据治理定义
    国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。
    国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。
    数据治理的最终目标是提升数据的价值,数据治理非常必要,是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程、工具。

  • 数据质量管理(Data Quality Management)
    是指对数据从【计划、获取、存储、共享、维护、应用、消亡】生命周期的每个阶段里可能引发的各类数据质量问题,进行【识别、度量、监控、预警】等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

  • 质量评估
    由于数据清洗(DataCleaning)工具通常简单地被称为数据质量(Data Quality)工具,其实数据清洗只是数据质量管理中的一步。数据质量管理(DQM),不仅包含了对数据质量的改善,同时还包含了对组织的改善。
    针对数据的改善和管理,主要包括【数据分析、数据评估、数据清洗、数据监控、错误预警】等内容;
    针对组织的改善和管理,主要包括【确立组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制定组织监督审核机制、实施改进、评估改善效果】等多个环节。

  • 任何改善都是建立在评估的基础上,知道问题在哪才能实施改进。通常数据质量评估和管理评估需通过以下几个维度衡量。

  1. 数据质量评估
    完整性 Completeness:完整性用于度量哪些【数据丢失】了或者哪些【数据不可用】。
    规范性 Conformity:规范性用于度量哪些数据未按【统一格式】存储。
    一致性 Consistency:一致性用于度量哪些数据的值在信息含义上是【冲突】的。
    准确性 Accuracy:准确性用于度量哪些数据和信息是【不正确】的,或者数据是【超期】的。
    唯一性 Uniqueness:唯一性用于度量哪些数据是重复数据或者数据的哪些属性是【重复】的。
    关联性 Integration:关联性用于度量哪些关联的数据缺失或者未建立【索引】。

  2. 评估维度
    配置管理 Config Management:此维度用于度量数据在其生命周期内的一切资源是否得到了控制和规范,即数据的计划、产生、变更直至消亡的过程中,与数据相关的计划、规范、描述是否收到控制。
    评估指标包括:评估配置项的细化粒度、评估基线准确度和频度以及变更流程是否合理完善等。
    培训 Training:此维度用于度量数据的生产和使用者在数据生命周期内的一切活动中是否经过了知识和技能的培训、培训效果是否满足岗位需要;受训的知识和技能是否经过审核和确认,受训的内容是否与企业文化和价值观一致;培训流程是否合理完善等;
    验证和确认 Verify & Validation:此维度用于度量数据在其生命周期内是否得到验证和确认。评估内容包括是否通过验证流程确保工作产品(数据)满足指定的要求、是否通过“确认”流程保证工作产品(数据)在计划的环境中满足使用的要求;“验证”和“确认”的流程是否完善;
    监督和监控 Monitoring:此维度用于度量产生和使用数据的流程在数据的整个生命周期内是否真正受控。脱离监控的信息、技术、计划、流程、制度,会导致数据质量低下。监督和监控的流程是否完善。

  • 影响因素
    影响数据质量的因素主要来源于四方面:信息因素、技术因素、流程因素和管理因素。
  1. 信息因素:产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质(如:数据源规格不统一)得不到保证和变化频度不恰当等。
  2. 技术因素:主要是指由于具体数据处理的各技术环节的异常造成的数据质量问题。数据质量问题的产生环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面的内容。
  3. 流程因素:是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节。
  4. 管理因素:是指由于人员素质及管理机制方面的原因造成的数据质量问题。如人员培训、人员管理、培训或者奖惩措施不当导致的管理缺失或者管理缺陷。
  • 方法与步骤
    熟悉六西格玛管理的人应该知道,六西格玛强调以事实驱动管理。但事实是用数据说话。映射到六西格玛管理方法,MTC-DQM采用十步数据质量管理方法。
    1.定义,定义问题,分析信息环境+设计捕获评估方案
    2.度量,评估数据质量,评估业务影响
    3.分析,定位原因,制定改善方案(数据级+组织级)
    4.改善,纠正当前错误+落地预防措施,改进管理流程
    5.控制,监控数据表现与管理流程

详细版:

  1. 定义和商定问题、时机和目标,以指导整个数据质量管理的工作
  2. 收集、汇总、分析有关形式和信息环境。设计捕获和评估的方案。
  3. 按照数据质量维度对数据质量进行评估。
  4. 使用各种技术评估劣质数据对业务产生的影响。
  5. 确定影响数据质量的真实原因,并区分这些原因的影响的数据质量的级别。
  6. 最终确定行动的建议,为数据质量改善制定方案,包括数据级和组织级的。
  7. 建立数据错误预防方案,并改正当前数据问题。
  8. 通过改进组织管理流程,最大限度控制由管理上的缺陷造成的数据质量问题。
  9. 对数据和管理实施监控,维护已改善的效果。
  10. 沟通贯穿管理始终,循环的评估组织管理流程,以确保数据质量改善的成果得到有效保持。

数据质量管理(DQM)相关推荐

  1. 数据治理(三):数据质量管理

    ​​​​​​ 目录 ​​​​​​ 数据质量管理 一.数据质量概述 二.数据质量问题根源 三.​​​​​​​数据质量保障原则 1.​​​​​​​完整性 2.​​​​​​​准确性 3.​​​​​​​一致性 ...

  2. access对比数据_数据仓库系列之数据质量管理

    数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量.因此数据仓库的数据质量建设是一些公司的重点工作. 一 ...

  3. 基于MaxCompute的数仓数据质量管理

    声明 本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导. 参考文献 <大数据之路--阿里巴巴大数据实践>--阿里巴巴数据技术及产品部 著. 背景及目的 数据对一个企业来说已 ...

  4. 工业时序大数据质量管理

    工业时序大数据质量管理 丁小欧,王宏志,于晟健  哈尔滨工业大学海量数据计算研究中心,黑龙江 哈尔滨 150001 摘要:工业大数据已经成为我国制造业转型升级的重要战略资源,工业大数据分析问题正引起重 ...

  5. 如何做好数据质量管理

    数据问题的来源可能产生于从数据源头到数据存储介质的各个环节.在数据采集阶段,数据的真实性.准确性.完整性.时效性都会影响数据质量.除此之外,数据的加工.存储过程都有可能涉及对原始数据的修改,从而引发数 ...

  6. 数据质量管理有哪些方法

    数据质量管理是数据治理中的重要步骤.这是准备数据以符合质量标准(例如有效性,均匀性,准确性,一致性和完整性)的过程.数据质量管理可从数据集中删除不需要的,重复的和不正确的数据,从而帮助分析师获得更加准 ...

  7. 大数据质量管理策略有哪些

    一种数据质量策略,从建立数据质量评价体系.落实质量信息的采集分析与监控.建立持续改进的工作机制和完善元数据管理4个方面,多方位优化改进,最终形成一套完善的质量管理体系,为信息系统提供高质量的数据支持. ...

  8. 数据质量管理的核心要素和技术原则

    "十三五",规划提出了国家的大数据战略,指出了企业实现以数字化驱动业务发展,实现数据开放共享,创新业务发展的新思路.现阶段大中型企业已经开始了数据化运营的实践.在这个环境和趋势中, ...

  9. 数据治理:数据质量管理策略!

    数据质量管理包含正确定义数据标准,并采用正确的技术.投入合理的资源来管理数据质量.数据质量管理策略和技术的应用是一个比较广泛的范畴,它可以作用于数据质量管理的事前.事中.事后三个阶段. 数据质量管理应 ...

最新文章

  1. 创业,你准备好了吗?
  2. 在计算机系统中引入通道结构,第5-6章习题讲解.doc
  3. Java高级开发必会的50个性能优化的细节(珍藏版)
  4. 我的GMAIL下蛋了,要的请留下姓,名和email!!
  5. 还没搞完的排序(后期更新)
  6. maven版本_Maven – 工作原理
  7. L1-030 一帮一 (15 分)—团体程序设计天梯赛
  8. apache tuscany(一)
  9. PS文字的投影怎么打?
  10. linux下的c++filt 命令
  11. 关于Matlab中括号用法的总结
  12. 阿里云mysql导出表_mysql导出数据库表
  13. Foreda Workstation 36安装搜狗拼音输入法
  14. 「魔窗」问题终于解决了
  15. 详解如何在npmjs上上传和更新属于自己的组件库
  16. 小程序上线后部分图片不显示的问题
  17. 秒速五厘米(为情怀而补的题)
  18. 盘点大数据商业智能的十大戒律
  19. 函数模板、类模板(含模板特化)
  20. (C++)“韩信点兵”问题的求解方法

热门文章

  1. html获取焦点和失去焦点,js获取焦点和失去焦点
  2. 聚焦大数据时代下的房地产创新
  3. python拼图游戏
  4. C语言:跟奥巴马一起画方块
  5. WORD删除特定格式的数字(带小中大括号等等)
  6. 封装一个hook,在Vue3 setup中使用Vuex中的mapState,mapGetters
  7. 概率论与数理统计——随机事件及其概率
  8. 需求分析方法论—Kano模型
  9. 如果你的朋友生肖是羊的请好好珍惜、属羊的朋友有同感的转一下.
  10. C++ advance