数据质量

定义

为了确保满足数据消费者的需求,应用数据管理技术进行规划、实施、控制等管理活动

业务驱动因素

  • 提高组织数据价值和数据利用的机会
  • 提高低质量数据导致的风险和成本
  • 提高组织效率和生产力
  • 保护和提高组织的声誉

低质量数据导致风险

  • 无法正确的开具发票
  • 增加客服电话量,降低解决问题的能力
  • 因措施商业机会造成收入损失
  • 影响并购后的整合进展
  • 增加受欺诈的风险
  • 由错误数据驱动的错误业务决策造成的损失
  • 因缺乏良好信誉而导致的业务损失

目标

  • 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求
  • 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分
  • 定义和实施测量、监控和报告数据质量水平的过程

原则

  • 重要性
  • 全生命周期
  • 预防
  • 根因修正
  • 治理
  • 标准驱动
  • 客观测量和透明度
  • 嵌入业务流程
  • 系统强制执行
  • 与服务水平关联

活动

定义高质量数据

定义数据质量战略

识别关键数据和业务规则

  1. 识别关键数据
  2. 识别已有规则和模式

执行数据质量初始评估

  1. 确定问题并排定优先级
  2. 执行问题根本原因分析

确定改进方向并排定优先顺序

  1. 根据业务影响确定行动的优先级
  2. 制定预防和纠正措施
  3. 确认计划的行动

定义数据质量改进目标

开发和部署数据质量操作

  1. 开发数据质量操作规程
  2. 修正数据质量缺陷
  3. 度量和监控数据质量
  4. 报告数据质量水平和调查结果

Stong-Wang框架数据质量4个大类

  • 内在数据质量
  • 场景数据质量
  • 表达数据质量
  • 访问数据质量

DAMA UK数据质量的6个核心维度

  • 完备性
  • 唯一性
  • 及时性
  • 准确性
  • 有效性
  • 一致性

数据质量改进生命周期(PDCA)

  • 计划
  • 执行
  • 检查
  • 处理

常见的业务规则

  • 定义一致性
  • 数值存在的记录完备性
  • 格式符合性
  • 值域匹配性
  • 范围一致性
  • 映射一致性
  • 一致性规则
  • 准确性验证
  • 唯一性验证
  • 及时性验证

数据质量问题的常见原因

  • 缺乏领导力导致的问题
  • 数据输入过程引起的问题
  • 数据处理功能引起的问题
  • 系统设计引起的问题
  • 解决问题引起的问题

提升数据质量形式

  • 数据清理或数据清洗
  • 数据增强
  • 数据解析和格式化
  • 数据转换与标准化

工具

  • 数据剖析工具
  • 数据查询工具
  • 建模和ETL工具
  • 数据质量规则模板
  • 元数据存储库

方法

  • 预防措施
  • 纠正措施
  • 质量检查和代码审核模块
  • 有效的数据质量指标
  • 统计过程控制
  • 根本原因分析

实施指南

  • 就绪评估/风险评估
  • 组织和文化变革

度量指标

  • 投资回报
  • 质量水平
  • 数据质量趋势
  • 数据问题管理指标
  • 数据质量计划示意图

DAMA数据治理学习笔记-数据质量相关推荐

  1. DAMA数据治理学习笔记-数据治理

    数据治理 定义 对数据资产管理行使权力.控制和共享决策(规划.监测和执行)的系列活动. 目标 提升企业数据资产管理能力 定义.规划.批准.执行数据管理的原则.政策.程序.指标.工具.责任. 监控和指导 ...

  2. 数据管理知识体系指南(第二版)-第三章——数据治理-学习笔记

    目录 3.1引言 3.1.1业务驱动因素 3.1.2目标和原则 3.1.3基本概念 3.2活动 3.2.1规划组织的数据治理 3.2.2制定数据治理战略 3.2.3实施数据治理 3.2.4嵌入数据治理 ...

  3. 数据治理学习笔记(一):数据治理是什么,要做什么

    前言: 经常在各种数据工作的文章中看到这个词,看词语意思就是要把数据管理好.作为数据基础支撑工作,其重要性也是可以想象的,平时工作中,有数据问题,一圈查下来就是一条记录的质量问题,更坑的是可能会多次都 ...

  4. DAMA数据治理学习笔记-大数据和数据科学

    大数据和数据科学 定义 对多种不同类型的数据进行收集(大数据)和分析(数据科学.分析.可视化),以此来为在分析的初始阶段未知的问题找到答案 目标 发现数据和业务的联系 支持将数据源迭代集成到企业中 发 ...

  5. DAMA数据治理学习笔记-数据管理成熟度评估

    数据管理成熟度评估 数据管理成熟度6个等级 无能力级 初始级 可重复级 已定义级 已管理级 优化级 业务驱动因素 监管 数据治理 过程改进的组织就绪 组织变更 新技术 数据管理问题 目标 全面发现和评 ...

  6. DAMA数据治理学习笔记-数据仓库和商业智能(DW/BI)

    数据仓库和商业智能(DW/BI) 企业数据仓库提供了一种减少数据冗余.提高信息一致性,让企业能够利用数据做出更优决策的方法 定义 通过规划.实施和控制过程,来提供决策支持数据,支持从事报告.查询和分析 ...

  7. DAMA数据治理学习笔记-数据安全

    数据安全 定义 定义.开发.执行.监控安全策略和规程,以提供对数据和信息资产的适当验证.授权.访问.审计 数据安全需求来源 利益相关方 政府法规 特定业务关注点 合法访问需求 合同义务 业务驱动因素 ...

  8. 数据中台 -- 学习笔记(一)

    数据中台: 是指通过数据技术,对海量数据进行采集.计算.存储.加工,同时统一标准和口径,中台还可以根据ThoughtWork首席咨询师给出的定义来解释."企业级的能力复用平台":& ...

  9. React学习:路由定义及传参、数据复用-学习笔记

    文章目录 React学习:路由定义及传参.数据复用-学习笔记 在React中使用react-router-dom路由 简单例子 路由定义及传参 React学习:路由定义及传参.数据复用-学习笔记 在R ...

最新文章

  1. 北漂周记--第2记--培训开始
  2. 服务器磁盘状态,宝塔面板:服务器状态“磁盘100%”标红 解决方法
  3. spark RDD详解及源码分析
  4. 前端学习(3009):vue+element今日头条管理--登录中的loding
  5. 【云周刊】第173期:直击数博|阿里胡晓明:用100亿的投入撬动1000亿的脱贫效应...
  6. NUC1041 数字三角形【DP】
  7. bzoj 3407: [Usaco2009 Oct]Bessie's Weight Problem 贝茜的体重问题(DP)
  8. linux下iconv命令转换字符编码
  9. python通过pop3方式登录邮箱(qq,新浪,网易)
  10. python数据挖掘的基本流程有哪些?
  11. 10kv变电所工程电力监控系统的设计与应用
  12. 使用C#进行数据库增删改查(一)
  13. Shiro源码-创建subject
  14. BMP图像位图法隐藏信息
  15. Squared Error 数学
  16. 射频通信中的CA中的PCC和SCC概念
  17. SpringBoot项目启动报错:Field userMapper in com.demo.controller.MemberController required a bean of type ‘c
  18. 练习牛客网笔试题--前端js--60-双色球机选一注
  19. 18 | 安全标准和框架:怎样依“葫芦”画出好“瓢”?
  20. 【题解】Leyni,罗莉和队列(树状数组)

热门文章

  1. Docker学习思维导图
  2. pdm文件服务器,如何设置pdm服务器
  3. 青岛跻身互联网+智慧城市全国十强
  4. 巴尔的摩古老的圣保罗教堂上的一首诗
  5. uefi安装win7,deepin15双系统后grub没有windows选项
  6. 这18款作品斩获2020 Qualcomm XR 创新应用挑战赛奖项
  7. 使用计算机绘图软件首先要,计算机绘图基础复习试题
  8. Anaconda打开之后无法显示界面,再打开显示There is an instance of anaconda navigator already running
  9. UnrealBuildTool的RulesScope-Unreal4源码拆解-UnrealBuildTool功能流程解析
  10. 四六级来源这些国外期刊杂志or网站