数据质量控制与数据治理
背景
对于一个公司来说,最重要的资产是数据,数据的核心价值可以理解为核心商业价值,我个人认为是体现在两方面,一是能为企业带来更多的盈利,二是能为企业规避风险。
实现数据价值就需要进行业务数据分析和价值挖掘,对于大多数数据分析师来说,数据分析方法和技术都不存在问题,只要有干净完备的数据,数据价值都可以得到呈现,但是如果数据本身是错的,分析出来的结论未必有用,保证数据质量是大数据为企业带来价值的先决条件。但是大部分企业尤其是传统型企业,对于数据资源没有质量管理意识,也不懂得如何进行数据治理,导致数据质量很差,主要体现在以下几方面:数据缺失、数据孤岛、数据失真等,导致无法利用数据资源获取更多的商业价值。
数据是资源、数据分析是工具、数据结论是价值。工欲善其事必先利其器,同样,资源不储备好,再牛逼的工具也无从下手,下文重点讨论企业如何做数据质量管理和数据治理。
如何做数据质量控制和数据治理
首先说一下怎么评估企业数据质量好坏呢?从数据分析的角度或者叫数据价值的角度理解,优质数据需要在任何时候都可以被企业所信任,并且满足所有业务需求。
重点在于两点:第一是可被信任的,要求数据必须真实可靠,能够真实的记录企业运营情况;第二是可以满足需求,要求数据服务于业务,从最基础的业务监控到商业决策,都可以通过数据给出答案。
数据质量评估六要素:完整性、规范性、一致性、准确性、唯一性、关联性;
数据质量控制和数据治理就是以元数据为基础,实现企业数据优化的循环管理过程,起点是业务需求,重点是满足业务需求。
数据质量控制与治理方法论:

质量问题来源
任何质量问题改善都建立在评估的基础上,知道问题在哪里才能实施改进。数据质量问题来源按照不同的分类有不一样的问题定位,本文中关于数据质量控制与数据治理借助数据流图来说明。
数据流图也称为数据流程图date flow diagram , DFD,是一种便于用户理解和分析系统数据流程的图形工具,他摆脱了系统和具体内容,精确的在逻辑上描述系统的功能、输入、输出和数据存储等,是系统逻辑模型的重要组成部分。它从数据传递和加工的角度,以图形的方式刻画数据流从输入到输出的移动变换过程,所以它可以用来做数据质量问题定位。
标准化的系统设计,数据流图会在系统需求分析阶段完成,但是大部分的系统开发都没有进行标准化的数据流图,需求后期进行完善,具体的数据流图画法不做赘述。
案例分享
以某公司CRM系统数据为例,目前一个业务需求为分析什么样的客户特征(toB类型)可以带来更高的收益,因为业务特殊性和行业有很大的关系,就以行业数据来说明。把业务需求转化到数据需求就是一批高质量的数据(包含市场活动表、客户表、商机表、签单表等);确认数据逻辑,画出数据流图(只做简单说明):
数据质量评估,客户行业数据一致性不足40%,无法确定哪个步骤的行业输入更加准确,数据分析可信度不高,业务影响大;问题定位在一个属性数据多个输入,无修改纠正,多个数据并存;整改方案经过沟通确定如下,通过市场部获取的客户已市场部输入为准,后续步骤默认填充,销售自己渠道获取的客户以销售输入为准,后续步骤默认填充。方案实施改进,宣导至所有干系人;对历史数据经过数据加工进行处理,后续数据采用新逻辑,评估改进后的数据一致性,确认能否满足业务需求。

数据质量控制与数据治理相关推荐

  1. 医疗数据治理——构建高质量医疗大数据智能分析数据基础

    医疗数据治理--构建高质量医疗大数据智能分析数据基础 阮彤,邱加辉,张知行,叶琪 华东理工大学计算机科学与技术系,上海 200237   摘要:以专病真实世界研究为背景,分析了医疗数据治理和数据可用性 ...

  2. 数据仓库amp;数据指标amp;数据治理体系搭建方法论

    数据仓库的基本概念 数据仓库概念 英文名称为Data Warehouse,可简写为DW或DWH.数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support).它 ...

  3. 集成平台、大数据平台、数据治理平台,医院信息科应该怎么选?

    文章来源:森亿AI医疗 近几年,医院的信息化建设速度不断加快,已基本实现了业务的数据化.院内的信息化系统越来越多,其中积累了海量的医疗数据.要真正发挥这些数据的价值,需对其进行采集汇聚.治理.计算和挖 ...

  4. 建设大数据平台,从“治理”数据谈起

    一 随处可见的数据问题 大数据不是凭空而来,1981年第一个数据仓库诞生,到现在已经有了近40年的历史,而国内企业数据平台的建设大概从90年代末就开始了,从第一代架构出现到现在已经经历了近20年的时间 ...

  5. 浅谈数据治理、数据管理、数据资源与数据资产管理内涵及差异点(建议收藏)...

    前言 随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理.数据管理.数据资源管理.数据资产管理等名词的定义很多,概念容易混淆,本文对这些名词术语及内涵进行 ...

  6. 「名词」数据管理、数据治理、数据中心、数据中台、数据湖、数据资产等

    以下内容仅供参考: 随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理.数据管理.数据资源管理.数据资产管理等名词的定义很多,概念容易混淆,本文对这些名词 ...

  7. wps数据匹配怎么做_【VK技术分享】数据安全怎么做—静态数据的识别和治理

    前言 在当前的数据时代,随着云计算.大数据.AI等技术的不断发展,"数据"已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素.数据的计量单位也至少是PB级别计算.这对于国家 ...

  8. 计算机接口控制采集时序图,自动站实时数据质量控制

    自动站实时数据质量控制 利用极值法.比较法.综合 (本文共2页) 阅读全文>> 通过2次自动站实时数据质量控制失败的案例,分析总结了自动气象站实时数据质量控制的经验教训.结果表明:(1)值 ...

  9. 数据管理,数据治理,数据中心,数据中台,数据湖这下就分清楚了!

    随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理.数据管理.数据资源管理.数据资产管理等名词的定义很多,概念容易混淆,本文对这些名词术语及内涵进行系统的 ...

  10. 数据自治开放与治理模式创新

    数据自治开放与治理模式创新 沈逸1,3, 姚旭1,3, 朱扬勇2,3 1. 复旦大学网络空间治理研究中心,上海 200433 2. 复旦大学计算机科学技术学院,上海 201203 3. 上海市数据科学 ...

最新文章

  1. AMD 和 Intel 之战:CPU 哪家强?
  2. kubeadm常见报错和解决方法
  3. mysql编写完怎么执行_面试官:一条MySQL更新语句是如何执行的?
  4. 带你深入理解分布式事务,掌握后台分布式核心技术,PS:送5本!
  5. wpf page 界面渲染完成后执行自动操作_Vue项目骨架屏自动生成方案(dps)
  6. c51单片机矩阵键盘1602计算器_基于51单片机矩阵键盘的简易计算器制作
  7. 深度学习主机攒机小记
  8. linux mail使用笔记
  9. javascript操作listbox方法 【转】
  10. list 转 json,以及 json 解析
  11. 新年祝福:向所有开源工作人员表示真诚的感恩
  12. hdu 2094 “产生冠军”——set容器的应用
  13. 对抗神经网络(Adversarial Nets)的介绍[1]
  14. CSS3 - 新单位vw、vh、vmin、vmax使用详解(附样例)
  15. PointNet解读
  16. 计算机编程学完图形化接下来学啥,为什么学习少儿编程要从图形化开始
  17. python 图片 变清晰_图片无损放大利器,把模糊图片变清晰
  18. 从《欲望都市》到《绝望主妇》 美剧的疯狂
  19. rz cz命令未找到
  20. 总结2018,规划2019

热门文章

  1. piranha 适用于CLIP-Seq 与 RIP-Seq 的 peak caller
  2. 关于短除法求两个数的最小公倍数的公式的解释
  3. CSS基础常识问答(二)
  4. javascript基础常识问答(六)
  5. 【3D目标检测】PV-RCNN:Point-Voxel Feature Set Abstraction for 3D Object Detection
  6. 装了Restorator,打开应用程序,提示不支持此接口的解决方法
  7. 算法刻意练习-LeetCode实战29-加油站(C++)
  8. 浪潮之巅--苹果的魔力
  9. Process finished with exit code -1073740791 (0xC0000409)解决方法
  10. InnoDB怎么解决幻读的?