「数据治理那点事」系列之三:不忘初心方得始终,数据质量管理要稳住!
文 | 乐天(原创)未经许可,不可转载。
编辑 | 刘能 碳酸
本文约 3209 字,预计阅读时间 9 分钟
作者简介:蒋珍波(乐天),6 年+ 大数据咨询经验,擅长为客户提供科学合理的大数据解决方案。目前担任数澜科技咨询专家,负责数澜大数据平台售前咨询。
本文主要讲述数据治理中的重要工作:数据质量管理,从以下几个角度展开具体讲解:
(1)数据质量管理的目标
(2)质量问题产生的根源
(3)数据质量的评估
(4)数据质量管理的流程
(5)数据质量管理的取舍
一、数据质量管理的目标
数据质量管理主要解决「数据质量现状如何,谁来改进,如何提高,怎样考核」的问题。
「不忘初心方得始终」,在最开始的关系型数据库时代,做数据治理最主要的目的,就是为了提升数据质量,让报表、分析、应用更加准确。时至今日,虽然数据治理的范畴扩大了很多,我们开始讲数据资产管理、知识图谱、自动化的数据治理等等概念,但是提升数据的质量,依然是数据治理最重要的目标之一。
为什么数据质量问题如此重要?
因为数据如果要发挥其价值,关键在于其数据质量的高低,高质量的数据是一切数据应用的基础。假设一个组织根据劣质的数据分析业务、进行决策,那还不如没有数据。因为通过错误的数据分析出的结果往往会带来「精确的误导」,对于任何组织来说,这种「精确误导」都无异于一场灾难。
据统计,数据科学家和数据分析员每天有 30% 的时间浪费在了辨别数据是否是「坏数据」上,在数据质量不高的环境下,做数据分析可谓是战战兢兢。可见数据质量问题已经严重影响了组织业务的正常运营。通过科学的数据质量管理,持续地提升数据质量,已经成为组织内部刻不容缓的优先任务。
二、数据质量问题从何而来?
做数据质量管理,首先要搞清楚产生数据质量问题的原因。原因有多方面,比如在技术、管理、流程方面都会碰到。但从根本上说,产生数据质量问题的大部分原因在业务上,也就是管理不善。许多表面上的技术问题,深究下去,其实还是业务问题。
我在给客户做数据治理咨询的时候,发现很多客户很难发现产生数据质量问题的根本原因,仅仅局限于从技术角度来解决问题,希望通过购买某个工具就能解决质量问题,这当然达不到理想的效果。通过和客户交流以及双方共同分析之后,大部分组织都能认识到数据质量问题产生的真正根源,开始从业务方向着手解决数据质量问题了。
从业务角度着手解决数据质量问题,重要的是建立一套科学、可行的数据质量评估标准和管理流程。
三、数据质量评估的标准
当我们谈到数据质量管理的时候,我们必须要有一个数据质量评估的标准。有了这个标准,我们才能知道如何评估数据的质量,才能把数据质量量化,从而得出改进的方向、比较改进后的效果。目前业内认可的数据质量的标准有:
以上数据质量标准只是一些通用的规则,这些标准是可以根据数据的实际情况和业务要求进行扩展的,如交叉表校验等。
四、数据质量管理流程
要提升数据质量,需要以问题数据为切入点,注重问题的分析、解决、跟踪、持续优化、知识积累,形成数据质量持续提升的闭环。
首先需要梳理和分析数据质量问题,摸清楚数据质量的现状;其次针对不同的质量问题选择适合的解决办法,制定出详细的解决方案;同时要注重问题的认责,追踪方案执行的效果,监督检查,持续优化;最后形成数据质量问题解决的知识库,以供后来者参考。上述步骤不断迭代,形成数据质量管理的闭环。
很显然,要管理好数据质量,仅有工具支撑是远远不够的,必须要组织架构、制度流程参与进来,做到数据的认责,数据的追责。
五、数据质量管理的取与舍
企业也好,政府也好,从来不是生活在真空之中,而是被社会紧紧地包裹。解决任何棘手的问题,都必须考虑到社会因素的影响,做适当的取舍。
第一个取舍:数据质量管理流程。前面讲到的数据质量管理流程,是一个相对理想的状态,但是在不同的组织内部,实施的力度都是不同的,以数据追责为例:在企业内部推行还具有一定的可行性,但是对于政府而言就很难适用。因为政府部门的大数据项目,牵头单位无论是谁,很可能没有相关的权限。遇到这种问题,我们只能迂回地做些事情,尽量弥补因为某个环节缺失而带来的不利影响,比如和数据提供方一起建立起数据清洗的规则,对来源数据做清洗,尽量达到可用的标准。
数据追责的例子:你很难想像市经信委去跟市政府办公厅进行数据质量的问责,这与数据治理的建设方在整个大的组织体系中的话语权有很大的关系,这也就是我们做数据治理必须接受的现实。
第二个取舍:不同时间维度上的数据采取不同的处理方式。从时间维度上划分,数据主要有三类:未来数据、当前数据、历史数据。在解决不同种类的数据质量问题时,需要考虑取舍之道,采取不同的处理方式。
- 历史数据
当你拿着一堆历史问题数据,找信息系统的负责人给你整改,对方通常不会给你好脸色看,可能会以「当前的数据问题都处理不过来,哪有时间给你处理历史数据的问题」为理由,拒你以千里之外。这时候即使你找领导协调,一般也没有太大的作用。因为这确实是现实情况:一个组织的历史数据通常是经年累月的积累,已经是海量的规模,很难处理。那么难道就没有更好的办法了吗?——对于历史数据问题的处理,我们可以发挥技术人员的优势,用数据清洗的办法来解决;对于实在清洗不了的,我们要让决策者判断投入和产出的效益比。
从另一个角度来看:数据的新鲜度不同,其价值往往也有所区分。一般来说,历史数据的时间越久远,其价值越低。所以,我们不应该把最重要的资源放在历史数据质量的提升上,而是应该更多地着眼于当前和未来即将产生的数据。
- 当前数据
当前数据的问题,需要我们通过本文第四个章节讲过的——梳理和发现问题,分析问题,解决问题,问题认责、跟踪和评估等几个流程环节来解决,管理过程中必须严格遵循流程,避免脏数据继续流到数据分析和应用环节。
- 未来数据
管理未来的数据,一定要从数据规划开始,从整个组织信息化的角度出发,规划组织统一的数据架构,制定出统一的数据标准。借业务系统新建、改造或重建的时机,在创建物理模型、建表、ETL开发、数据服务、数据使用等各个环节遵循统一的数据标准,从根本上提升数据质量。这也是最理想、效果最好的数据质量管理模式。
通过对不同时期数据的不同处理方式,能做到事前预防、事中监控、事后改善,从根本上解决数据质量问题。
六、总结
提升数据质量,是数据治理最重要的目标之一。我们需要从三个方面着手解决数据质量问题:弄清楚数据质量问题产生的根源,建立一套科学合理的评估标准和管理流程,考虑到组织和数据的现状。
数澜科技的核心产品:一站式大数据平台「数栖」,集成了完善的数据质量管理功能,可以对表级、字段级的数据建立稽核规则,执行检查,生成数据质量报告,并融入到数据资产管理的闭环之中,帮助客户循环不断地提升数据质量。
<END>
数栖大会重磅来临!
(点击图片扫码,立即报名!)
转载于:https://blog.51cto.com/13936314/2395712
「数据治理那点事」系列之三:不忘初心方得始终,数据质量管理要稳住!相关推荐
- 不忘初心方得始终:数据治理之数据质量管理
写在前面: 这是一个系列文章,沉淀了我在数据治理领域的一些实践和思考.共分为5篇.分别是: 一.大数据治理:那些年,我们一起踩过的坑 主要讲讲数据治理工作中常见的一些误区. 二.要打仗,你手里先得有张 ...
- 无论从事什么行业,只要做好两件事就够了,一个是你的专业、一个是你的人品,专业决定了你的存在,人品决定了你的人脉,剩下的就是坚持,用善良專業和真诚赢取更多的信任。不忘初心 方得始终!
无论从事什么行业,只要做好两件事就够了,一个是你的专业.一个是你的人品,专业决定了你的存在,人品决定了你的人脉,剩下的就是坚持,用善良專業和真诚赢取更多的信任.不忘初心 方得始终!
- 「视频直播技术详解」系列之三:编码和封装
关于直播的技术文章不少,成体系的不多.我们将用七篇文章,更系统化地介绍当下大热的视频直播各环节的关键技术,帮助视频直播创业者们更全面.深入地了解视频直播技术,更好地技术选型. 视频编码是视频直播技术系 ...
- 数据治理从理论到实战系列(一)——简要概述
数据治理从理论到实战系列 数据治理(一):简要概述 数据治理从理论到实战系列 一.为什么要进行数据治理? 二.什么是数据治理? 三.如何解决上述问题? 三.数据治理的体系 四.数据治理平台建设 跳转连 ...
- 数据治理从理论到实战系列(三)——cdh安装
数据治理从理论到实战系列 提示:数据治理实战需要用到统一版本大数据开源组件,为了避免版本混乱导致的安装使用异常,我们先在这章节插入到了cdh安装 数据治理(三)cdh安装 数据治理从理论到实战系列 前 ...
- 左晖所说的「难而正确的事」到底是什么?
敦促行业良性发展,是一件正确的事.虽然难,但做成了,生意也就成了. 自今年 8 月 13 日上市以来,贝壳找房的股价一路走高.截至发稿时,其市值已高达 770 亿美金.这个仅成立两年半的公司,以极其迅 ...
- 「单点登录与权限管理」系列概述
首先,感谢几位朋友在朋友圈转发我的文章,小声的告诉你们,是我主动让他们帮忙转发的:)在朋友们的分享下,凌晨推送的一篇文章,阅读人数达到了280多,很满足,我会坚持写下去,分享工作.学习.生活中的所思所 ...
- 【活动】腾讯云「轻云之上,无尽想象」系列活动盛大来袭
前言 现在工作太难找?简历难做?自己的既往作品难以列出?踩坑笔记无处安放?代码只在一台电脑里?快来体验腾讯云轻量应用服务器!轻松解决以上烦恼! 「轻云之上,无尽想象」 「轻云之上,无尽想象」第一期活动 ...
- 「拥抱开源, 又见 .NET」系列第三次线下活动简报
「拥抱开源, 又见 .NET」 随着 .NET Core的发布和开源,.NET又重新回到人们的视野.自2016年 .NET Core 1.0 发布以来,其强大的生命力让越来越多技术爱好者对她的未来满怀 ...
最新文章
- 腾讯云与每日优鲜便利购战略签约 引领无人零售2.0时代发展
- 用java做一个简单记事本_用记事本写一个简单的java程序
- 机器学习算法精讲20篇(一)-k-means聚类算法应用案例(附示例代码)
- 深入浅出JProfiler
- SAP Spartacus需要补充url validation单元测试的地方
- 第七章 scikit-learn与机器学习实战
- 【BZOJ1497】【codevs1789】最大获利,网络流之最大权闭合子图
- 【记录】C++中的类成员调用
- 用批处理读取特定注册表项的路径值
- mysql读写分离 保持数据一致性_读写分离数据库如何保持数据一致性
- win7下安装VC6LineNumberAddin方法[VC6行号插件]
- win10计算机桌面路径,win10桌面路径是什么?如何修改win10桌面文件路径?
- 工行软开和中行软开_工行软开怎么样啊待遇如何,知道的说下啊
- 在线运行html代码网站汇总(HTML代码在线运行实用网站收集)
- 对接微信二维码支付(native方式)
- (C语言)实现基于PHP的某公司自来水收费管理系统
- phy 驱动与 switch 驱动
- python之图片文本识别
- PDF格式人工转为Excel
- 《zw版·Halcon-delphi系列原创教程》 Halcon分类函数013,shape模型
热门文章
- vue+ elementUI使用el-autocomplete从远程实时查询
- Conmi的正确答案——树莓派更新缓慢解决方案
- 轻流,做未知领域的探索者
- 端午临中夏,时清日复长。
- mysql use temporary_一次mysql 优化 (Using temporary ; Using filesort)
- 想成为职场达人就必须要读懂的职场生存法则
- 最新MSNMessenger机器人列表(转)
- 测量电压调节器输出纹波和开关瞬变的方法
- Eucalyptus首席财务官王宁:有理想,就去追
- 中国不锈钢行业需求态势及发展形势展望报告(新版)2022-2027年