企业如何进行数据质量评估
一般来说,当企业有了全新的业务需求、重大的技术变更,又或者从一个新的数据来源获取了全新的数据,并期望将它应用在一个具体的业务中的时候,我们都需要进行比较完整的数据质量分析。数据质量评估步骤如下:
1、需求分析,明确目标
对具体业务数据的数据质量评价是以业务需求为中心进行的,必须首先了解具体业务针对特定数据资源的需求特征才能建立针对性的评价指标体系。同时,同一份数据在不同的生命周期中,其质量的关注点是存在差异的,因此很重要的一点就是明确当前阶段数据质量管理的目标是什么。有了明确的目标,才能开始对数据进行合理的评估。
2、确定评价对象及范围
确定当前评估工作应用的数据集的范围和边界,明确数据集在属性、数量、时间等维度的具体界限。需要说明的是,评价对象既可以是数据项也可以是数据集,但一定是一个确定的静态的集合。
3、选取质量维度及评价指标
数据质量维度是进行质量评价的具体质量反映,如正确性、准确性等,它是控制和评价数据质量的主要内容。因此,首先要依据具体业务需求选择适当的数据质量维度和评价指标。另外,要选取可测、可用的质量维度作为评价指标准则项,在不同的数据类型和不同的数据生产阶段,同一质量维度有不同的具体含义和内容,应该根据实际需要和生命阶段确定质量维度。
4、确定质量测度及其评价方法
数据质量评价在确定其具体维度和指标对象后,应该根据每个评价对象的特点,确定其测度及实现方法。对于不同的评价对象一般是存在不同的测度的,以及需要不同的实现方法支持,所以应该根据质量对象的特点确定其测度和实现方法。
5、实施质量评估
根据前面四步确定的质量对象、质量范围、测量及其实现方法实现质量评测的活动过程。评价对象的质量应当由多个质量维度的评测来反映,单个数据质量测量是不能充分、客观评价由某一数据质量范围所限定的信息的质量状况,也不能为数据集的所有可能的应用提供全面的参考,多个质量维度的组合能提供更加丰富的信息。
6、撰写结果分析并报告
经过抽样、度量、评估之后,就可以得到评估结论了。最后我们需要的就是撰写一份评估的报告,在这份报告当中,除了最后的结论,应当还包括对这个结论的分析和解读,并通过一些可视化的方式展现在报告当中。数据质量评估报告不是最终的目的,这份报告对后续数据质量的管理,数据治理等都具有非常重要的参考意义。因此,在这份报告中应当包含结论、分析以及质量改善建议这几个方面。
对企业数据进行质量管理,那么可以提供企业数据的标准性、准确性,可以让企业数据根据清晰,选择一款好的企业数据质量管理平台,可以更好的帮助企业管理数据。
企业如何进行数据质量评估相关推荐
- 国际权威数据质量原文修订:数据质量评估的六个主要维度
数据质量评估的六个主要维度 原文下载: https://download.csdn.net/download/bigdatapang/12125767 DAMA版权所有, 翻译修订by大数据庞涛138 ...
- 数据分析 - 基础原理 之 第三章:数据质量管理 - 第一节:数据质量评估
请参考原创:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA 前言 数据资产的重要性 数据资产是企业或组织拥有或控制,能带来未来经济利益的数据资源.越 ...
- NanoPlot:三代纳米孔测序数据质量评估
简介 二代测序最常用的质量评估软件是FastQC,多样本时可进一步结合MultiQC.此外速度超快的fastp也特别推荐,而且包括质量评估.质量控制等功能,可以说是国产软件之光,详见下方详细教程: 数 ...
- 企业如何提升数据质量
在这个大数据时代,数据资产逐渐成了构成成企业核心竞争力的关键要素,然后,大数据的应用必须建立在高质量的数据上才有意义,因此提供数据质量是企业需要迅速解决的问题,那么企业如果提升数据质量? 数据质量一般 ...
- 数据质量评估入门数据监控
这里的数据质量不是测试的那种质量,而是可以理解为数据自身的质量属性. 什么是数据质量 数据质量指数据是否适合其使用目的的程度,包括数据的准确性.完整性.一致性.可靠性和时效性等方面.数据质量评价是评估 ...
- 如何评估企业的数据质量
在如今火爆的数智化时代,企业都在利用大数据创新业务.获得价值:然而,数据能否更好地赋能业务,取决于企业数据质量的好坏.好的数据质量,经过数据分析.挖掘.机器学习等手段,可以更好地辅助业务决策.帮助企业 ...
- 数据中台:企业数据质量参差不齐?听听专家怎么说
本文节选自<数据中台> 作者:付登坡,江敏,任寅姿,孙少忆 等 1 数据质量管理的目标 数据质量管理主要解决"数据质量现状如何,谁来改进,如何提高,怎样考核"的问题.在 ...
- 大数据成败之“监”:美团数据质量监管平台这样搭建
http://www.sohu.com/a/227310642_411876 背景 数据,已经成为互联网企业非常依赖的新型重要资产.数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力. ...
- 提高机器学习质量的想法_如何提高机器学习的数据质量?
提高机器学习质量的想法 The ultimate goal of every data scientist or Machine Learning evangelist is to create a ...
最新文章
- Linux 运维笔试题(一)
- CYQ.Data 轻量数据层之路 使用篇三曲 MAction 取值赋值(十四)
- 今日代码(20210313)--美赛代码记录
- P3402-[模板]可持久化并查集【主席树】
- 计算机组成与系统原理中的节拍是什么意思?
- 漫步最优化六——数学规划
- 机器学习实战(二)决策树DT(Decision Tree、ID3算法)
- linux 0.11 源码学习(十四)
- 跳转html时请求头怎么取,如何获取a链接的请求头信息?
- 结构体、文件操作、指针
- php 预缓存,Steam更新着色器预缓存新功能,OpenGl、Vulkan硬件收效良多
- 北京航空航天大学计算机学院保研,北京航空航天大学计算机学院(专业学位)计算机技术保研...
- conda 克隆环境
- Linux应该怎么快速学习?首推这份全网爆火的“Linux速成笔记”,阿里架构师都在用它!
- 将python代码转换为flowchart代码
- Vue为啥可以成为2019年的一匹黑马?
- Linux主机安全加固方法使用开源软件fail2ban防护主机
- JVM调优的在线网站
- 前端追梦人Cytoscape.js教程
- 立法禁食猫狗肉属本末倒置
热门文章
- webpack资源的输入与输出
- ubuntu16.04 装机4:安装防火墙ufw
- convLSTM-tensorflow:LSTM理解
- 服务器端配置nodejs环境(使用pm2进程管理运行)
- SPOJ 694 SPOJ 705 (不重复子串个数:后缀数组)
- EXTJS Date 的转换格式化字符
- 30个提高Web程序执行效率的好经验
- Introducing Blackle, the energy saving search
- 批量实现 cv2.cvtColor(images, cv2.COLOR_GRAY2RGB)
- Tensflow的equal函数