数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量。因此数据仓库的数据质量建设是一些公司的重点工作。

一、数据质量

数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。

二、数据质量维度

1、准确性:数据不正确或描述对象过期

2、合规性:数据是否以非标准格式存储

3、完备性:数据不存在

4、及时性:关键数据是否能够及时传递到目标位置

5、一致性:数据冲突

6、重复性:记录了重复数据

三、数据质量分析

数据质量分析的主要任务就是检查数据中是否存在脏数据,脏数据一般是指不符合要求以及不能直接进行相关分析的数据。脏数据包括以下内容:

1、缺省值

2、异常值

3、不一致的值

4、重复数据以及含有特殊符号(如#、¥、*)的数据

我们已经知道了脏数据有4个方面的内容,接下来我们逐一来看这些数据的产生原因,影响以及解决办法。

第一、 缺省值分析

产生原因:

1、有些信息暂时无法获取,或者获取信息的代价太大

2、有些信息是被遗漏的,人为或者信息采集机器故障

3、属性值不存在,比如一个未婚者配偶的姓名、一个儿童的固定收入

影响:

1、会丢失大量的有用信息

2、数据额挖掘模型表现出的不确定性更加显著,模型中蕴含的规律更加难以把握

3、包含空值的数据会使得建模过程陷入混乱,导致不可靠输出

解决办法:

通过简单的统计分析,可以得到含有缺失值的属性个数,以及每个属性的未缺失数、缺失数和缺失率。删除含有缺失值的记录、对可能值进行插补和不处理三种情况。

第二、 异常值分析

产生原因:业务系统检查不充分,导致异常数据输入数据库

影响:不对异常值进行处理会导致整个分析过程的结果出现很大偏差

解决办法:可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用力啊判断这个变量是否超出了合理的范围。如果数据是符合正态分布,在原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,如果不符合正态分布,也可以用原理平均值的多少倍标准差来描述。

第三、 不一致值分析

产生原因:不一致的数据产生主要发生在数据集成过程中,这可能是由于被挖掘的数据是来自不同的数据源、对于重复性存放的数据未能进行一致性更新造成。例如,两张表中都存储了用户的电话号码,但在用户的号码发生改变时只更新了一张表中的数据,那么两张表中就有了不一致的数据。

影响:直接对不一致的数据进行数据挖掘,可能会产生与实际相悖的数据挖掘结果。

解决办法:注意数据抽取的规则,对于业务系统数据变动的控制应该保证数据仓库中数据抽取最新数据

第四、 重复数据及特殊数据产生原因:

产生原因:业务系统中未进行检查,用户在录入数据时多次保存。或者因为年度数据清理导致。特殊字符主要在输入时携带进入数据库系统。

影响:统计结果不准确,造成数据仓库中无法统计数据

解决办法:在ETL过程中过滤这一部分数据,特殊数据进行数据转换。

四、数据质量管理

大多数企业都没有一个很好的数据质量管理的机制,因为他们不理解其数据的价值,并且他们不认为数据是一个组织的资产,而把数据看作创建它的部门领域内的东西。缺乏数据质量管理将导致脏数据、冗余数据、不一致数据、无法整合、性能低下、可用性差、责任缺失、使用系统用户日益不满意IT的性能。

在做数据分析之前一般都应该初步对数据进行评估。初步数据评估通过数据报告来完成的,数据报告通常在准备把数据存入数据仓库时做一次,它是全面跨数据集的,它描述了数据结构、内容、规则、和关系的概况。通过应用统计方法返回一组关于数据的标准特征,包括数据类型、字段长度、列基数、粒度、值域、格式模式、隐含的规则、跨列和跨表的数据关系,以及这些关系的基数。初步评估报告的目的是获得对数据和环境的了解,并对数据的状况进行描述。数据报告应该如下:

access对比数据_数据仓库系列之数据质量管理相关推荐

  1. 两年数据对比柱形图_【系列课程】用Excel进行数据可视化组合图表的制作lt;二gt;...

    1 前言 上一节我们已经分享过组合图表制作的一些理论,今天我们就来实操忙,看看具体的制作过程. 2 常见组合图表制作的演示 双柱图:各个店铺两年销售额对比. ① 按照2020年销售额降序排列,因为这个 ...

  2. 星形和雪花模型_数据仓库多维数据模型设计

    建设数据模型既然是整个数据仓库建设中一个非常重要的关键部分,那么,怎么建设我们的数据仓库模型就是我们需要解决的一个问题.这里我们将要详细介绍如何创建适合自己的数据模型. 数据仓库建模方法 大千世界,表 ...

  3. 同时更改一条数据_数据仓库amp;面试总结

    一.数据仓库分为几层?负责什么职责?为什么要分层? 1.数据仓库分为4层: ODS层 (原始数据层) DWD层 (明细数据层) DWS层 (服务数据层) ADS层 (数据应用层) 2.主要负责职责,如 ...

  4. ccxt k线数据_机器学习系列:深度探秘K线结构新维度

    标星★公众号,第一时间获取最新研究 来源:光大证券金工团队独家授权 作者:胡骥聪 近期原创文章: ♥ 基于无监督学习的期权定价异常检测(代码+数据) ♥ 5种机器学习算法在预测股价的应用(代码+数据) ...

  5. 服务器管理器正在收集清单数据_数据仓库快速入门教程1简介

    数据仓库是从各种渠道收集和管理数据的技术,可提供有意义的业务洞察,战略性地使用数据. 它用于查询和分析而不是事务处理,是将数据转换为信息并及时向用户提供的过程. 决策支持数据库(数据仓库)与组织的运营 ...

  6. 数据仓库系列之数据质量管理

    数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量.因此数据仓库的数据质量建设是一些公司的重点工作. 一 ...

  7. python特征数据类型及常用操作对比总结_如何全面解析数据并创造数据故事

    介绍 "讲故事"的主意是极好的:将一个想法或事件变成一个故事.它将想法带进生活,并为其增添了乐趣.这发生在我们的日常生活中.无论我们陈述一个有趣的事件还是新发现,故事总是吸引听众和 ...

  8. spark读取hdfs路径下的数据_到底什么是数据湖

    随着移动互联网,物联网技术的发展,数据的应用逐渐从 BI 报表可视化往机器学习.预测分析等方向发展,即 BI 到 AI 的转变. 数据的使用者也从传统的业务分析人员转为数据科学家,算法工程师. 此外对 ...

  9. 清掉数据_学习之大数据项目笔记第七篇【数仓模块-日志预处理篇】

    1 需求说明 1.1 清洗过滤 1)去除json数据体中的废弃字段(这是前端开发人员在埋点设计方案变更后遗留的无用字段): "email" "phoneNbr" ...

最新文章

  1. Ubuntu 镜像使用帮助
  2. Tech·Ed 2006博客园聚会
  3. 如何提高在家办公的效率?
  4. shell test和find命令实例解析
  5. 世界农业巨头嘉吉-国际农民丰收节贸易会:解读与经验借鉴
  6. HarmonyOS之将SVG文件转换为XML文件
  7. 这世上有个词叫Crush,有多少人误把它当做Love
  8. vue 初始化请求例子_Vue实例初始化
  9. 关于iOS实现前台,后台,锁屏或关闭app语音播报
  10. 如何删除IOS--CISCO IFS简介
  11. 更改访问局域网win7计算机的用户,win7局域网共享设置 win7局域网共享设置方法...
  12. mysql.sock 路径_关于mysql.sock路径的问题
  13. 计算机应用毕业班主任鉴定,大学毕业的班主任评语
  14. 2022智源大会议程丨类脑计算前沿与挑战
  15. 键盘左右键改变css样式_CSS上的3D键盘键| 现在是现实
  16. 干货|Webhook配置钉钉/飞书机器人告警
  17. python通过接口判断公共节假日
  18. 部门平均工资mysql_按部门统计各工资级别的人数、平均工资。
  19. insmod与modprobe命令的区别及其相关命令
  20. 新上线的材料计算超算云平台Mcloud V2.0版本推出全新功能——web端工作流拖拽提交作业+便捷web端建模

热门文章

  1. 几种设计良好结构以提高.NET性能的方法
  2. 开源 , KoobooJson一款高性能且轻量的JSON框架
  3. .NET Core使用微软AI认知服务识别文字语言
  4. .Net Core中的日志组件(Logging)
  5. EntityFramework Core 2.0执行原始查询如何防止SQL注入?
  6. 揭晓新版《Windows Sysinternals实战指南》读书积赞活动
  7. 学习ASP.NET Core,怎能不了解请求处理管道[2]: 服务器在管道中的“龙头”地位
  8. 【BIM入门实战】Revit入门基础知识选择题带答案解析(116题)
  9. ArcGIS10.8中如何获取线状、面状数据的折点,并计算折点坐标?
  10. 【ArcGIS风暴】捕捉VS经典捕捉,谁更有用武之地?