【数据挖掘导论】—

数据质量

数据挖掘使用的数据一般是为其它用途收集或者收集的时候还没有明白目的。

因此数据经常不能在数据的源头控制质量。为了避免数据质量的问题，所以数据挖掘着眼于两个方面：数据质量问题的检測和纠正（数据清理）；使用能够容忍低质量数据的算法。

測量和数据收集问题

完美的数据在实际中差点儿是不存在的，对于存在的数据质量问题，我们先定义測量误差和数据收集错误，然后考虑測量误差的各种问题：噪声，伪像。偏倚，精度和精确度。

接着讨论測量和数据收集的数据质量问题：离群点，遗漏和不一致的值，反复数据。

測量误差（measurements error）是指測量过程中导致的问题，如：记录的值与实际的值不同样。

数据收集错误（data collection error）是指诸如遗漏数据对象或属性值，或不当地包括了其它数据对象等错误。如：特定的物种研究可能混入相似物种的数据。測量和数据收集错误可能是系统的也可能是随机的。

噪声是測量误差的随即部分，如2-5显示被随机噪声干扰后的时间序列，假设噪声很的多，甚至会掩盖原有的数据。

图2-6显示的三组被加入噪声点前后的数据点集。

噪声通经常使用于包括时间或空间分量的数据，在这些情况下，能够使用图形或信号处理技术来降噪，但全然的消除是很困难的。所以数据挖掘都关注涉及鲁棒算法（robust algorithm），即在有噪声干扰下也能产生被接受的结果。数据错误也可能是更确定性现象的结果，如一组数据在同一个地方出现同样的错误。这样的确定性失真称作伪像（artifact）

精度（precision）：反复測量值之间的接近程度

偏倚（bias）：測量值与被測量值之间的系统的变差

假定我们有1克的标准砝码，想评估新天平的精度和偏倚，称重5次得到｛1.015 , 0990 , 1.013 , 1.001，0.986｝这些值的平均值是1.001，因此偏倚是0.001,。用标准差度量。精度是0.013.

准确率：被測量的測量值与实际值之间的接近度。

准确度依赖于精度和偏倚，还有一个重要的方面是有效数字（significant digit）的使用，其目的是仅使用数据准确度所能确定的数字位数表示測量或计算结果。

离群点（outlier）是在某种意义上具有不同与数据集中其它大部分数据对象的特征的数据对象。或是相对于该属性的典型值来说不平常的属性值。

称为异常（anomalous）对象或异常值。

须要注意的是差别噪声和离群点：离群点能够是合法的数据对象或值。因此不像噪声，离群点本身是人们感兴趣的对象。

遗漏值

一个对象遗漏一个或多个属性值的情况还是非常寻常的。有时甚至还会出现信息收集不全的情况。

但不管何种情况，在数据分析时都应当考虑遗漏值。

那怎么应对遗漏值：

删除数据对象或属性
预计遗漏值
分析时忽略遗漏值

不一致的值

数据可能包括不一致的值，如：帐号和password由于手误填写错误等。不管是什么原因导致不一致的值。重要是能检測出来，而且纠正。

反复数据

数据集可能包括反复的数据对象，对于反复的数据一般都进行检測和删除。但做这些步骤之前，得处理两个问题：假设两个对象实际代表同一个对象，则相应的属性值必定不同。必须解决这些不一致的值。

须要避免意外将两个相似但不反复的数据对象合并在一起；去反复（deduplication）通常表示这一过程。

转载于:https://www.cnblogs.com/jzssuanfa/p/7142178.html

【数据挖掘导论】——数据质量相关推荐

数据挖掘导论复习一（介绍+数据预处理方法+定性归纳）
数据挖掘=数据库+机器学习算法经验模型机器学习任务:分类.回归.聚类(KMeans.DCSAN.层次聚类).数据降维.数据预处理常用分类器:KNN.贝叶斯. 逻辑回归 .决策树.随机森林本 ...
《数据挖掘导论》- 读书笔记（3）- 数据
本文转载自:https://www.cnblogs.com/pythonMLer/p/5751516.html 第2章数据本章讨论一些与数据相关的问题,对于数据挖掘的成本至关重要. 数据类型数据 ...
《数据挖掘导论》 - 读书笔记(3) - 数据 [2016-8-13]
第2章数据本章讨论一些与数据相关的问题,对于数据挖掘的成本至关重要. 数据类型数据集的不同表现在很多方面.例如,用来描述数据对象的属性可以具有不同的类型---定量的或定性的,并且数据集可能具有特 ...
数据挖掘导论Pangaea-Ning Tan 读书笔记——（第一，二，三章）
<数据挖掘导论>Pang-Ning Tan ,Michael Steinbach,Vipin Kumar 读书笔记, 第一章绪论数据挖掘任务预测任务描述任务分类任务回归任务聚 ...
数据挖掘（一）你真的了解什么是数据挖掘和数据本身吗？
自己之所以会产生自学机器学习的念头,其实完全是因为自己对数据挖掘的兴趣,因为在我的内心一直坚信这么一个逻辑:任何事情背后都有其一定的模式,不同的情况只是对应于某些条件的不同.所以找出这样一个模式,是解 ...
视频教程-数据分析与数据挖掘导论（R语言）-MySQL
数据分析与数据挖掘导论(R语言) 叶梓,博士.高级工程师.上海交通大学计算机专业博士毕业,主研方向为数据挖掘.机器学习.人工智能等.现为某大型上市软件企业的人工智能团队技术负责人叶梓 ¥199.00 ...
《数据挖掘导论》学习笔记（第1-2章）
本文主要是在学习<数据挖掘导论(完整版)>中的学习笔记,主要用来梳理思路,并没有多少思考,我尽量会在后期多弥补这方面的不足. 第1章绪论 1.1 什么是数据挖掘 KDD: K nowle ...
《数据挖掘导论》学习笔记：第1-2章
本文转载自:https://blog.csdn.net/u013232035/article/details/48281659 本文主要是在学习<数据挖掘导论(完整版)>中的学习笔记,主要 ...
《Python数据分析与挖掘实战》一3.1　数据质量分析
本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者张良均王路谭立云苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

【数据挖掘导论】——数据质量

【数据挖掘导论】——数据质量相关推荐

最新文章

热门文章