数据质量
数据挖掘使用的数据一般是为其它用途收集或者收集的时候还没有明白目的。

因此数据经常不能在数据的源头控制质量。为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检測和纠正(数据清理);使用能够容忍低质量数据的算法。

測量和数据收集问题
完美的数据在实际中差点儿是不存在的,对于存在的数据质量问题,我们先定义測量误差和数据收集错误,然后考虑測量误差的各种问题:噪声,伪像。偏倚,精度和精确度。

接着讨论測量和数据收集的数据质量问题:离群点,遗漏和不一致的值,反复数据。

測量误差(measurements error)是指測量过程中导致的问题,如:记录的值与实际的值不同样。
数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,或不当地包括了其它数据对象等错误。如:特定的物种研究可能混入相似物种的数据。測量和数据收集错误可能是系统的也可能是随机的。
噪声是測量误差的随即部分,如2-5显示被随机噪声干扰后的时间序列,假设噪声很的多,甚至会掩盖原有的数据。
图2-6显示的三组被加入噪声点前后的数据点集。
噪声通经常使用于包括时间或空间分量的数据,在这些情况下,能够使用图形或信号处理技术来降噪,但全然的消除是很困难的。所以数据挖掘都关注涉及鲁棒算法(robust algorithm),即在有噪声干扰下也能产生被接受的结果。数据错误也可能是更确定性现象的结果,如一组数据在同一个地方出现同样的错误。这样的确定性失真称作伪像(artifact)
精度(precision):反复測量值之间的接近程度
偏倚(bias):測量值与被測量值之间的系统的变差
假定我们有1克的标准砝码,想评估新天平的精度和偏倚,称重5次得到{1.015 , 0990 , 1.013 , 1.001,0.986}这些值的平均值是1.001,因此偏倚是0.001,。用标准差度量。精度是0.013.
准确率:被測量的測量值与实际值之间的接近度。
准确度依赖于精度和偏倚,还有一个重要的方面是有效数字(significant digit)的使用,其目的是仅使用数据准确度所能确定的数字位数表示測量或计算结果。
离群点(outlier)是在某种意义上具有不同与数据集 中其它 大部分 数据对象的特征 的数据对象。或是相对于该属性的典型值来说不平常的属性值。

称为异常(anomalous)对象或异常值。

须要注意的是差别噪声和离群点:离群点能够是合法的数据对象或值。因此不像噪声,离群点本身是人们感兴趣的对象。

遗漏值
一个对象遗漏一个或多个属性值的情况还是非常寻常的。有时甚至还会出现信息收集不全的情况。

但不管何种情况,在数据分析时都应当考虑遗漏值。

那怎么应对遗漏值:

  • 删除数据对象或属性
  • 预计遗漏值
  • 分析时忽略遗漏值
不一致的值
数据可能包括不一致的值,如:帐号和password由于手误填写错误等。不管是什么原因导致不一致的值。重要是能检測出来,而且纠正。
反复数据
数据集可能包括反复的数据对象,对于反复的数据一般都进行检測和删除。但做这些步骤之前,得处理两个问题:假设两个对象实际代表同一个对象,则相应的属性值必定不同。必须解决这些不一致的值。

须要避免意外将两个相似但不反复的数据对象合并在一起;去反复(deduplication)通常表示这一过程。

转载于:https://www.cnblogs.com/jzssuanfa/p/7142178.html

【数据挖掘导论】——数据质量相关推荐

  1. 数据挖掘导论 复习一(介绍+数据预处理方法+定性归纳)

    数据挖掘=数据库+机器学习 算法 经验 模型 机器学习任务:分类.回归.聚类(KMeans.DCSAN.层次聚类).数据降维.数据预处理 常用分类器:KNN.贝叶斯. 逻辑回归 .决策树.随机森林 本 ...

  2. 《数据挖掘导论》- 读书笔记(3)- 数据

    本文转载自:https://www.cnblogs.com/pythonMLer/p/5751516.html 第2章 数据 本章讨论一些与数据相关的问题,对于数据挖掘的成本至关重要. 数据类型 数据 ...

  3. 《数据挖掘导论》 - 读书笔记(3) - 数据 [2016-8-13]

    第2章 数据 本章讨论一些与数据相关的问题,对于数据挖掘的成本至关重要. 数据类型 数据集的不同表现在很多方面.例如,用来描述数据对象的属性可以具有不同的类型---定量的或定性的,并且数据集可能具有特 ...

  4. 数据挖掘导论Pangaea-Ning Tan 读书笔记——(第一,二,三章)

    <数据挖掘导论>Pang-Ning Tan ,Michael Steinbach,Vipin Kumar 读书笔记, 第一章 绪论 数据挖掘任务 预测任务 描述任务 分类任务 回归任务 聚 ...

  5. 数据挖掘(一)你真的了解什么是数据挖掘和数据本身吗?

    自己之所以会产生自学机器学习的念头,其实完全是因为自己对数据挖掘的兴趣,因为在我的内心一直坚信这么一个逻辑:任何事情背后都有其一定的模式,不同的情况只是对应于某些条件的不同.所以找出这样一个模式,是解 ...

  6. 视频教程-数据分析与数据挖掘导论(R语言)-MySQL

    数据分析与数据挖掘导论(R语言) 叶梓,博士.高级工程师.上海交通大学计算机专业博士毕业,主研方向为数据挖掘.机器学习.人工智能等.现为某大型上市软件企业的人工智能团队技术负责人 叶梓 ¥199.00 ...

  7. 《数据挖掘导论》学习笔记(第1-2章)

    本文主要是在学习<数据挖掘导论(完整版)>中的学习笔记,主要用来梳理思路,并没有多少思考,我尽量会在后期多弥补这方面的不足. 第1章 绪论 1.1 什么是数据挖掘 KDD: K nowle ...

  8. 《数据挖掘导论》学习笔记:第1-2章

    本文转载自:https://blog.csdn.net/u013232035/article/details/48281659 本文主要是在学习<数据挖掘导论(完整版)>中的学习笔记,主要 ...

  9. 《Python数据分析与挖掘实战》一3.1 数据质量分析

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

最新文章

  1. python中字典的find_python-re.findall返回命名捕获组的字典?
  2. 前端工程化系列[03]-Grunt构建工具的运转机制
  3. Raider对F#支持的技术细节
  4. python算法题_python基本算法题(一)
  5. String | 263. Ugly Number
  6. 汽车行业持续亏损?奥迪:不存在的
  7. AD16更改器件封装如管脚间距等常规设置
  8. 介绍4个大神常用而你不常用的python函数--assert,map,filter,reduce
  9. windows核心编程第一章阅读
  10. mybatis入门截图四(订单商品数据模型-懒加载-缓存)
  11. MAC docker 使用阿里加速器
  12. 输入输出工具技术(ITTO)要背吗?——软考高项笔记8
  13. 随机效应估算与固定效应估算_面板工具变量法学习手册(固定效应与随机效应方法、过度识别检验、预测等)...
  14. puppet知识简记
  15. dfuse for EOSIO 架构剖析:架构总览
  16. 微信二维码无法下载APK解决方案
  17. 勘误《新概念》III
  18. 读薄《高性能MySql》(三)索引优化
  19. B2B商业模式以及交易模式
  20. 基于朴素贝叶斯+Python实现垃圾邮件分类和结果分析

热门文章

  1. 操作系统时间片轮换_《操作系统_时间片轮转RR进程调度算法》
  2. 旧版Requests库
  3. css鼠标移入线条延中心伸长,css动画效果:鼠标移上去底部线条从中间往两边延伸 - 子成君-分享出去,快乐加倍!-旧版已停更...
  4. excel随机抽取_简单随机抽样及其进阶分层随机抽样方法展示
  5. C语言代码注释必须用/**/ , 你没看错~
  6. 在switch语句中,case后的标号只能是什么?
  7. python一个函数调用另一个函数_在Python中将函数作为另一个函数的参数传入并调用的方法...
  8. idea 自动生成mybaits_怎么让idea自动创建mybatis配置文件
  9. mysql error handler_MySql错误处理(二) - Condition Handle
  10. 工业以太网交换机可以家用吗?