数据清理-缺失值

数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。

缺失值

在处理数据时,会发现很多元组的一些属性没有记录值。可使用以下方法补充。
(1) 忽略元组:当缺少类标号时通常这样做。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它的性能特别差。采用忽略元组,则无法使用元组中的其它属性值,这些值有可能对数据分析很有用。
(2) 人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失很多值时,该方法可能行不通。
(3) 使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“unknown”或 -∞)替换。如果缺失的值都用如“unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值。因此,尽管该方法简单,但是并不十分可靠。
(4) 使用属性的中心度量(如均值或中位数)填充缺失值。对于正常的(对称的)数据分布而言,可以使用均值,而倾斜数据分布应该使用中位数。
(5) 使用与给定元组属同一类的所有样本的属性均值或中位数。如果给定类的数据分布是倾斜的,则中位数是更好的选择。
(6) 使用最可能的值填充缺失值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。例如,利用数据集中其他顾客的属性,可以构造一棵决策树,来预测income的缺失值。
方法3-6使数据有偏,填入的值可能不正确。方法6是最流行的策略。与其它方法相比,它使用已有数据的大部分信息来预测缺失值。
某些情况下,缺失值并不意味数据有错误。理想状况下,每个属性都应当有一个或多个关于空值条件的规则。这些规则可以说明是否允许空值,并且/或者说明这样的空值应当如何处理或转换。如果在业务处理的稍后步骤提供值,字段也可能故意留下空白。因此,尽管在得到数据后,我们可以进我们所能来清理数据,但好的数据库和数据输入设计将有助于在第一现场把缺失值或错误的数量降至最低。

转载于:https://www.cnblogs.com/EnzoDin/p/10720618.html

数据挖掘-数据清理-缺失值相关推荐

  1. 数据挖掘-数据清理过程

    数据清理-数据清理过程 数据清理过程的第一步是偏差检测(discrepancy detection). 导致偏差的因素有很多,包括: 具有很多可选字段的设计糟糕的输入表单 人为的数据输入错误 有意的错 ...

  2. 数据清理之重复值、缺失值的基本处理方法

    文章目录 数据去重 检测缺失值 缺失值的处理 删除 缺失值的填补替换 数据去重 python数据清洗中去重常用drop_duplicates函数,下面是它的参数说明 参数名称 说明 subset 接收 ...

  3. 数据挖掘(9-22):数据离散程度+数据清理+三大相关系数+数据库索引(数据库面试常问)+P值含义及理解

    1.衡量数据离散程度的统计量: 数据的离散程度即衡量一组数据的分散程度如何,其衡量的标准和方式有很多,而具体选择哪一种方式则需要依据实际的数据要求进行抉择. 首先针对不同的衡量方式的应用场景大体归纳如 ...

  4. 数据挖掘-数据预处理的必要性及主要任务

    数据预处理的必要性及主要任务 1.数据预处理的必要性 数据库极易受噪声.缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异构数据源.低质量的数据导致低质量的数据挖掘. 2.数据预处理技术 ( ...

  5. 【Python实战】数据预处理(数据清理、集成、变换、归约)

    [Python实战]数据预处理 前言 数据预处理概述 数据清理 异常数据处理 1.异常数据分析 2.异常数据处理方法 缺失值处理 噪声数据处理 数据集成 1.实体识别 2.冗余属性 3.数据不一致 数 ...

  6. 数据导入与预处理-第5章-数据清理

    数据导入与预处理-第5章-数据清理 1. 数据清理概述 1.1 数据清理概述 1.2 什么是缺失值 1.3 什么是重复值 1.4 什么是异常值 2. 数据清理案例 2.1 缺失值处理 2.1.1 缺失 ...

  7. 数据预处理—-(数据探索、数据清理、数据集成、数据规约、数据变换)

    数据挖掘概念与技术 定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价 第一章.数据 挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体 ...

  8. Python学习四: 连接数据库 与 数据清理

    连接数据库 准备工作 楼主这里用的一个轻量级关系型数据库,MySQL (这里楼主安装MySQL的时候遇到了一个小问题,没有兼容服务器,根据这个帖子可以解决这个问题  分享 | 安装 mysql 报错 ...

  9. 机器学习与数据挖掘——数据预处理

    如果有兴趣了解更多相关内容,欢迎来我的个人网站看看:瞳孔空间 一:关于数据预处理 在工程实践中,我们得到的数据会存在有缺失值.重复值等,在使用之前需要进行数据预处理.数据预处理没有标准的流程,通常针对 ...

最新文章

  1. 全球及中国汽车涂料市场前景态势与投资渠道分析报告2022版
  2. Node --- EventProxy的原理
  3. 网络编程基础--协程--greenlet切换---gevent自动识别 IO ---
  4. MVC实战之排球计分(六)—— 使用EF框架,创建Controller,生成数据库。
  5. 对轻量级C++日志类[转]
  6. AngularJS支持的事件
  7. 拓端tecdat|python图工具中基于随机块模型动态网络社团检测
  8. JS处理数据四舍五入
  9. mysql delphi5_Delphi 7连接MySql 5.5.15
  10. 常用win10优化工具(后续继续更新)
  11. ArduinoUNO实战-第十二章-累加器实验
  12. Gentoo 软件包冲突
  13. 转发:上海软件公司排行 (估计是2008年的吧)
  14. 牛客 BL1 扭蛋机
  15. android证书在线生成方法
  16. 中国农业大学专业学位计算机,中国农业大学(专业学位)计算机技术研究生考试科目和考研参考书目...
  17. 软件工程-第1章 绪论
  18. 运行mybatis时显示报错:Error updating database. Cause: java.sql.SQLException: Error setting driver on
  19. R语言学习笔记——向量
  20. 如何在ArcGIS中应用七参数对影像进行坐标投影变换

热门文章

  1. 1. 根据输出的数据,对各个阶维度的反推+2.tf中生成根据指定的shape,tensor的各个阶的维度判断
  2. 银行死都不告诉你的10个秘密
  3. 两个fetion飞信API
  4. 漫步最优化三十九——Fletcher-Reeves法
  5. python基础教程博客_Python基础教程_Python入门知识
  6. modbus连续读取时数据不正确_维纶触摸屏控制变频器是通过触摸屏与变频器之间的Modbus通信实现...
  7. 声纹识别中的召回和精度概念
  8. android系统存储路径在哪里,Android 手机存储目录
  9. P1948 [USACO08JAN]Telephone Lines S(二分+spfa)
  10. 备战蓝桥杯—枚举——[USACO Nov08]成交