所谓的数据清洗就是指对各种“脏数据”进行对应方式的处理,以得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。当数据中出现了缺失值之后,缺失值会造成系统丢失大量有用信息,系统表现出不确定性,也会使得挖掘混乱,处理缺失值方法如下:

  1. 不处理
  2. 删除
  3. 数据插补

1. 不处理

采用不精确信息处理数据的不完备性已得到了广泛的研究,不完备数据的表达方法所依据的理论主要有可信度理论、模糊集合论等等。

2.删除

分为成对删除与成列删除。成列删除会减少样本数量,该方法适用于某些样本有多个特征值存在缺失值,且存在缺失值的样本占整个集样本数量的比例不高的情形。
如果成对删除,适用于对数据分析的目标影响不大的情况下进行删除。

3.数据插补

  1. 人工补齐:自己想怎么补就怎么补
  2. 特殊值补:比如用null值
  3. 平均值补:先求个平均值,然后填充缺失值
  4. 插值法:利用数学方法计算缺失值的估计值进行插值

另外插补的有:

  • 热卡填充(就近填充)
  • k最近邻算法
  • 使用所有可能的填充
  • 组合完整化法
  • 回归
  • 期望值最大化法
  • 多重填补
  • C4.5法

参考文献

康华强著高等数学-基于pytho实现.北京:北京工业出版社,2020.7

统计|如何处理数据处理中的缺失值?相关推荐

  1. python处理csv文件缺失值_Python:如何处理CSV中的缺失值?

    我有一个给定的CSV示例,如下所示: ID,ID_TYPE,OB_DATE,VERSION_NUM,MET_DOMAIN_NAME,OB_END_CTIME,OB_DAY_CNT,SRC_ID,REC ...

  2. R语言dataframe数据列中的缺失值NA的个数统计实战:特定数据列的NA值统计、所有特征的NA值统计

    R语言dataframe数据列中的缺失值NA的个数统计实战:特定数据列的NA值统计.所有特征的NA值统计 目录

  3. 独家 | 在机器学习中利用统计插补来处理缺失值(附代码)

    作者:Jason Brownlee 翻译:吴振东 校对:冯羽 本文约4500字,建议阅读10分钟 本文以病马数据集为例,帮助你了解在机器学习领域如何利用统计策略来处理缺失值,对代码进行了较为详细的讲解 ...

  4. python 数据框缺失值_Python:处理数据框中的缺失值

    python 数据框缺失值 介绍 (Introduction) In the last article we went through on how to find the missing value ...

  5. 竞赛专题 | 数据预处理-如何处理数据中的坑?

    点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.Data ...

  6. 从重采样到数据合成:如何处理机器学习中的不平衡分类问题?

    从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 2017-03-19 13:17 来源:机器之心 技术 原标题:从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 选自Analytic ...

  7. 从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载 2017年08月01日 17:09:03 标签: 机器学习 / 数据 719 转自:http://www.sohu.com/a/12

    从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载 2017年08月01日 17:09:03 标签: 机器学习 / 数据 719 转自:http://www.sohu.com/a/1293 ...

  8. Python:在Pandas数据框中查找缺失值

    How to find Missing values in a data frame using Python/Pandas 如何使用Python / Pandas查找数据框中的缺失值 介绍: (In ...

  9. 第十七期:详解大数据处理中的Lambda架构和Kappa架构

    在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件.   典型互联网 ...

最新文章

  1. C# 给枚举类型增加一个备注特性
  2. [图文] Fedora 28 使用 Virt-Manager 创建 KVM 虚拟机以及 配置 KVM 虚拟机
  3. 追梦软件路,愿不忘初心
  4. 二:C#对象、集合、DataTable与Json内容互转示例;
  5. 当使用tensorflow时出现“the requested device apperas to be a GPU, but CUDA is not enabled”的解决办法
  6. python如何对excel排序_Python操作Excel之分组排序
  7. LINUX下载编译Paho-Mqtt-C
  8. android camera调试打印信息,Android : 高通平台Camera调试
  9. 【第144期】游戏策划:恭喜@毛毛团入职游戏策划
  10. RGB565 转 HSV C语言实现
  11. 零基础快速做一个语音控制系统
  12. IT技术员的发展方向和晋升秘笈
  13. PyQt6 使用 QAxWidget 打开 IE/Word
  14. boost::geometry简介,真香
  15. Selenium元素定位神器工具谷歌浏览器插件-ChroPath介绍,安装与使用
  16. 在同一台机运行多个mysql 服务 多个主/从在同一主机_[ 原创 ]在同一台机运行多个Mysql 服务 多个主/从在同一主机...
  17. linux求两个文件的交集,并集,差集
  18. 武汉汉江:3大“区块链”项目集中签约,2022年培育50家区块链技术研究、应用类企业
  19. 如何把html和css 结合,css-css和html的结合方式(四种结合方式)
  20. 苹果cmsV10高端大气简洁网站模板带后台好看的自适应模板

热门文章

  1. 开关电源200W/12V/24V
  2. 程序员进入发展瓶颈?孤独?迷芒反思
  3. 循环冗余校验(CRC)算法入门引导
  4. 仓库管理系统/课程设计/ASP.NET/
  5. 浙江大学求是科学班计算机,浙大校友网
  6. 清除dllcache的方法
  7. 图像处理:如何统计图像中某物体个数-完整C++代码
  8. 《小成本对付宽带我世界实现有线/无线同时上网》配置要点
  9. 昨夜无眠 转自科学网程代展博文] (2012-11-13 21:09:13)
  10. 关于vegas pro 16崩溃问题