统计|如何处理数据处理中的缺失值?
所谓的数据清洗就是指对各种“脏数据”进行对应方式的处理,以得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。当数据中出现了缺失值之后,缺失值会造成系统丢失大量有用信息,系统表现出不确定性,也会使得挖掘混乱,处理缺失值方法如下:
- 不处理
- 删除
- 数据插补
1. 不处理
采用不精确信息处理数据的不完备性已得到了广泛的研究,不完备数据的表达方法所依据的理论主要有可信度理论、模糊集合论等等。
2.删除
分为成对删除与成列删除。成列删除会减少样本数量,该方法适用于某些样本有多个特征值存在缺失值,且存在缺失值的样本占整个集样本数量的比例不高的情形。
如果成对删除,适用于对数据分析的目标影响不大的情况下进行删除。
3.数据插补
- 人工补齐:自己想怎么补就怎么补
- 特殊值补:比如用null值
- 平均值补:先求个平均值,然后填充缺失值
- 插值法:利用数学方法计算缺失值的估计值进行插值
另外插补的有:
- 热卡填充(就近填充)
- k最近邻算法
- 使用所有可能的填充
- 组合完整化法
- 回归
- 期望值最大化法
- 多重填补
- C4.5法
参考文献
康华强著高等数学-基于pytho实现.北京:北京工业出版社,2020.7
统计|如何处理数据处理中的缺失值?相关推荐
- python处理csv文件缺失值_Python:如何处理CSV中的缺失值?
我有一个给定的CSV示例,如下所示: ID,ID_TYPE,OB_DATE,VERSION_NUM,MET_DOMAIN_NAME,OB_END_CTIME,OB_DAY_CNT,SRC_ID,REC ...
- R语言dataframe数据列中的缺失值NA的个数统计实战:特定数据列的NA值统计、所有特征的NA值统计
R语言dataframe数据列中的缺失值NA的个数统计实战:特定数据列的NA值统计.所有特征的NA值统计 目录
- 独家 | 在机器学习中利用统计插补来处理缺失值(附代码)
作者:Jason Brownlee 翻译:吴振东 校对:冯羽 本文约4500字,建议阅读10分钟 本文以病马数据集为例,帮助你了解在机器学习领域如何利用统计策略来处理缺失值,对代码进行了较为详细的讲解 ...
- python 数据框缺失值_Python:处理数据框中的缺失值
python 数据框缺失值 介绍 (Introduction) In the last article we went through on how to find the missing value ...
- 竞赛专题 | 数据预处理-如何处理数据中的坑?
点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.Data ...
- 从重采样到数据合成:如何处理机器学习中的不平衡分类问题?
从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 2017-03-19 13:17 来源:机器之心 技术 原标题:从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 选自Analytic ...
- 从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载 2017年08月01日 17:09:03 标签: 机器学习 / 数据 719 转自:http://www.sohu.com/a/12
从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载 2017年08月01日 17:09:03 标签: 机器学习 / 数据 719 转自:http://www.sohu.com/a/1293 ...
- Python:在Pandas数据框中查找缺失值
How to find Missing values in a data frame using Python/Pandas 如何使用Python / Pandas查找数据框中的缺失值 介绍: (In ...
- 第十七期:详解大数据处理中的Lambda架构和Kappa架构
在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件. 典型互联网 ...
最新文章
- C# 给枚举类型增加一个备注特性
- [图文] Fedora 28 使用 Virt-Manager 创建 KVM 虚拟机以及 配置 KVM 虚拟机
- 追梦软件路,愿不忘初心
- 二:C#对象、集合、DataTable与Json内容互转示例;
- 当使用tensorflow时出现“the requested device apperas to be a GPU, but CUDA is not enabled”的解决办法
- python如何对excel排序_Python操作Excel之分组排序
- LINUX下载编译Paho-Mqtt-C
- android camera调试打印信息,Android : 高通平台Camera调试
- 【第144期】游戏策划:恭喜@毛毛团入职游戏策划
- RGB565 转 HSV C语言实现
- 零基础快速做一个语音控制系统
- IT技术员的发展方向和晋升秘笈
- PyQt6 使用 QAxWidget 打开 IE/Word
- boost::geometry简介,真香
- Selenium元素定位神器工具谷歌浏览器插件-ChroPath介绍,安装与使用
- 在同一台机运行多个mysql 服务 多个主/从在同一主机_[ 原创 ]在同一台机运行多个Mysql 服务 多个主/从在同一主机...
- linux求两个文件的交集,并集,差集
- 武汉汉江:3大“区块链”项目集中签约,2022年培育50家区块链技术研究、应用类企业
- 如何把html和css 结合,css-css和html的结合方式(四种结合方式)
- 苹果cmsV10高端大气简洁网站模板带后台好看的自适应模板