机器学习数据预处理之缺失值:中位数填充

garbage in, garbage out.

没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。

中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。

使用统计中位数进行数值填充:

df.median()

# 仿真数据集;

import numpy as np
import pandas as pd# 构造数据
def dataset():col1 = [1, 2, 3, 4, 5, 6, 7, 8, 9,10]col2 = [3, 1, 7, np.nan, 4, 0, 5, 7, 12, np.nan]col3 = [3, np.nan, np.nan, np.nan, 9, np.nan, 10, np.nan, 4, np.nan]y = [10, 15, 8, 12, 17, 9, 7, 14,

机器学习数据预处理之缺失值:中位数填充相关推荐

  1. 机器学习数据预处理之缺失值:预测填充(回归模型填充、分类模型填充)

    机器学习数据预处理之缺失值:预测填充(回归模型填充.分类模型填充) garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题 ...

  2. 机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值

    机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常 ...

  3. 机器学习数据预处理之缺失值:插值法填充+多项式插值

    机器学习数据预处理之缺失值:插值法填充+多项式插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例 ...

  4. 机器学习数据预处理之缺失值:众数(mode)填充

    机器学习数据预处理之缺失值:众数(mode)填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很 ...

  5. 机器学习数据预处理之缺失值:最小值最大值填充

    机器学习数据预处理之缺失值:最小值最大值填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时 ...

  6. 机器学习数据预处理之缺失值:固定值填充

    机器学习数据预处理之缺失值:固定值填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直 ...

  7. 机器学习数据预处理之缺失值:前向填充

    机器学习数据预处理之缺失值:前向填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...

  8. 机器学习数据预处理之缺失值:后向填充

    机器学习数据预处理之缺失值:后向填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...

  9. 机器学习数据预处理之缺失值:特征删除

    机器学习数据预处理之缺失值:特征删除 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...

最新文章

  1. 宜信开源|数据库审核软件Themis的规则解析与部署攻略
  2. 安装部署及升级到Exchange Server 2010
  3. enum-使用宏管理你的枚举型数据
  4. 1QPushButton的使用,QLineEdit的使用,设置组件位置,布局(QHBoxLayout,QGridLayout)
  5. 循环结构程序设计(算法竞赛入门经典)课后题
  6. 虚拟机vmware的连接方式以及IP端口,协议等概念
  7. P2P中的NAT穿越方案简介
  8. C++中在浏览器打开html文件
  9. shocked的歌曲 类似shell_Shell Shocked
  10. 微信测试公众号-jssdk基本配置和使用-thinkphp
  11. 泛微oa主表赋值明细表_OA系统学习--三
  12. oracle的concat的用法
  13. Eigen中 EIGEN_MAKE_ALIGNED_OPERATOR_NEW_IF的使用方式_C/C++中的预编译简介
  14. 1024程序员节 | 近300本python电子书推荐
  15. 如何用Java将DWG和DXF文件转换为PDF?看了这篇就懂了
  16. tsx实现适配vue3的滚动列表插件
  17. 怎么修改服务器上的分数,在服务器上设置 WinSAT 分数
  18. 厦门大学计算机英语考试,【图片】一战厦大计算机上岸,经验帖。慢更【考研吧】_百度贴吧...
  19. 一次大文件上传失败的排查
  20. “深入理解计算机系统”小组学习的Task01-学习日志

热门文章

  1. 顺序表-元素逆置(首尾交换)
  2. 单链表-逆置单链表(头插法且双指针)
  3. Python3 网络编程(转载)
  4. 【总结】清除webbrowser cookie/session的6种方法
  5. 实践教程|如何用YOLOX训练自己的数据集?
  6. 不用GPU,稀疏化也能加速你的YOLOv3深度学习模型
  7. 中自苏研院2021招聘季开始啦!
  8. 基于PHP的图片共享网站设计,基于PHP实现的WEB图片共享系统(SQL数据库),毕业论文设计...
  9. linux命令学习(转)
  10. TensorFlow please use urllib or similar directly错误。