机器学习数据预处理之缺失值:众数(mode)填充

garbage in, garbage out.

没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。

众数:是统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。 修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用 M 表示。 理性理解:简单的说,就是一组数据中占比例最多的那个数。

中数:中数是按顺序排列在一起的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。

df11.mode()

# 仿真数据集;

import numpy as np
import pandas as pd# 构造数据
def dataset():col1 = [1, 2, 3, 4, 5, 6, 7, 8, 9,10]col2 = [3, 1, 7, np.nan, 4, 0, 5, 7, 12, np.nan]col3 = [3, np.nan, np.nan, np.nan, 9, np.nan, 10, np.nan, 4, np.nan]y = [10, 15, 8, 12, 17, 9, 7, 14,

机器学习数据预处理之缺失值:众数(mode)填充相关推荐

  1. 机器学习数据预处理之缺失值:预测填充(回归模型填充、分类模型填充)

    机器学习数据预处理之缺失值:预测填充(回归模型填充.分类模型填充) garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题 ...

  2. 机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值

    机器学习数据预处理之缺失值:插值法填充+ lagrange插值+拉格朗日插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常 ...

  3. 机器学习数据预处理之缺失值:插值法填充+多项式插值

    机器学习数据预处理之缺失值:插值法填充+多项式插值 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例 ...

  4. 机器学习数据预处理之缺失值:中位数填充

    机器学习数据预处理之缺失值:中位数填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直 ...

  5. 机器学习数据预处理之缺失值:最小值最大值填充

    机器学习数据预处理之缺失值:最小值最大值填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时 ...

  6. 机器学习数据预处理之缺失值:固定值填充

    机器学习数据预处理之缺失值:固定值填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直 ...

  7. 机器学习数据预处理之缺失值:前向填充

    机器学习数据预处理之缺失值:前向填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...

  8. 机器学习数据预处理之缺失值:后向填充

    机器学习数据预处理之缺失值:后向填充 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...

  9. 机器学习数据预处理之缺失值:特征删除

    机器学习数据预处理之缺失值:特征删除 garbage in, garbage out. 没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一.当缺失比例很小时,可直接 ...

最新文章

  1. poj2305-Basic remains(进制转换 + 大整数取模)
  2. 学习ansible playbook之前先了解下YAML语法
  3. 不写画面的网页程序设计,Web API、Web Service、WCF Service
  4. boost::mpl模块AUX_ASSERT_IS_SEQ的测试程序
  5. canvas-a13prototype.html
  6. leetcode 480. 滑动窗口中位数(堆+滑动窗口)
  7. Dubbo基本原理机制
  8. 虚拟机体验苹果系统.Mac OS X On VMware.[Intel/AMD]版本
  9. 基于JAVA+SpringMVC+MYSQL的医院皮试管理系统
  10. java 图片特效_强大的Java图像滤镜特效类库Java Image Filters
  11. 使用ActiveSync同步WinCE设备,并在局域网中调试网络程序
  12. Python-基于OpenCV的轮廓填充 泛洪算法 孔洞填充
  13. 小程序中关于红包雨的实现
  14. Java进程CPU使用率高排查
  15. Odoo产品分析 (三) -- 人力资源板块(1) -- 员工目录(1)
  16. 【mcuclub】温湿度传感器DHT11
  17. go语言基础之浮点数
  18. python语言和汇编语言_python语言属于汇编语言吗?_后端开发
  19. flash as3.0 五子棋的游戏制作
  20. 纯C语言用Windows api写画函数图像

热门文章

  1. queue 常见方法
  2. 和至少为k的最短子数组 python_LeetCode 862. 和至少为 K 的最短子数组
  3. 【swjtu】数据结构实验5_基于十字链表的稀疏矩阵转置
  4. OpenCV 4.5.2 发布
  5. CVPR 2020 SLAM挑战赛冠军方案解读,搞定超难数据集TartanAir
  6. 最新!全球学术排名出炉:18所中国大学位居世界100强
  7. Navicat客户端PostgreSQL连接报错:Could not connect to server:Connection refused(0x00002740/10061)
  8. 其他算法-比例风险回归模型
  9. 决策树算法(三)——计算香农熵
  10. WPF加载相对路径的图片的解决方法