数据缺失值补全方法sklearn.impute.SimpleImputer

imp=SimpleImputer(missing_values=np.nan,strategy=’mean’)

创建该类的对象,missing_values,也就是缺失值是什么,一般情况下缺失值当然就是空值啦,也就是np.nan

strategy:也就是你采取什么样的策略去填充空值,总共有4种选择。分别是mean,median, most_frequent,以及constant,这是对于每一列来说的,如果是mean,则该列则由该列的均值填充。而median,则是中位数,most_frequent则是众数。需要注意的是,如果是constant,则可以将空值填充为自定义的值,这就要涉及到后面一个参数了,也就是fill_value。如果strategy=‘constant’,则填充fill_value的值。
imp.fit(df)
#df为read_csv和table读取的文件返回的变量,该方法提供中位数,均值等数据补全方法,采用什么方法补全取决于创建对象时参数strategy的参数值。如mean为均值填充
df = imp.transform(df)
#开始填充(按照每一列的内容,根据前面确定的填充方案填充该列缺少的数据)

例如:下面有的是自定义的数据填充

from sklearn.impute import SimpleImputer
import pandas as pd
import numpy as npfile = '班级作业提交情况1.csv'
df = pd.read_table(file, delimiter=',',header=None)
imp = SimpleImputer(missing_values=np.nan, strategy='constant',fill_value='1')
imp.fit(df)
df = imp.transform(df)
print(type(df))
print(df)


结果为

通过索引查出谁没交作业

from sklearn.impute import SimpleImputer
import pandas as pd
import numpy as npfile = '班级作业提交情况1.csv'
df = pd.read_table(file, delimiter=',',header=None)
imp = SimpleImputer(missing_values=np.nan, strategy='constant',fill_value='1')
imp.fit(df)
df = imp.transform(df)
x = (df[:,3] == "0")
print("Second_work没交",df[x,0])
x = (df[:,4] == "0")
print("Fouth_work没交",df[x,0])

结果为

sklearn.impute.SimpleImputer 数据填充相关推荐

  1. 数据缺失值补全方法 sklearn.impute.SimpleImputer 使用实例

    一.环境 Python 3.7.3(Anaconda 3) sklearn.version'0.20.3' 二.方法 对数据中的缺失值进行插补 官方说明:https://scikit-learn.or ...

  2. sklearn.impute.SimpleImputer

    官方:link class sklearn.impute.SimpleImputer(*, missing_values=nan, strategy='mean', fill_value=None, ...

  3. Sklearn Impute SimpleImputer 处理缺失值

    Sklearn 有专门处理缺失值的模块 sklearn.impute.SimpleImputer,本文将探究如何用 Sklearn 中的预处理模块中的 Impute.SimpleImputer 处理缺 ...

  4. python.pandas数据清洗(数据填充与条件删除)

    在数据挖掘中,数据清洗占很大一部分工作,数据清洗是一件比较繁琐的事情. 本文介绍一下问题的解决方案: 1. 读入csv文件,条件过滤缺失值的行或者列 2. DataFrame数据的缺失值填充 3. A ...

  5. sklearn实战-----3.数据预处理和特征工程

    1 概述 1.1 数据预处理与特征工程 想象一下未来美好的一天,你学完了菜菜的课程,成为一个精通各种算法和调参调库的数据挖掘工程师了.某一天 你从你的同事,一位药物研究人员那里,得到了一份病人临床表现 ...

  6. 使用Sklearn库学习数据预处理和特征工程

    目录 1,概述 1.1,数据预处理和特征工程 1.2,sklearn中的数据预处理和特征工程 2,数据预处理 Preprocessing & Impute 2.1,数据无量纲化 2.2,缺失值 ...

  7. sklearn.impute.KNNImputer插值寻找近邻的原理

    前言 最近预处理数据需要使用插值来填充: 首先是sklearn.impute.SimpleImputer方法, strategy 只有mean, median等: 我需要相邻的邻居值来做插值, 所以选 ...

  8. 【sklearn学习】数据预处理和特征工程

    主成分分析 sklearn.PCA 特征选择 sklearn.feature_selection 特征处理 sklearn.preprocessing 特征提取 sklearn.feature_ext ...

  9. sklearn机器学习之数据预处理(Preprocessing Impute)

      在之前的机器学习中,我们使用的数据集都是sklearn自带的数据集以及非常经典的泰坦尼克号数据集,这些数据集都是一些经过处理被验证为对机器学习很友好的数据集,而现实生活中我们往往数据集并不是那么友 ...

  10. 数据预处理2: impute.SimpleImputer来填补缺失值

    import numpy as np import pandas as pd import matplotlib.pyplot as plt data = pd.read_csv("trai ...

最新文章

  1. jms在jboss上的简单应用
  2. libreoffice
  3. 抽象思想解读Linux进程描述符
  4. mysql 统计当天,本周,本月,上一月的数据
  5. CentOS7 防火墙规则 (firewalld)
  6. 用HTML5 Canvas为网页添加动态波浪背景
  7. 深度学习之于传统计算机视觉
  8. 功能测试工程师想快速学习新技术?7个捷径教给你!
  9. linux16.04设置网络,ubuntu16.04之后网络IP配置
  10. c语言以空格分割字符串,C语言程序要读入一行文本,以空格分隔若干个单词,以‘.’结束。你要输出这行文本中每个单词的长度。...
  11. CTFMON。exe
  12. Echarts迁徙图简单图片实现
  13. Leetcode|DFS|130. 被围绕的区域
  14. 为何QQ突然能注销了?近年推行的大好事知多少
  15. MacFamilyTree 8 for Mac(家谱族谱制作)
  16. 溴PEG溴,Br-PEG-Br
  17. 最新Hive/Hadoop高频面试点小集合
  18. ESP8266的Web配网以及强制门户的实现(连接wifi自动打开网页)
  19. 我与无人机的2020上半年
  20. 【VBA研究】输出PDF文件合并时出错

热门文章

  1. 基于微信小程序的鲜花销售系统毕业设计源码
  2. java 余弦值_获取Java中给定值的双曲余弦值
  3. 稳压二极管的工作原理是什么?
  4. 计算机关闭多重网络协议,Win7多重网络问题
  5. win7笔记本电脑做wifi热点
  6. python百例练习之第三例-字典dict()
  7. wamp php 如何安装,WAMP的详细安装过程分享
  8. sata和sas硬盘Linux,SAS硬盘与SATA硬盘的功能对比
  9. RocketMQ调优总结(system busy或broker busy报错解决)
  10. 服务器间文件拷贝显示busy,网站解决和优化Server is too busy的一些方法