目录

  • SimpleImputer
  • 参数
    • missing_values
    • strategy
    • fill_value
    • copy
  • 属性
    • statistics_
    • indicator_
    • n_features_in_
    • feature_names_in_
  • 方法
    • fit(X[, y])
    • fit_transform(X[, y])
    • get_feature_names_out([input_features])
    • get_params([deep])
    • inverse_transform(X)
    • set_params(**params)
    • transform(X)

SimpleImputer

sklearn.impute.SimpleImputer(*, missing_values=nan, strategy='mean', fill_value=None, verbose='deprecated', copy=True, add_indicator=False)

通过简单的方法对缺失值进行补充

沿着每一列通过给定的策略(均值、中位数、众数)或定值对缺失值进行补充

参数

missing_values

int, float, str, np.nan, None or pandas.NA, default=np.nan
缺失值的占位符,数据中所有的值为missing_values的空缺值将会被填充

strategy

str, default=’mean’

缺失值填补策略 填补缺失值的数值
mean 每一列的均值
median 每一列的中位数(只能用于数值型数据)
most_frequent 每一列的众数(可用于数值型或字符串型数据)
constant 给定值fill_value

fill_value

str or numerical value, default=None
当参数strategy='constant'时,将使用fill_value替换所有缺失值
当该参数为default时,填补缺失值的时候,对于数值型数据将填补为0,对于字符串型或对象型数据将被填补为‘missing_value’

copy

bool, default=True

属性

statistics_

array of shape (n_features,)
每个特征的缺失填补值

The imputation fill value for each feature

indicator_

MissingIndicator
为缺失数值添加二元指标使用到的指标

Indicator used to add binary indicators for missing values.

n_features_in_

int
拟合过程中的特征数量

feature_names_in_

ndarray of shape (n_features_in_,)
拟合过程中的特征名称

方法

fit(X[, y])

拟合数据

Fit the imputer on X.

fit_transform(X[, y])

拟合数据并将其进行转换

Fit to data, then transform it.

get_feature_names_out([input_features])

返回输出特征名称

Get output feature names for transformation.

get_params([deep])

返回模型参数

Get parameters for this estimator.

inverse_transform(X)

还原数据

Convert the data back to the original representation.

set_params(**params)

设置模型参数

Set the parameters of this estimator.

transform(X)

填补缺失值

Impute all missing values in X

缺失值补充--SimpleImputer相关推荐

  1. pandas数据清洗(缺失值、异常值和重复值处理)

    1. 缺失值处理 处理方式: 直接删除 填充缺失值 真值转换法 不处理  ( 数据分析和建模应用中很多模型对于缺失值有容忍度或灵活的处理方法,因此在预处理阶段可以不做处理.常见的能够自动处理缺失值的模 ...

  2. sklearn与pandas的缺失值处理

    housing数据集中的total_bedrooms有部分缺失,对于缺失值,通常我们有以下几种方式处理: 放弃有缺失值的样本 放弃整个特征 将缺失值设置为某个默认值:0.平均值.中位数等. panda ...

  3. 特征工程-使用随机森林进行缺失值填补

    特征工程-使用随机森林进行缺失值填补 一.前言 特征工程在传统的机器学习中是非常重要的一个步骤,我们对机器学习算法的优化通常是有限的.如果在完成任务时发现不管怎么优化算法得到的结果都不满意,这个时候就 ...

  4. 精心整理出来的几种缺失值处理方法

    缺失值补充 造成属性值缺失的原因有很多,比如信息暂时无法获取,信息被遗漏(有机械原因也有人为原因),有些对象的某个或者某些属性是不可用的,有些信息被认为是不重要的,获取这些信息的代价太大,系统实时性能 ...

  5. 机器学习系列(3)_特征工程01数据预处理

    参考链接: 1.scikit-learn官网 2.sklearn提供的自带的数据集 3.Kaggle官网 4.数据挖掘--无量纲化 文章目录 一.数据中台 二.sklearn中的数据预处理与特征工程 ...

  6. 带你入门Python数据挖掘与机器学习(附代码、实例)

    作者:韦玮 来源:Python爱好者社区 本文共7800字,建议阅读10+分钟. 本文结合代码实例待你上手python数据挖掘和机器学习技术. 本文包含了五个知识点: 1. 数据挖掘与机器学习技术简介 ...

  7. XGBoost参数调优完全指南(附Python代码)——转载

    转载自https://www.cnblogs.com/mfryf/p/6293814.html 译注:文内提供的代码和运行结果有一定差异,可以从这里下载完整代码对照参考.另外,我自己跟着教程做的时候, ...

  8. python xgboost参数_如何对XGBoost模型进行参数调优

    匿名用户 1级 2017-01-19 回答 XGBoost参数调优完全指南(附Python代码) 译注:文内提供的代码和运行结果有一定差异,可以从这里下载完整代码对照参考.另外,我自己跟着教程做的时候 ...

  9. svm多分类代码_跟我一起机器学习系列文章知识点与代码索引目录,持续更新…...

    <跟我一起机器学习> 系列文章知识点与代码索引目录 0 环境配置 如何才能入门机器学习? 优雅的安装和使用Anaconda 使用Conda来进行环境的创建与管理 Pycharm安装与使用 ...

最新文章

  1. c++ int转unsigned int_mysql中int、bigint、smallint 和 tinyint的区别详细介绍
  2. spark- PySparkSQL之PySpark解析Json集合数据
  3. URAL 2027 URCAPL, Episode 1 (模拟)
  4. python发声-python 发声
  5. python3.6 3.7共存_[转]CentOS 7安装Python3.6过程(让linux系统共存Python2和Python3环境)...
  6. cahrt框架 ios_iOS Charts框架集成及使用
  7. 【数据结构与算法】之深入解析“排序链表”的求解思路与算法示例
  8. 一条一条来,MySQL变量、流程控制与游标,完整详细可收藏
  9. linux 隐藏显示终端光标
  10. Liunx之chown命令
  11. 用shell求两个文件的差集
  12. HDU 1312 Red and Black(最简单也是最经典的搜索)
  13. OLAP工具在企业决策支持系统中的应用
  14. Java机器学习库(Java ML)(一、分类)
  15. 【转】丹尼斯·里奇,那个给乔布斯提供肩膀的巨人
  16. 波士顿房价预测(深度学习)与找到影响房价的决定性因素(最速下降法)
  17. 电商API接口如何使用(教你获取数据)
  18. Java及依赖和Maven
  19. 92.发光文字加载特效
  20. 让老公“寒心”的对话 (转)

热门文章

  1. LaTeX 各种命令,符号汇总(全)
  2. 魔改合成大西瓜,从源码到部署,步骤详细
  3. 原子操作CAS,原子性操作类
  4. 银河麒麟v10服务器操作系统安装配置
  5. SATA硬盘使用AHCI模式详解
  6. python 继续第七天
  7. Cadence Allegro PCB设计88问解析(九) 之 Allegro中封装(footprint)3D模型添加
  8. 小程序消息主动推送php,微信小程序有几种推送消息的方式
  9. C#图片缩小剪切方法
  10. node.js图片剪切 将不同大小的图片不失真的剪切为固定大小