机器学习 100 天,今天讲的是:数据预处理-处理缺失值。

在上一节,我们导入了数据集,得到特征 X 和标签 y。

我们打开 X,发现 index5 样本的‘年龄’和 index3 样本的‘薪资’数值是 NaN。

NaN(Not a Number)是计算机科学中数值数据类型的一类值,表示空值
可能是由于在样本收集的时候没有统计到该特征。

对于 NaN 值,最简单粗暴的做法是直接删除对应的样本,但我们一般不这么做。常见的做法是对 NaN 进行插值,即用该特征的平均值、中值等替代
一般来说,平均数是总体均值很好的估计,中位数是对总体中心很好的估计,如果特征分布比较稳定的话,平均值效率更高,而中位数稳健性更好,能避免受到到异常数值的影响。

例如,假设这里的薪资 6700 由于统计错误,写成 67,如果用平均值的话,则该异常数值就会影响插值,造成误差,但如果用中位数的话,就能消除异常数值的影响。

好,我们回到 spyder。处理缺失值的代码如何写呢?很简单,直接使用 pandas 库的 fillna 函数,一行语句搞定。

# 处理缺失值
X['Age'<

机器学习100天(三):003 数据预处理之处理缺失值相关推荐

  1. 机器学习-特征工程中的数据预处理

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  2. 数据科学和人工智能技术笔记 三、数据预处理

    三.数据预处理 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 为 Scikit-Learn 转换 Pandas 类别数据 # 导入所需的库 from sklearn ...

  3. 机器学习实战——特征工程之数据预处理

    机器学习实战的特征工程主要包含数据预处理.特征构建.特征选择三步,首先来介绍数据预处理. 我选择python作为工具,并将主要用到pandas.numpy等数据工具库.加载库: import pand ...

  4. pandas用众数填充缺失值_【机器学习】scikit-learn中的数据预处理小结(归一化、缺失值填充、离散特征编码、连续值分箱)...

    一.概述 1. 数据预处理 数据预处理是从数据中检测,修改或删除不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断. 也可 ...

  5. 【数据挖掘笔记三】数据预处理

    3.数据预处理 数据预处理技术: 数据清理用来清除数据中的噪声,纠正不一致: 数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库: 数据归约通过如聚集.删除冗余特征或聚类来降低数据的规模: ...

  6. 深入浅出python机器学习_9.1.5_通过数据预处理提高模型的准确率_MinMaxScaler

    # 导入红酒数据集from sklearn.datasets import load_wine# 导入MLP神经网络from sklearn.neural_network import MLPClas ...

  7. R语言学习(三)— 数据预处理

    第四章-数据预处理 4.1数据清洗 1.缺失值处理 2.异常值处理 4.2数据集成 1.实体识别 2.冗余属性识别 4.3 数据变换 1.简单函数变换 2.规范化 3.连续属性离散化 4.属性构造 4 ...

  8. CiteSpace学习笔记(三)——数据预处理

    由于不同数据库厂商所提供下载的数据格式有所差异,为了能够使用CiteSpace对不同数据库的数据进行分析,CiteSpace专门提供了数据的转换界面,用于将CNKI.CSSCI.以及SCOPUS等数据 ...

  9. 数据预处理——4种缺失值处理方法

    1.删除含有缺失值的个案 主要有简单删除法和权重法.简单删除法是对缺失值进行处理的最原始方法.它将存在缺失值的个案删除.如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的. ...

最新文章

  1. html表格重置标签,HTML——表格标签
  2. SpringBoot+flowable快速实现工作流,so easy!
  3. 【转】MyBatis学习总结(四)——解决字段名与实体类属性名不相同的冲突
  4. ASP.NET系统 + Access数据库
  5. ospf序列号等问题
  6. 5.2 Redis商业版
  7. 穿越疫情,阿里云3000万补贴助力中小企业寒冬突围
  8. 数据结构 创建顺序栈
  9. 使用SVN的导出功能,( 目的 : 使导出的文件目录中,不带有svn相关的文件 )
  10. 3.程序员的自我修养---目标文件
  11. win7更改计算机名后桌面壁纸,win7桌面壁纸不能更换怎么办-处理win7桌面壁纸无法更换的方案 - 河东软件园...
  12. iframe标签用法详解
  13. 微信小程序例子——点击发送信息清空输入框
  14. nodejs的桌面应用(electron)
  15. linux netcdf编译,Linux下安装Netcdf
  16. 研修国学请注意选好教材
  17. python连接阿里云数据库_记一次python备份阿里云RDS数据库
  18. 【电商】管理后台之账号管理
  19. 腾讯技术分享:微信小程序音视频与WebRTC互通的技术思路和实践
  20. 跨次元!目标检测类别超20000!

热门文章

  1. Pandas的常用操作(一)
  2. 炉石android更新日志,炉石传说新版本一览_炉石传说更新内容
  3. 逻辑回归模型——股票客户流失预警模型
  4. Linux技巧之Ubuntu11.04下安装极点五笔输入法
  5. 【论文阅读】针对快速和准确的超分辨率深度拉布拉斯金字塔网络
  6. c语言erfc函数,erfc_数值 | Numerics_C_参考手册_非常教程
  7. Kelvin connection of PCB traces for current sensing--Cypress
  8. mysql的存储模型_一种BIM模型数据的数据库存储格式的制作方法
  9. S2SH The web application[] registered the JDBC driver [com.mysql.jdbc.Driver] bur failed to unreqist
  10. 03 - 大学生如何使用GPT