缺失值处理

pandas判断缺失值一般采用 isnull(),然而生成所有数据的true、false矩阵,对于庞大的数据很难一眼看出缺失数据的位置。

缺失值查看

测试数据采用了随机生成。

>>> import pandas as pd

>>> import numpy as np

>>> df = pd.DataFrame(np.random.randn(10,6))

>>> #生成区域随机数

>>> df.iloc[1:3,1] = np.nan

>>> df.iloc[5,3] = np.nan

>>> df.iloc[7:9,5] = np.nan

>>> df

0 1 2 3 4 5

0 -0.524651 -0.306484 0.921319 -1.752106 -0.593152 -0.109011

1 0.350563 NaN -0.511227 -0.893392 -0.362926 -0.567714

2 -0.696586 NaN -0.387368 0.431769 0.015262 -1.002748

3 0.029329 0.645159 0.880687 0.002313 0.000143 0.410978

4 1.086453 -0.183210 0.465487 0.204141 -0.827070 -0.227329

5 0.449833 0.870347 -0.285700 NaN -0.116068 -0.061469

6 0.054838 -0.000641 -2.127298 -0.375447 0.463457 0.263546

7 2.932326 -2.227659 -0.559444 0.080580 1.731467 NaN

8 1.417988 0.083318 -0.041332 1.350390 -1.236223 NaN

9 -1.549584 0.156260 0.846521 -0.087683 -0.171236 0.334471

判断数据是否存在缺失值:isnull()

>>> #判断是否存在缺失值(矩阵中True表示此位置为缺失值、False表示非缺失值)

>>> df.isnull()

0 1 2 3 4 5

0 False False False False False False

1 False True False False False False

2 False True False False False False

3 False False False False False False

4 False False False False False False

5 False False False True False False

6 False False False False False False

7 False False False False False True

8 False False False False False True

9 False False False False False False

判断哪些”列”存在缺失值:isnull().any()

>>> df.isnull().any()

0 False

1 True

2 False

3 True

4 False

5 True

dtype: bool

由此可以看出,第1、3、5列存在缺失值

只显示存在缺失值行的数据

>>> df[df.isnull().values==True]

0 1 2 3 4 5

1 0.350563 NaN -0.511227 -0.893392 -0.362926 -0.567714

2 -0.696586 NaN -0.387368 0.431769 0.015262 -1.002748

5 0.449833 0.870347 -0.285700 NaN -0.116068 -0.061469

7 2.932326 -2.227659 -0.559444 0.080580 1.731467 NaN

8 1.417988 0.083318 -0.041332 1.350390 -1.236223 NaN

只显示存在缺失值的行列,清楚的确定缺失值的位置。

缺失数据处理

对于缺失数据一般处理方法为滤掉或者填充.

滤除缺失数据:dropna()

>>> df.dropna()

0 1 2 3 4 5

0 -0.524651 -0.306484 0.921319 -1.752106 -0.593152 -0.109011

3 0.029329 0.645159 0.880687 0.002313 0.000143 0.410978

4 1.086453 -0.183210 0.465487 0.204141 -0.827070 -0.227329

6 0.054838 -0.000641 -2.127298 -0.375447 0.463457 0.263546

9 -1.549584 0.156260 0.846521 -0.087683 -0.171236 0.334471

以上只显示了非缺失数据。

当只选择行里的数据全部为空时才丢弃时,可向dropna()传入参数how='all',如果想以同样的方式按列丢弃,可以传入axis=1;

填充缺失数据:fillna()

如果不想丢掉缺失的数据而是想用默认值填充这些缺失值,可以使用fillna()函数,如果不想只以某个标量填充,可以传入一个字典如(fillna({})),对不同的列填充不同的值,

缺失值较多的特征处理

# 定义工资改变特征缺失值处理函数,将有变化设为Yes,缺失设为No

def set_salary_change(df):

df.loc[(df.salary_change.notnull()), 'salary_change'] = 'Yes'

df.loc[(df.salary_change.isnull(df)), 'salary_change'] = 'No'

print df

pd.df()print df

return df

data_train = set_salary_change(df)

缺失值较少的特征处理

把NaN直接作为一个特征,假设用0表示,实现如下:

df.fillna(0)

用均值填充

# 将所有行用各自的均值填充

data_train.fillna(data_train.mean())

# 也可以指定某些行进行填充

data_train.fillna(data_train.mean()['browse_his', 'card_num'])

用上下数据进行填充

# 用前一个数据代替NaN:method='pad'

data_train.fillna(method='pad')

# 与pad相反,bfill表示用后一个数据代替NaN

data_train.fillna(method='bfill')

用插值法填充

# 插值法就是通过两点(x0,y0),(x1,y1)估计中间点的值

data_train.interpolate()

用算法拟合进行填充

# 定义browse_his缺失值预测填充函数

def set_missing_browse_his(df):

# 把已有的数值型特征取出来输入到RandomForestRegressor中

process_df = df[['browse_his', 'gender', 'job', 'edu', 'marriage', 'family_type']]

# 乘客分成已知该特征和未知该特征两部分

known = process_df[process_df.browse_his.notnull()].as_matrix()

unknown = process_df[process_df.browse_his.isnull()].as_matrix()

# X为特征属性值

X = known[:, 1:]

# y为结果标签值

y = known[:, 0]

# fit到RandomForestRegressor之中

rfr = RandomForestRegressor(random_state=0, n_estimators=2000, n_jobs=-1)

rfr.fit(X,y)

# 用得到的模型进行未知特征值预测

predicted = rfr.predict(unknown[:, 1::])

# 用得到的预测结果填补原缺失数据

df.loc[(df.browse_his.isnull()), 'browse_his'] = predicted

return df, rfr

data_train, rfr = set_missing_browse_his(data_train)

当然,针对我们这里的数据,我们对那些缺失值不是很大的特征都采用方式5来填补其缺失值。即使用随机森林算法,利用数据表中某些没有缺失的特征属性来预测某特征属性的缺失值。将填补后的数据表保存。

python异常值处理实例_Python异常值处理与检测相关推荐

  1. python异常值处理代码_python —— 异常值处理

    #异常值是指样本中的个别值,其数值明显偏离其余的观测值. #异常值也称离群点,异常值的分析也称为离群点的分析 #异常值分析 → 3σ原则 / 箱型图分析 #异常值处理方法 → 删除 / 修正填补 im ...

  2. python闭包应用实例_Python中的闭包详细介绍和实例

    一.闭包 来自wiki: 闭包(Closure)是词法闭包(Lexical Closure)的简称,是引用了自由变量的函数.这个被引用的自由变量将和这个函数一同存在,即使已经离开了创造它的环境也不例外 ...

  3. python接口脚本实例_python图形用户接口实例详解

    本文实例为大家分享了python图形用户接口实例的具体代码,供大家参考,具体内容如下 运用tkinter图形库,模拟聊天应用界面,实现信息发送. from tkinter import * impor ...

  4. python温度转换实例_Python温度转换实例分析

    Python温度转换实例分析 本文主要研究的是Python语言实现温度转换的相关实例,具体如下. 代码如下: #TempConvert.py val=input("请输入带有温度表示符号的温 ...

  5. python异常值处理实例_Python机器学习:异常值查找和处理

    再一次的通过写文章的方式强化记忆,本文内容均来源于以上文章.先说如何处理检测到的异常值? 有些算法对异常值很敏感,如逻辑回归算法.如果不处理,用该算法拟合出来的模型的效果.精确度会很低.有些算法对异常 ...

  6. python异常值均值填充_Python 异常值分析

    异常值分析是检验数据是否有录入错误以及含有不合常理的数据.忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响:重视异常值的出现,分析其产生的原因,常常成为 ...

  7. python基础数据实例_Python基本数据类型及实例详解

    Python 中的变量不需要声明.每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建. 在 Python 中,变量就是变量,它没有类型,我们所说的"类型"是变量所指的内存中对 ...

  8. python处理pdf实例_Python实战-从菜鸟到大牛的进阶之路pdf_Python教程

    资源名称:Python实战-从菜鸟到大牛的进阶之路 pdf 第1章 Python 处理 cassandra 升级后的回滚脚本 第 2 章 多套方案来提高 python web 框架的并发处理能力 第 ...

  9. python web游戏实例_python实现的简单文本类游戏实例

    Python应用与实践 Python应用与实践 目录 1.      Python是什么? 1.1.      Python语言 1.2.      Python哲学 2.      Python在工 ...

最新文章

  1. python re match groups_python re.match与re.search的区别
  2. SQL2000 统计每周,每月,每季,每年的数据
  3. 怎么输出链表长度C语言,下面程序输出结果不,如输出的链表长度结果不对,不知有关问题在哪里。请高手看下...
  4. android 数据存储之 Shared Preferences
  5. 很漂亮动态个人主页自带音乐源码
  6. ovito :qt.qpa.plugin: Could not load the Qt platform plugin “xcb“ in ““ even though it was found.
  7. 连接数据库查询数据的工具类(底层实现)——以查询Phoenix为例
  8. Windows蓝屏代码及解决方案最全合集
  9. 自用机器学习笔记(1):什么是概率以及似然
  10. debian adsl上网
  11. 网络抓包学MQTT物联网协议
  12. Install Ubuntu18.04.1 and Win7 on A53S
  13. 序列周期性与魔术(一)——数学里的函数周期性
  14. mc服务器tps优化,[教程] 使用Openj9大幅降低MC的内存占用,提高FPS和TPS
  15. 网上订餐系统java论文_网上订餐系统的毕业设计
  16. 与第三方Api接口对接需要注意的点
  17. 开源项目与J2EE架构介绍
  18. 云豹短视频app源码中关于php--thinkcmf配置语言包的说明
  19. 在visio中插入数学公式
  20. 梅克尔树Merkle trees

热门文章

  1. 日期类型存储成字符串类型的格式问题
  2. 大数据催生决策新模式 未来将改变更多
  3. Java IO (二),常见的输入/输出流
  4. SilverLight学习笔记--建立Silverlight自定义控件(5)--绑定动画效果
  5. 每次输出日志前需要判断日志的级别吗?
  6. golang 切片 slice 去掉重复元素
  7. kibana 报错 server is not ready yet 可能的原因
  8. URI URL 简介区别
  9. python sqlite3以字典形式返回查询结果
  10. centos7最小安装没有 ifconfig netstat 命令