python pandas缺失值处理_pandas缺失值的处理

在大多数的数据分析应用中，经常会遇到缺失值，常见的缺失值处理方式有过滤和填充。在 Python 中，pandas 使用浮点值 NaN 表示浮点数和非浮点数组中的缺失值，同时 Python 内置 None 值也会被当作缺失值。在处理缺失值之前，首先要判断缺失值是否存在，然后再对缺失值进行删除、填充或者不处理的操作。

判断缺失值的函数

在 pandas 中判断缺失值的函数如下。

1) isnull() 函数

isnull() 函数语法格式：isnull(obj)。其中，参数 obj 表示接收标量或数组，用于检查空值或缺失值的对象；如果有空值或缺失值则返回 True，否则返回 False。

2) notnull() 函数

notnull() 函数语法格式：notnull(obj)。其中，参数 obj 接收 ndarray 或对象值，用于检查不为空值或缺失值的对象；如果有空值或缺失值则返回 False，否则返回 True。

通过 isnull() 函数和 sum() 函数可以获得 Series 和 DataFrame 中缺失值的数量。

处理缺失值的方法

数据缺失值的处理方法有以下 3 种：

删除含有缺失值的记录；

进行数据插补；

不处理空值或缺失值。

1) 删除含有缺失值的记录

在数据分析中，如果数据集的样本很大，并且在删除含有缺失值的记录后，不会影响分析结果的客观性和准确性时，一般使用 dropna() 函数直接将空值或缺失值的数据删除。

dropna() 函数的语法格式如下。

DataFrame.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)

函数中的参数说明如下：

axis：指定删除方向，当 axis=0 按行删除，axis=1 按列删除，默认为 0；

how：取值为“all”表示这一行或列中的元素全部缺失(为 NaN)才删除这一行或列；取值为“any”表示这一行或列中只要有缺失值，就删除这一行或列；

thresh：一行或一列中至少出现了 thresh 个才删除；

subset：在某些列的子集中选择出现了缺失值的列删除，不在子集中的含有缺失值的列或行不会被删除；

inplace：筛选缺失值后，获得的新数据是存为副本还是直接在原数据上进行修改。

【例 1】导入 Excel 成绩表 grade.xls 中的 grade1 表，完成各种不同情况下删除缺失值的操作。

其示例代码 test1.py 如下。

# -*- coding: utf-8 -*-

import pandas as pd

#导入成绩数据

df = pd.read_excel('d:\data\grade.xls',sheet_name='grade1')

#所有值全为缺失值才删除

df1 = df.dropna(how='all')

#输出df1的前5行

print(df1.head())

#删除至少出现过两个缺失值的行

df1 = df.dropna(thresh=2,axis=0)

#输出df1的前10行

print(df1.head(10))

#删除subset中指定的列含有缺失值的行

df1 = df.dropna(subset=['exam'])

#输出df1的前5行

print(df1.head())

#删除含有缺失值的列

print(df.dropna(axis=1))

#只要有缺失值就删除，并且直接在原数据上进行修改

df1 = df.dropna(how='any',inplace=True)

print(df)

2) 数据插补法

在数据分析中，如果数据集的样本比较少或者由于删除含有缺失值的记录，会影响到数据分析结果的客观性和准确性，就需要根据数据插补的方法来选择填充值，然后再使用 fillna() 函数对空值或缺失值进行填充。

fillna() 函数的语法格式如下。

DataFrame.fillna(value=None,method=None,axis=None,

inplace=False,limit=None,downcast=None,**kwargs)

函数中的参数说明如下。

value：接收常数、dict、Series 或 DataFrame，表示填充缺失值的值。

method：表示填充缺失值的方法，method 的取值为｛'pad','ffill','backfill','bfill',None}。pad/ffill：用前一个非缺失值去填充该缺失值。backfill/bfill：用下一个非缺失值去填充该缺失值。None：指定一个值去替换缺失值(缺省默认这种方式)。

axis：指定填充方向，当 axis=1 按列填充，axis=0 按行填充。

inplace：接收 True 或 False。True 表示直接修改原对象，False 表示创建一个副本，修改副本，原对象不变，默认为 False。

limit：表示限制填充的个数，如果 limit=2，则只填充两个缺失值。

downcast：默认为 None，如果需要将填充的值向下转换为适当的相等数据类型的数值，如将 float64 数据类型转换为 int64 数据类型时，则此参数的值为 'infer'。

注意：method 参数不能与 value 参数同时出现。

在选取填补缺失值的数据时，除了选择常量 0 或者通过指定 method 方式来选择填充缺失值的数据外，还可以根据数据插补方法来选择填充值。常用数据插补方法见表 1。

表 1：数据插补方法

插补方法

描述

均值/中位数/众数插补

根据属性值的类型，用该属性取值的均值/中位数/众数进行插补

使用固定值

将缺失值属性使用一个常量值替换

python pandas缺失值处理_pandas缺失值的处理相关推荐

python pandas excel 排序_Pandas 按组汇总和列排序 - python
给定以下数据框 In [31]: rand = np.random.RandomState(1) df = pd.DataFrame({'A': ['foo', 'bar', 'baz'] * 2, ...
python pandas dropna 删除空值/缺失值(DataFrame)
文章目录一.函数参数二.例子详解 2.1 载入库 2.2 构建一个DataFrame 2.3 默认参数 2.4 axis 2.5 how 2.6 thresh 2.7 subset 一.函数参数 ...
python pandas 官网_Pandas 最详细教程
Python 是开源的,它很棒,但是也无法避免开源的一些固有问题:很多包都在做(或者在尝试做)同样的事情.如果你是 Python 新手,那么你很难知道某个特定任务的最佳包是哪个,你需要有经验的人告诉你 ...
python pandas 日期格式_pandas 快速处理 date_time 日期格式方法
当数据很多,且日期格式不标准时的时候,如果pandas.to_datetime 函数使用不当,会使得处理时间变得很长,提升速度的关键在于format的使用.下面举例进行说明: 示例数据: date 格 ...
python pandas 分类汇总_pandas去重复行并分类汇总的实现方法
今天主要记录一下pandas去重复行以及如何分类汇总.以下面的数据帧作为一个例子: import pandas as pd data=pd.DataFrame({'产品':['A','A','A',' ...
python pandas文档_Pandas 中文API文档
缩写和包导入在这个速查手册中,我们使用如下缩写: df:任意的Pandas DataFrame对象 s:任意的Pandas Series对象同时我们需要做如下的引入: import pandas ...
python pandas dataframe函数_Pandas的DataFrame列操作
13. Pandas的DataFrame列操作本章主要研究一下DataFrame数据结构如何修改.增删等操作. 13.1 rename修改列名字对一个dataframe的数据使用rename函数后 ...
python pandas 日期计算_pandas dataframe 日期间隔天数计算问题
dataframe中有两列数据'begin_date'和'end_date',现在通过这两列计算新的一列'work_days'. 'begin_date'和'end_date'的数据格式均为:Time ...
python pandas缺失值处理_Pandas之缺失值处理
原标题:Pandas之缺失值处理本文作者:杨长青本文编辑:周聪聪技术总编:张学人好消息!!!爬虫俱乐部将于2019年5月2日至4日在武汉举行Stata编程技术五一训练营,此次采用理论与案例相结 ...
pandas用众数填充缺失值_7步搞定数据清洗－Python数据清洗指南
脏数据就是在物理上临时存在过,但在逻辑上不存在的数据. 数据清洗是整个数据分析过程的第一步,就像做一道菜之前需要先择菜洗菜一样.数据分析师经常需要花费大量的时间来清洗数据或者转换格式,这个工作甚至会占 ...

python pandas缺失值处理_pandas缺失值的处理

python pandas缺失值处理_pandas缺失值的处理相关推荐

最新文章

热门文章