Pandas——处理丢失的数据(含NaN的数据)
文章目录
- 1.构造DataFrame(部分含有NaN)
- 2.用dropna()删除含有NaN的行或列
- 3.用fillna()替换NaN
- 4.用isnull()判断是否含有NaN
1.构造DataFrame(部分含有NaN)
有时候我们导入或处理数据, 会产生一些空的或者是 NaN 数据,如何删除或者是填补这些 NaN 数据就是我们今天所要提到的内容
import numpy as np
import pandas as pd
dates = pd.date_range('20200316',periods = 5)
df = pd.DataFrame(np.arange(30).reshape((5,6)), index = dates, columns = ['A','B','C','D','E','F'])
df.iloc[2,1] = np.nan
df.iloc[3,4] = np.nan
print(df)#输出A B C D E F
2020-03-16 0 1.0 2 3 4.0 5
2020-03-17 6 7.0 8 9 10.0 11
2020-03-18 12 NaN 14 15 16.0 17
2020-03-19 18 19.0 20 21 NaN 23
2020-03-20 24 25.0 26 27 28.0 29
2.用dropna()删除含有NaN的行或列
如果想直接去掉有 NaN 的行或列, 可以使用 dropna
t = df.dropna(axis = 0,how = 'any') # 0: 对行进行操作; 1: 对列进行操作 any': 只要存在 NaN 就 drop 掉; 'all': 必须全部是 NaN 才 drop
print(t)#输出A B C D E F
2020-03-16 0 1.0 2 3 4.0 5
2020-03-17 6 7.0 8 9 10.0 11
2020-03-20 24 25.0 26 27 28.0 29
3.用fillna()替换NaN
v = df.fillna(0) #用0替换含有NaN的值
print(v)#输出A B C D E F
2020-03-16 0 1.0 2 3 4.0 5
2020-03-17 6 7.0 8 9 10.0 11
2020-03-18 12 0.0 14 15 16.0 17
2020-03-19 18 19.0 20 21 0.0 23
2020-03-20 24 25.0 26 27 28.0 29
4.用isnull()判断是否含有NaN
判断是否有缺失数据 NaN, 为 True 表示缺失数据
w = df.isnull()
print(w)#输出A B C D E F
2020-03-16 False False False False False False
2020-03-17 False False False False False False
2020-03-18 False True False False False False
2020-03-19 False False False False True False
2020-03-20 False False False False False False
检测在数据中是否存在 NaN, 如果存在就返回 True:
print(np.any(df.isnull() == True))#输出
True
Pandas——处理丢失的数据(含NaN的数据)相关推荐
- python(numpy,pandas8)——pandas大范围赋值和增加特定数据,处理丢失数据(nan)
文章目录 前言 pandas大范围赋值 增加空数据 处理丢失数据(nan) isnull:查看哪个数据是nan dropna:直接丢掉 fillna:赋值为0 前言 根据 莫烦Python的教程 总结 ...
- Pandas的学习(5.pandas中处理丢失数据和空值数据以及填充空值数据)
处理丢失数据 有两种丢失的数据: -- None -- np.nan(NaN) 1.None None是Python自带的,其类型为python object.因此,N ...
- [转载] 4.Pandas处理丢失数据
参考链接: Pandas处理丢失数据 文章目录 0 引言1 Pandas处理丢失数据 0 引言 Pandas生成DataFrame表格,有时候表中会有一些空值(NaN),这时候就需要用到 .dropn ...
- pandas生成新的累积连乘数据列(cumprod)、pandas生成新的累积连乘cumprod数据列(数据列中包含NaN的情况)、pandas计算整个dataframe的所有数据列的累积连乘
pandas生成新的累积连乘数据列(cumprod).pandas生成新的累积连乘cumprod数据列(数据列中包含NaN的情况).pandas计算整个dataframe的所有数据列的累积连乘cump ...
- Pandas数据处理方法(包括数据库数据和普通文件数据)
pandas是一个强大的分析结构化数据的工具集:它的使用基础是Numpy(提供高性能的矩阵运算):用于数据挖掘和数据分析,同时也提供数据清洗功能. Pandas中常见的数据结构有两种: Series ...
- 机器学习中如何处理缺失数据(NAN和Ifo)?
机器学习中如何处理缺失数据(NAN)? 文章目录: 一.NAN 和 Inf 二.机器学习中空值的处理方法 一.NAN 和 Inf NAN(Not A number):意思:不是一个数字,是一个空值 I ...
- python 筛选重复数据和不重复数据_[Python] Pandas 对数据进行查找、替换、筛选、排序、重复值和缺失值处理...
1. 数据文件 2. 读数据 import pandas as pd data = pd.read_csv('D:\git\python\code\第5章\产品统计表.csv') print(data ...
- 智能驾驶 车牌检测和识别(三)《CRNN和LPRNet实现车牌识别(含车牌识别数据集和训练代码)》
智能驾驶 车牌检测和识别(三)<CRNN和LPRNet实现车牌识别(含车牌识别数据集和训练代码)> 目录 智能驾驶 车牌检测和识别(三)<CRNN和LPRNet实现车牌识别(含车牌识 ...
- pandas——数据移位、数据转换、数据合并、数据导出和日期数据的处理,时间序列等
pandas统计分析(下) 本文主要介绍使用pandas进行数据移位.数据转换.数据合并.数据导出和日期数据的处理,时间序列等. 数据移位 数据移位就是在分析数据时,需要移动到上一条,在pandas中 ...
最新文章
- python最长连续子串_LeetCode 03无重复字符的最长子串(滑动窗口)
- 数据库系统概念总结:第一章 引言
- HashSet与HashMap源代码深度剖析
- 在D-Bus适配器中声明信号
- CCF201312-3 最大的矩形(100分)
- 生产环境中Oracle常用函数总结
- linux学习笔记-chkconfig
- flex弹性布局笔记
- 攻击 | 破解windows7密码(利用PE系统破解XP密码)
- vue 中二维码的使用和工具比较
- Day9 深度学习入门
- (转)C# Color类图示
- 计算机本地局域网不通,局域网不通解决方法
- linux系统下载r软件安装,Linux安装R语言包
- 徽章收夺·应用 ( 玩家:3-3 塞迪 )
- linux系统网卡驱动更新,更新Linux网卡驱动
- 求一元多项式 P(x) = a0 + a1x + a2x^2 + ... + anx^n 的值P(x0)。
- 喝干红葡萄酒的十大好处
- 2021年12月中国A股石油加工贸易行业上市企业市值排行榜:中国石油位居榜首,宇新股份股价最高(附月榜TOP24详单)
- C语言实现计算数字能否被3个数整除
热门文章
- mysql双主+keepalived【转】
- mysql 函数无法访问_mysql 中出现:不能打开到主机的连接,在端口3306: 连接失败...
- Python使用线性回归简单预测数据
- 2012CSDN年度博客之星评选http://vote.blog.csdn.net/item/blogstar/xyz_lmn
- 从txt中读入数据到数组中(fscanf)
- GCC一些有用的技巧
- Oracle fgs(精细审计)使用
- OSCache操作详解+标签使用
- linux常用文本操作命令
- Python包管理整理:setuptool管理python相关的包