Panads(四):数据清洗——对缺失值的处理
文章目录
- 一、处理缺失值的四个函数
- 二、使用
- 1.1 数据样子
- 1.2 处理
一、处理缺失值的四个函数
- ①isnull函数:检测是否是空值,可用于df和series
- ②notnull函数:检测是否是空值,可用于df和series
- ③dropna函数:丢弃、删除缺失值
参数 | 介绍 |
---|---|
axis | 删除行还是列,{0 or ‘index’, 1 or ‘columns’}, default 0 |
how | 如果等于any则任何值为空都删除,如果等于all则所有值都为空才删除 |
inplace | 如果为True则修改当前df,否则返回新的df |
- ④fillna函数:填充空值
参数 | 介绍 |
---|---|
value | 用于填充的值,可以是单个值,或者字典(key是列名,value是值) |
method | 等于ffill使用前一个不为空的值填充forword fill;等于bfill使用后一个不为空的值填充backword fill |
axis | 按行还是列填充,{0 or ‘index’, 1 or ‘columns’} |
inplace | 如果为True则修改当前df,否则返回新的df |
二、使用
1.1 数据样子
未处理前
要清洗后的样式
1.2 处理
①读取表格,跳过两行
import pandas as pd
df = pd.read_excel('./student.xlsx', skiprows=2)
print(df.head())
②检测缺失值
print(df.isnull())
# print(df.notnull())
③删除全是空值的列
# axis可以写1,how将全部为空,inplace是本表应用
df.dropna(axis='columns', how='all', inplace=True)
print(df)
④删除全是空值得行
# axis可以写0,how将全部为空,inplace是本表应用
df.dropna(axis='index', how='all', inplace=True)
print(df)
⑤将分数列为空的填充为0
# df.fillna({'分数':0})#效果同下
df.loc[:, '分数'] = df['分数'].fillna(0)
print(df)
⑥将姓名的缺失值填充
df.loc[:, '姓名'] = df['姓名'].fillna(method="ffill")#按照上一行自动填充
print(df)
⑦将清洗的表格保存
df.to_excel("./new_student.xlsx", index=False)
Panads(四):数据清洗——对缺失值的处理相关推荐
- 机器学习数据清洗之缺失值处理、缺失的原因、缺失值删除、缺失值填充、KNN填充
机器学习数据清洗之缺失值处理.缺失的原因.缺失值删除.缺失值填充.KNN填充 目录
- R语言——数据清洗之缺失值处理
数据清洗之缺失值--R语言 缺失值处理步骤: 1)识别缺失数据: 2)检查导致数据缺失的原因: 3)删除包含缺失值的实例或用合理的数值代替(插补)缺失值 缺失值数据的分类: 1)完全随机缺失:若某变量 ...
- 一文看懂数据清洗:缺失值、异常值和重复值的处理
https://www.toutiao.com/a6711212131125035534/ 导读:在数据清洗过程中,主要处理的是缺失值.异常值和重复值.所谓清洗,是对数据集通过丢弃.填充.替换.去重等 ...
- python-数据分析-(12)pandas数据清洗、缺失值、重复值、异常值处理常见方法
一.导入模块 import pandas as pd from scipy.interpolate import interp1d 二.读取excel文件 data=pd.read_excel(r'E ...
- 【数据科学】05 数据合并(merge、concat、combine)与数据清洗(缺失值、重复值、内容和格式)
文章目录 1. 数据合并 1.1 merge()合并 1.2 concat()合并 1.3 combine()合并 2. 数据清洗 2.1 缺失值 2.2 重复值 2.3 内容与格式清洗 1. 数据合 ...
- R语言 数据清洗(缺失值处理、异常值处理)
关注微信公共号:小程在线 关注CSDN博客:程志伟的博客 详细内容为 <R语言游戏数据分析与挖掘>第五章学习笔记之数据清洗 5.2.1 缺失值处理 5.2.2 异常值处理: setwd( ...
- 数据清洗:缺失值识别和处理方法
缺失值识别 数据缺失分为两种:一是行记录的缺失:二是列值的缺失. 不同的数据存储和环境中对于缺失值的表示不同,例如数据库中是Null.Python返回对象是None.Pandas或Numpy中是NaN ...
- 数据清洗:缺失值,异常值和重复值的处理
在数据清洗过程中,主要处理的是缺失值,异常值和重复值.所谓清洗,是对数据进行丢弃,填充,替换,去重等操作,实现去除异常,纠正错误,补足缺失的目的. 1. 数据列缺失的4种处理方法 数据缺失分为2种 ...
- pandas数据清洗(缺失值、异常值和重复值处理)
1. 缺失值处理 处理方式: 直接删除 填充缺失值 真值转换法 不处理 ( 数据分析和建模应用中很多模型对于缺失值有容忍度或灵活的处理方法,因此在预处理阶段可以不做处理.常见的能够自动处理缺失值的模 ...
最新文章
- 17个提升iOS开发效率的神器
- TENSORFLOW PROCESS FINISHED WITH EXIT CODE -1073741819 (0XC0000005)
- jquery获取手机验证码按钮计时插件getVerifyCode.js
- GitLab的安装及使用教程
- nginx_rtmp中解析sps和pps
- 什么是无监督学习(监督学习,半监督学习,无监督聚类)?
- LeetCode 671. 二叉树中第二小的节点
- 计算机硬件的五大单元
- 新媒体增长方法从哪里找?
- 精述字符编码(读这篇就够了)
- FragmentSharedFabTransition
- Access denied (403) see security.limit_extensions
- vb怎么调用oracle数据库连接,VB 连接Oracle数据库
- 用友nc java启动不了_用友NC开发本地启动客户端时界面空白问题的解决
- js逆向案例-zzjg之jy/woff.2
- 各大编程语言,不管你学习的是哪一个语言 我相信手机里应该有个它
- 如何为web页面编写一段脚本
- 【中国是部金融史-读后感】
- python日语识别-编写简单的Python程序来判断文本的语种
- 基于置信传播(BP,Belief Propagation)的立体匹配算法
热门文章
- python培训浦东
- 小米4C直接解锁、刷入TWRP
- 微信服务号与订阅号的主要区别是什么?
- CMT2380F32模块开发4-UART例程
- mpvue 引入weui
- 交互设计实用指南系列(11)—减少记忆负担
- java 8书籍_清华大学出版社-图书详情-《Java 8高级应用与开发》
- Argoverse--Motion Forecasting Dataset评价指标minADE/minFDE详细介绍
- HTML5期末大作业:月饼美食网站设计——月饼美食食品模板(9页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程食品设计网页规划与设计 计食品模板设计源码
- MySQL8 设置自动创建时间和自动更新时间