python处理csv中的缺失值_Python中重复值、缺失值、空格值处理
1、重复值处理
把数据结构中,行相同的数据只保留一行。
函数语法:
drop_duplicates()
删除重复值newdf=df.drop_duplicates()from pandas import read_csv
df = read_csv('D://PDA//4.3//data.csv')
df
#找出行重复的位置
dIndex = df.duplicated()
#根据某些列,找出重复的位置
dIndex = df.duplicated('id')
dIndex = df.duplicated(['id', 'key'])
#根据返回值,把重复数据提取出来
df[dIndex]
#直接删除重复值
#默认根据所有的列,进行删除
newDF = df.drop_duplicates()
#当然也可以指定某一列,进行重复值处理
newDF = df.drop_duplicates('id')
2、缺失值处理
dropna函数作用:去除数据结构中值为空的数据。
dropna()
newdf=df.dropna()from pandas import read_csv
df = read_csv(
'D:\\PDA\\4.4\\data.csv'
)
df = read_csv(
'D:\\PDA\\4.4\\data2.csv',
na_values=['a','b']
)
#找出空值的位置
isNA = df.isnull()
#获取出空值所在的行
df[isNA.any(axis=1)]
df[isNA[['key']].any(axis=1)]
df[isNA[['key', 'value']].any(axis=1)]
df.fillna('未知')
#直接删除空值
newDF = df.dropna()
3、空格值处理
strip函数作用:清除字符型数据左右的空格。
与R中的trim函数用法一样
newname=df["name"].str.strip()from pandas import read_csv
df = read_csv(
'D:\\PDA\\4.5\\data.csv'
)
newName = df['name'].str.lstrip()
newName = df['name'].str.rstrip()
newName = df['name'].str.strip()
df['name'] = newName
python处理csv中的缺失值_Python中重复值、缺失值、空格值处理相关推荐
- python读取csv数据画直方图_python 中直方图绘制
一.直方图绘制参数详解 1.plt.hist(x, bins=10, range=None, normed=False, weights=None, cumulative=False, bottom= ...
- Python基础_第3章_Python中的循环结构
Python基础_第3章_Python中的循环结构 文章目录 Python基础_第3章_Python中的循环结构 Python中的循环结构 一.回顾分支练习题 1.判断是否为一个合法三角形 2.求世界 ...
- Python基础_第5章_Python中的数据序列
Python基础_第5章_Python中的数据序列 文章目录 Python基础_第5章_Python中的数据序列 Python中的数据序列 一.字典--Python中的==查询==神器 1.为什么需要 ...
- python删除csv某一列_python csv 删除列
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 我的input.csv看起来是这样的: day,month,year,lat,l ...
- python中定义数据结构_Python中的数据结构—简介
python中定义数据结构 You have multiples algorithms, the steps of which require fetching the smallest value ...
- python中options类_python中的optionParser模块
Python 有两个内建的模块用于处理命令行参数: 一个是 getopt,<Deep in python>一书中也有提到,只能简单处理 命令行参数: 另一个是 optparse,它功能强大 ...
- python检查列表是否为空_Python 中判断列表是否为空的方法
在判断列表是否为空时,你更喜欢哪种方式?决定因素是什么? 在 Python 中有很多检查列表是否是空的方式,在讨论解决方案前,先说一下不同方法涉及到的不同因素. 我们可以把判断表达式可以分为两个阵营: ...
- python实例属性与类属性_Python中的类属性和实例属性引发的一个坑-续
上篇文章Python 中的类属性和实例属性,我们探讨了类属性和实例属性引发的一个小坑.总结了类属性和实例属性的区别如下:类属性可以被类和实例调用,实例属性只能被实例调用 类属性不会随着实例的调用而改变 ...
- python中向量长度_python中向量指的是什么意思
展开全部 一.向量是什么e69da5e6ba903231313335323631343130323136353331333433646531 在数学中,向量(也称为欧几里得向量.几何向量.矢量),指具 ...
最新文章
- win7科学计算机的用法,win7中计算器的多种用法
- php制作软件工具,开源10款热门教学相关的开源软件(教学平台和制作工具)
- 再也不用担心面试官问你HashCode和equals了
- 如何利用Excel进行同类项合并?
- 如何开启并配置CITRIX Xenserver的SNMP服务
- 各大主流.Net的IOC框架性能测试比较
- powerdesigner逆向工程(sql转pdm)
- 【吼吼睡cocos2d学习笔记】第四章 - 第一个游戏
- bzoj 2820: YY的GCD(莫比乌斯反演)
- 移动互联网时代的创业生存法则:快速试错,廉价失败
- mysql case then效率快_详解Mysql case then使用
- 会员260万,续卡率居高不下,山姆有着怎样的魔力?
- 用python画钢铁侠图片_Photoshop快速把钢铁侠图片转为素描水墨风格教程
- electron设置淘宝镜像
- 2021-2022-1 20212820《Linux内核原理与分析》第一周作业
- 「滴滴-橙心优选」秋招面试复盘总结
- PT生存法则(不断补充中)
- EBS功能_固定资产总结
- 干货分享 | 常用车载总线CAN、CANFD、LIN、FlexRay 和 Ethernet概述
- win7文件夹每次打开新的窗口/卸载ie后/同一窗口中打开每个文件也没用
热门文章
- python 0o10_Python 从业十年的程序员,写的万字经验分享
- Markdown编辑器的使用方法
- Linux之telnet命令使用详解—网络故障定位(四)
- Redis可以登录,但有些值不能获取或者设置,PING命令也用不了
- matplotlb.finance导包报错——ModuleNotFoundError No module named mpl finance
- python返回错误提示_python 错误处理
- 古塔问题matlab,基于 Matlab 对古塔变形趋势探究的数学模型
- sql 树状结构中知道 父节点与孙节点_集群环境中使用Zookeeper实现分布式幂等控制...
- java数组遍历赋值,最终入职阿里
- 十年Java编程开发生涯,java计算时间差毫秒