pandas中DataFrame如何检测重复值
DataFrame.duplicated(subset=None, keep='first')
subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。
keep:
- 默认为’first’ ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
- 如果为’last’,也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
- 如果为False,则所有重复的为True
下面举例
df = pd.DataFrame({'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],'style': ['cup', 'cup', 'cup', 'pack', 'pack'],'rating': [4, 4, 3.5, 15, 5]
})
df
# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()结果
0 False
1 True
2 False
3 False
4 False
dtype: bool# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")结果
0 True
1 False
2 False
3 False
4 False
dtype: bool# keep=False,,所有重复的为True
df.duplicated(keep=False)结果
0 True
1 True
2 False
3 False
4 False
dtype: bool# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')结果0 False
1 True
2 False
3 True
4 True
dtype: bool# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])结果0 False
1 True
2 False
3 False
4 True
dtype: bool# 显示重复记录,通过布尔索引
df[df.duplicated()]
# 查询重复值的个数。
df.duplicated().sum()结果
1
pandas中DataFrame如何检测重复值相关推荐
- python 替换重复字符_python - 在Pandas中,如何将重复值替换为多个唯一字符串?_pandas_酷徒编程知识库...
对于每行重复,请使用:df = pd.DataFrame(data = {'Name':['Tom', 'Jerry', 'Jack', 'Terry'], 'OtherName':['Tom', ' ...
- pandas计算dataframe两列数据值相等的行号、取出DataFrame中两列值相等的行号
pandas计算dataframe两列数据值相等的行号.取出DataFrame中两列值相等的行号 目录 pandas计算dataframe两列数据值相等的行号.取出DataFrame中两列值相等的行号
- Python—pandas中DataFrame类型数据操作函数
python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFram ...
- python查看dataframe数据类型_python pandas中DataFrame类型数据操作函数的方法
python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数 ...
- python科学计算笔记(九)pandas中DataFrame数据操作函数
Python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数 ...
- python dataframe函数_python pandas中DataFrame类型数据操作函数的方法
这篇文章主要介绍了关于python pandas中DataFrame类型数据操作函数的方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 python数据分析工具pandas中Data ...
- python字符串替换空格_python - 用pandas中的NaN替换空白值(空格)
python - 用pandas中的NaN替换空白值(空格) 我想在Pandas数据帧中找到包含空格(任意数量)的所有值,并用NaN替换这些值. 有什么想法可以改进吗? 基本上我想转此: A B C ...
- Python之pandas:对pandas中dataframe数据中的索引输出、修改、重命名等详细攻略
Python之pandas:对pandas中dataframe数据中的索引输出.修改.重命名等详细攻略 目录 对pandas中dataframe数据中的索引输出.修改.重命名等详细攻略 知识点学习 输 ...
- python column stack_Python基础 | pandas中dataframe的整合与形变(merge reshape)
[toc] 本文示例数据下载,密码:vwy3 import pandas as pd # 数据是之前在cnblog上抓取的部分文章信息 df = pd.read_csv('./data/SQL测试用数 ...
- pandas中DataFrame的ix,loc,iloc索引方式的异同
pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...
最新文章
- Redis消息通知系统的实现
- 【正一专栏】梅西大婚——一辈子守候你都是值得的
- 【PHPStorm使用手册】如何设置字体大小?
- flex 设置换行flex-wrap
- 七牛云——对象存储私有空间下载凭证认证失败401[“error“:“download token auth failed“]解决方案
- UnityShader之Shader格式篇【Shader资料1】
- 2021年2月2日 - cxFocus Directive的单元测试不够稳定,有时候findFirstFocusable会多执行一次
- javascript php 性能,JavaScript知识点总结之如何提高性能_javascript技巧
- Species Tree(HashTable实现)
- 根据当前docker容器生成镜像提交到远端服务器
- spring 如何决定使用jdk动态代理和cglib(转)
- canvas 绘制贪吃蛇游戏 1
- c++函数如何返回一个vector_如何将Python的一个函数进行超时限制
- b站黑马程序员java视频学习笔记01
- Windows系统下输入法变为繁体字
- windows下安装kali linux子系统详细教程
- Android照片墙应用实现,再多的图片也不怕崩溃
- 小波系数等值线图和小波方差图绘制教学
- 认识V模型,W模型,H模型三类模型
- 计算机管理没有固态硬盘,电脑的BIOS中没有固态硬盘启动选项怎么办?