DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为’first’ ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为’last’,也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

df = pd.DataFrame({'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],'style': ['cup', 'cup', 'cup', 'pack', 'pack'],'rating': [4, 4, 3.5, 15, 5]
})
df

# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()结果
0    False
1     True
2    False
3    False
4    False
dtype: bool# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")结果
0     True
1    False
2    False
3    False
4    False
dtype: bool# keep=False,,所有重复的为True
df.duplicated(keep=False)结果
0     True
1     True
2    False
3    False
4    False
dtype: bool# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')结果0    False
1     True
2    False
3     True
4     True
dtype: bool# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])结果0    False
1     True
2    False
3    False
4     True
dtype: bool# 显示重复记录,通过布尔索引
df[df.duplicated()]

# 查询重复值的个数。
df.duplicated().sum()结果
1

pandas中DataFrame如何检测重复值相关推荐

  1. python 替换重复字符_python - 在Pandas中,如何将重复值替换为多个唯一字符串?_pandas_酷徒编程知识库...

    对于每行重复,请使用:df = pd.DataFrame(data = {'Name':['Tom', 'Jerry', 'Jack', 'Terry'], 'OtherName':['Tom', ' ...

  2. pandas计算dataframe两列数据值相等的行号、取出DataFrame中两列值相等的行号

    pandas计算dataframe两列数据值相等的行号.取出DataFrame中两列值相等的行号 目录 pandas计算dataframe两列数据值相等的行号.取出DataFrame中两列值相等的行号

  3. Python—pandas中DataFrame类型数据操作函数

    python数据分析工具pandas中DataFrame和Series作为主要的数据结构.  本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数.  1)查看DataFram ...

  4. python查看dataframe数据类型_python pandas中DataFrame类型数据操作函数的方法

    python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数 ...

  5. python科学计算笔记(九)pandas中DataFrame数据操作函数

    Python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数 ...

  6. python dataframe函数_python pandas中DataFrame类型数据操作函数的方法

    这篇文章主要介绍了关于python pandas中DataFrame类型数据操作函数的方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 python数据分析工具pandas中Data ...

  7. python字符串替换空格_python - 用pandas中的NaN替换空白值(空格)

    python - 用pandas中的NaN替换空白值(空格) 我想在Pandas数据帧中找到包含空格(任意数量)的所有值,并用NaN替换这些值. 有什么想法可以改进吗? 基本上我想转此: A B C ...

  8. Python之pandas:对pandas中dataframe数据中的索引输出、修改、重命名等详细攻略

    Python之pandas:对pandas中dataframe数据中的索引输出.修改.重命名等详细攻略 目录 对pandas中dataframe数据中的索引输出.修改.重命名等详细攻略 知识点学习 输 ...

  9. python column stack_Python基础 | pandas中dataframe的整合与形变(merge reshape)

    [toc] 本文示例数据下载,密码:vwy3 import pandas as pd # 数据是之前在cnblog上抓取的部分文章信息 df = pd.read_csv('./data/SQL测试用数 ...

  10. pandas中DataFrame的ix,loc,iloc索引方式的异同

    pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...

最新文章

  1. Redis消息通知系统的实现
  2. 【正一专栏】梅西大婚——一辈子守候你都是值得的
  3. 【PHPStorm使用手册】如何设置字体大小?
  4. flex 设置换行flex-wrap
  5. 七牛云——对象存储私有空间下载凭证认证失败401[“error“:“download token auth failed“]解决方案
  6. UnityShader之Shader格式篇【Shader资料1】
  7. 2021年2月2日 - cxFocus Directive的单元测试不够稳定,有时候findFirstFocusable会多执行一次
  8. javascript php 性能,JavaScript知识点总结之如何提高性能_javascript技巧
  9. Species Tree(HashTable实现)
  10. 根据当前docker容器生成镜像提交到远端服务器
  11. spring 如何决定使用jdk动态代理和cglib(转)
  12. canvas 绘制贪吃蛇游戏 1
  13. c++函数如何返回一个vector_如何将Python的一个函数进行超时限制
  14. b站黑马程序员java视频学习笔记01
  15. Windows系统下输入法变为繁体字
  16. windows下安装kali linux子系统详细教程
  17. Android照片墙应用实现,再多的图片也不怕崩溃
  18. 小波系数等值线图和小波方差图绘制教学
  19. 认识V模型,W模型,H模型三类模型
  20. 计算机管理没有固态硬盘,电脑的BIOS中没有固态硬盘启动选项怎么办?

热门文章

  1. 毕业论文/分页符/段前2行没用
  2. 整车控制器(VCU)策略及开发流程
  3. segue 分析小结
  4. walking机器人仿真教程-激光导航-TEB算法导航
  5. pr用什么显卡比较好_Adobe Premiere视频渲染用的显卡该怎么选?
  6. html的存储路径在哪,x浏览器书签保存在哪里?x浏览器书签本地存储路径位置分享...
  7. 如何使用chevereto自建图床
  8. 计算圆柱的侧面积及体积
  9. 机器学习基本概念-有监督学习和无监督学习
  10. 解构荣耀销量奇迹背后的化学反应:技术+品质+产品力