pandas,根据某几列筛选出重复记录,is_unique与duplicated
is_unique
与duplicated
都可以用于判断是否存在重复记录,区别在于:
1)is_unique
:是Series
的属性,即只能对系列应用该属性
2)duplicated
:是DataFrame
的函数,Series
和DataFrame
都可以使用
df = pd.DataFrame({'名字': ['小王', '小三', '李四', '王二', '小四'],'年龄': ['45', '23', '28', '35', '23'],'体重': [98, 92, 98, 102, 92]
})# 名字 年龄 体重
# 0 小王 45 98
# 1 小三 23 92
# 2 李四 28 98
# 3 王二 35 102
# 4 小四 23 92
1、判断某一列是否存在重复记录
df.loc[:, "名字"].is_unique # df["名字"].is_unique 或 df.名字.is_unique
df.loc[:, "名字"].duplicated() # df["名字"].duplicated() 或 df.名字.duplicated()df.loc[:, ["名字"]].duplicated()# 上面的写法都是可以的,下面这种写法就会报错:
# AttributeError: 'DataFrame' object has no attribute 'is_unique'
# 原因:is_unique 只能用于 Series
df.loc[:, ["名字"]].is_unique
2、根据某几列筛选出所有重复记录(选出年龄和身高都相同的人)
df.loc[df.iloc[:, 1:].duplicated(keep=False), :]
# df.loc[df.iloc[:, 1:].is_unique, :] # 报错:AttributeError: 'DataFrame' object has no attribute 'is_unique'# 名字 年龄 体重
# 1 小三 23 92
# 4 小四 23 92
3、关于duplicated
的使用:DataFrame.duplicated(subset=None, keep='first')
"""
参数解释:
1、subset:针对哪几列进行重复值判断
2、keep:保留第几个重复值。默认是'first'。1)默认值:保留第一次出现的重复值。即第一次出现的记录,其返回的逻辑值为False2)last:保留最后一次出现的重复值。即最后一次出现的记录,其返回的逻辑值为False3)False:所有重复值都不保留。即所有重复记录返回的逻辑值都为True
"""
df.duplicated(subset=["年龄", "体重"], keep="first")# ====== df =============# 名字 年龄 体重
# 0 False # 0 小王 45 98
# 1 False # 1 小三 23 92 -->第一次出现的重复值
# 2 False # 2 李四 28 98
# 3 False # 3 王二 35 102
# 4 True # 4 小四 23 92
# dtype: bool df.duplicated(subset=["年龄", "体重"], keep="last")# ====== df =============# 名字 年龄 体重
# 0 False # 0 小王 45 98
# 1 True # 1 小三 23 92
# 2 False # 2 李四 28 98
# 3 False # 3 王二 35 102
# 4 False # 4 小四 23 92 -->最后一次出现的重复值
# dtype: bool df.duplicated(subset=["年龄", "体重"], keep=False)# ====== df =============# 名字 年龄 体重
# 0 False # 0 小王 45 98
# 1 True # 1 小三 23 92 -->重复值1
# 2 False # 2 李四 28 98
# 3 False # 3 王二 35 102
# 4 True # 4 小四 23 92 -->重复值2
# dtype: bool
pandas,根据某几列筛选出重复记录,is_unique与duplicated相关推荐
- xlsx表格怎么筛选重复数据_怎样在excel2010中筛选出重复数据呢?
数据是信息的表现形式和载体,可以是符号.文字.数字.语音.图像.视频等.数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵.在这一篇教程里面,小编主要和大家简单的介绍一下:怎样在Excel20 ...
- Excel数据太多,不会筛选重复数据?只需1键,即可筛选出重复数据
在日常工作中,相信很多人都会遇到这样的问题:Excel表格中的数据太多了,而且其中还有一些重复的数据,想要快速筛选出,但是又不会. 其实,想要快速筛选出重复的数据是有方法的.只要掌握下面这些方法,1秒 ...
- es6去除重复项_javascript在ES6中从数组中筛选出重复项并仅返回唯一值
这是从数组中筛选出重复项并仅返回唯一值的三种方法.我最喜欢的是使用Set,因为它是最短和最简单的. 1.使用Set 首先让我解释一下Set:Set是ES6中引入的新数据对象.因为Set仅允许您存储唯一 ...
- excel如何晒出重复数据_excel 如何在大量数据中快速筛选出重复数据
当我们录入或者处理大量数据时,难免会遇到一些数据重复的问题,下面就教大家几种方法如何快速地找出数据中的重复项. 条件格式 重复项填色工具 打开数据表,选中需要进行筛选的目标数据列,在开始菜单栏中找到& ...
- 在excel中如何筛选重复数据_Excel 在大量数据中快速筛选出重复数据
当我们录入或者处理大量数据时,难免会遇到一些数据重复的问题,下面就教大家几种方法如何快速地找出数据中的重复项. 条件格式 重复项填色工具 打开数据表,选中需要进行筛选的目标数据列,在开始菜单栏中找到& ...
- excel如何快速筛选出重复项
打开数据表,选中需找出重复项的一列,在开始菜单栏中找到"条件格式 → 突出显示单元格规则 → 重复项". 可以看到重复项都被标注成了红色,接下来就是处理这些重复数据. 选中所有的数 ...
- Excel表格如何筛选出重复的数据?
听起来是个很简单的事,但真操作起来就不那么简单了,一不留神就可能丢失数据.有没有安全一点的方法呢?下面是我常用的方法,虽然啰嗦或者笨了一点,但安全有效. 1.如下图一组数据,里面有重复的内容. . 2 ...
- mysql中筛选不重复值_MYSQL中筛选不重复记录值的示例
我的wordpress数据库中的wp_postmeta表都有10,000多行了,如果使用两次循环查找判断,虽然我们不累,但是程序运行很累啊. 如果我想用一条语句查询得到name不重复的所有数据,那就必 ...
- excel如何晒出重复数据_怎么筛选出excel中重复数据
本文收集整理关于怎么筛选出excel中重复数据的相关议题,使用内容导航快速到达. 内容导航: Q1:Excel的数据怎么筛选一列中重复的数据 假如1在A2单元格,在B2单元格输入公式, =IF(COU ...
最新文章
- Robot framework 引入 Selenium2Library 类库:
- rube3xxx_Rube GoldbergSpring整合
- MapReduce:通过数据密集型文本处理
- zoj2008 最短路
- linux 进程间读写锁,Linux系统编程—进程间同步
- 传统金融为什么要做AI?平安保险CEO解读行业痛点
- ROS学习笔记8(使用 rqt_console, rqt_graph 和 roslaunch)
- window10设置文件夹备注
- 再来一个end——好像很有用
- 2020 网易 面经
- react 截取视频随意一帧裁剪图片存为base64格式
- JSP:9个隐含对象(隐含变量)
- MATLAB验证泊松亮斑,北大附中2014届高三物理一轮复习单元训练:波粒二象性
- java base64转图片打不开_解决通过 Base64 解码得到的图片无法打开查看的问题
- 南清北复交北航哈工大中科院华科保研记
- 专硕计算机学院排名,考研计算机院校排名
- 新能源汽车,车架号VIN码查询接口
- Cannot connect:由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。192.168.0.113:22
- python corrupt extra field_英语专四dictation模拟练习-沪江英语
- python split()函数
热门文章
- 广元停车场系统推荐_广元车牌自动识别停车系统设计方案,车牌自动识别系统停车场哪家有名...
- 企业知识管理怎样做?一些解决方案分享!
- 网易杭州研究院招聘 | 遇见offer之就要圆你的大厂梦
- GitHub 学生认证
- 利尔达受邀出席天翼物联开发者大赛创新成果发布会暨颁奖典礼
- EXCEL批量给多个单元格里指定字上色其他颜色
- 公务员考试取消35岁限制,就能消除职场年龄歧视?
- 35页PPT下载 |《2019年5G应用场景研究报告》
- 山西计算机大赛崔奕,计算机系在华北五省(市、自治区)大学生机器人大赛山西赛区比赛获得佳绩...
- charCodeAt()方法