熊猫删除重复行– drop_duplicates()函数
Pandas drop_duplicates()函数语法 (Pandas drop_duplicates() Function Syntax)
Pandas drop_duplicates() function removes duplicate rows from the DataFrame. Its syntax is:
Pandas drop_duplicates()函数从DataFrame中删除重复的行。 其语法为:
drop_duplicates(self, subset=None, keep="first", inplace=False)
- subset: column label or sequence of labels to consider for identifying duplicate rows. By default, all the columns are used to find the duplicate rows.子集 :考虑用于标识重复行的列标签或标签序列。 默认情况下,所有列均用于查找重复的行。
- keep: allowed values are {‘first’, ‘last’, False}, default ‘first’. If ‘first’, duplicate rows except the first one is deleted. If ‘last’, duplicate rows except the last one is deleted. If False, all the duplicate rows are deleted.keep :允许的值为{'first','last',False},默认为'first'。 如果为“ first”,则删除除第一个行以外的重复行。 如果为“ last”,则删除除最后一行以外的重复行。 如果为False,则删除所有重复的行。
- inplace: if True, the source DataFrame is changed and None is returned. By default, source DataFrame remains unchanged and a new DataFrame instance is returned.inplace :如果为True,则更改源DataFrame并返回None。 默认情况下,源DataFrame保持不变,并返回一个新的DataFrame实例。
熊猫掉落重复行示例 (Pandas Drop Duplicate Rows Examples)
Let’s look into some examples of dropping duplicate rows from a DataFrame object.
让我们看一些从DataFrame对象中删除重复行的示例。
1.删除重复的行以保持第一个 (1. Drop Duplicate Rows Keeping the First One)
This is the default behavior when no arguments are passed.
当不传递任何参数时,这是默认行为。
import pandas as pdd1 = {'A': [1, 1, 1, 2], 'B': [2, 2, 2, 3], 'C': [3, 3, 4, 5]}source_df = pd.DataFrame(d1)
print('Source DataFrame:\n', source_df)# keep first duplicate row
result_df = source_df.drop_duplicates()
print('Result DataFrame:\n', result_df)
Output:
输出:
Source DataFrame:A B C
0 1 2 3
1 1 2 3
2 1 2 4
3 2 3 5
Result DataFrame:A B C
0 1 2 3
2 1 2 4
3 2 3 5
The source DataFrame rows 0 and 1 are duplicates. The first occurrence is kept and the rest of the duplicates are deleted.
源DataFrame行0和1是重复的。 保留第一个匹配项,其余重复项被删除。
2.删除重复项并保留最后一行 (2. Drop Duplicates and Keep Last Row)
result_df = source_df.drop_duplicates(keep='last')
print('Result DataFrame:\n', result_df)
Output:
输出:
Result DataFrame:A B C
1 1 2 3
2 1 2 4
3 2 3 5
The index ‘0’ is deleted and the last duplicate row ‘1’ is kept in the output.
索引“ 0”被删除,最后的重复行“ 1”保留在输出中。
3.从数据框删除所有重复的行 (3. Delete All Duplicate Rows from DataFrame)
result_df = source_df.drop_duplicates(keep=False)
print('Result DataFrame:\n', result_df)
Output:
输出:
Result DataFrame:A B C
2 1 2 4
3 2 3 5
Both the duplicate rows ‘0’ and ‘1’ are dropped from the result DataFrame.
重复的行“ 0”和“ 1”都从结果DataFrame中删除。
4.确定基于特定列的重复行 (4. Identify Duplicate Rows based on Specific Columns)
import pandas as pdd1 = {'A': [1, 1, 1, 2], 'B': [2, 2, 2, 3], 'C': [3, 3, 4, 5]}source_df = pd.DataFrame(d1)
print('Source DataFrame:\n', source_df)result_df = source_df.drop_duplicates(subset=['A', 'B'])
print('Result DataFrame:\n', result_df)
Output:
输出:
Source DataFrame:A B C
0 1 2 3
1 1 2 3
2 1 2 4
3 2 3 5
Result DataFrame:A B C
0 1 2 3
3 2 3 5
The columns ‘A’ and ‘B’ are used to identify duplicate rows. Hence, rows 0, 1, and 2 are duplicates. So, rows 1 and 2 are removed from the output.
列“ A”和“ B”用于标识重复的行。 因此,行0、1和2是重复的。 因此,从输出中删除了行1和2。
5.删除适当的重复行 (5. Remove Duplicate Rows in place)
source_df.drop_duplicates(inplace=True)
print(source_df)
Output:
输出:
A B C
0 1 2 3
2 1 2 4
3 2 3 5
参考资料 (References)
- Python Pandas Module TutorialPython Pandas模块教程
- Pandas DataFrame drop_duplicates() API Doc熊猫DataFrame drop_duplicates()API文档
翻译自: https://www.journaldev.com/33488/pandas-drop-duplicate-rows-drop_duplicates-function
熊猫删除重复行– drop_duplicates()函数相关推荐
- VB 源码 删除重复行程序 函数
代码如下: '通过VB脚本改写而成,可以直接使用 放入程序中可以直接使用 '删除重复行程序 ' 'foutPathName 为待删除的文本文件.注:输入文件不能有空行,别外扩展名必需为.TXT ' ...
- pandas使用drop_duplicates函数基于subset参数指定的数据列子集删除重复行、并设置keep参数保留重复行中的最后一个数据行
pandas使用drop_duplicates函数基于subset参数指定的数据列子集删除重复行.并设置keep参数保留重复行中的最后一个数据行 目录
- MySQL 如何查找删除重复行?
如何查找重复行 第一步是定义什么样的行才是重复行.多数情况下很简单:它们某一列具有相同的值.本文采用这一定义,或许你对"重复"的定义比这复杂,你需要对sql做些修改.本文要用到的数 ...
- datagrid如何获取一行数据中的某个字段值_MySQL 如何查找删除重复行?
如何查找重复行 第一步是定义什么样的行才是重复行.多数情况下很简单:它们某一列具有相同的值.本文采用这一定义,或许你对"重复"的定义比这复杂,你需要对sql做些修改.本文要用到的数 ...
- MySQL 如何查找并删除重复行
如何查找重复行 第一步是定义什么样的行才是重复行.多数情况下很简单:它们某一列具有相同的值.本文采用这一定义,或许你对"重复"的定义比这复杂,你需要对sql做些修改.本文要用到的数 ...
- (二)对导入的Excel某列进行合并、求和,删除重复行
第一次真正意义上做小项目,根据对方所提需求,慢慢的学习并实践. 在之前我们是通过ExcelDataReader插件将Excel的内容导入datagridview控件,那今天是将导入的数据从datagr ...
- SQL:查找或删除重复行
本文讲述如何查找数据库里重复的行.这是初学者十分普遍遇到的问题.方法也很简单.这个问题还可以有其他演变,例如,如何查找"两字段重复的行"(#mysql IRC 频道最近问到的问题) ...
- Pandas删除重复行数据
import pandas as pd df=pd.DataFrame({'m':['dashuaige']*3+['dameinv']*4,'n':[1,1,2,3,3,4,5]}) df['x'] ...
- Pandas 模块-操纵数据(8)-去除重复行 .drop_duplicates()
目录 8. 去除重复行 .drop_duplicates() 8.1 .drop_duplicates() 语法 8.1.1 .drop_duplicates() 语法结构 8.1.2 .drop_d ...
最新文章
- visual basic.net 2019-当前内存状态、字符串内插、操作系统系统信息
- 使用 CXF 做 webservice 简单例子
- 视差滚动的爱情故事之优化篇
- Linux下自动化监控内存、存储空间!
- Citrix 服务器虚拟化之三十一 XenApp 6.5负载均衡
- 【紫书第八章】算法的时间优化设计
- javascript窗口属性示意图
- python暴力破解
- OpenCV学习之多通道图像的混合
- 打开Excel2007都提示向程序发送命令时出现问题的解决办法
- STM32F103调试出现 while((RCC-CR RCC_CR_PLL2RDY) == 0) 死循环。
- 微信开发文本信息如何换行
- 超多好礼等你来!绘超萌兔年AI头像,抢限定AI绘画红包封面!
- pytorch 定义torch类型数据_PyTorch 使用TorchText进行文本分类
- java 3年经验面试题
- Memcached与Redis的一些特点
- android 监听gif播放,Glide4.0 以后 监听Gif播放完成
- html页面特效是怎么做的,HTML5实现晶莹剔透的雨滴特效
- Codeforces Round #817 (Div. 4)(7/7)
- VUE前段开发-开发环境搭建和开发工具安装