Pandas drop_duplicates()函数语法 (Pandas drop_duplicates() Function Syntax)

Pandas drop_duplicates() function removes duplicate rows from the DataFrame. Its syntax is:

Pandas drop_duplicates()函数从DataFrame中删除重复的行。 其语法为:

drop_duplicates(self, subset=None, keep="first", inplace=False)
  • subset: column label or sequence of labels to consider for identifying duplicate rows. By default, all the columns are used to find the duplicate rows.子集 :考虑用于标识重复行的列标签或标签序列。 默认情况下,所有列均用于查找重复的行。
  • keep: allowed values are {‘first’, ‘last’, False}, default ‘first’. If ‘first’, duplicate rows except the first one is deleted. If ‘last’, duplicate rows except the last one is deleted. If False, all the duplicate rows are deleted.keep :允许的值为{'first','last',False},默认为'first'。 如果为“ first”,则删除除第一个行以外的重复行。 如果为“ last”,则删除除最后一行以外的重复行。 如果为False,则删除所有重复的行。
  • inplace: if True, the source DataFrame is changed and None is returned. By default, source DataFrame remains unchanged and a new DataFrame instance is returned.inplace :如果为True,则更改源DataFrame并返回None。 默认情况下,源DataFrame保持不变,并返回一个新的DataFrame实例。

熊猫掉落重复行示例 (Pandas Drop Duplicate Rows Examples)

Let’s look into some examples of dropping duplicate rows from a DataFrame object.

让我们看一些从DataFrame对象中删除重复行的示例。

1.删​​除重复的行以保持第一个 (1. Drop Duplicate Rows Keeping the First One)

This is the default behavior when no arguments are passed.

当不传递任何参数时,这是默认行为。

import pandas as pdd1 = {'A': [1, 1, 1, 2], 'B': [2, 2, 2, 3], 'C': [3, 3, 4, 5]}source_df = pd.DataFrame(d1)
print('Source DataFrame:\n', source_df)# keep first duplicate row
result_df = source_df.drop_duplicates()
print('Result DataFrame:\n', result_df)

Output:

输出:

Source DataFrame:A  B  C
0  1  2  3
1  1  2  3
2  1  2  4
3  2  3  5
Result DataFrame:A  B  C
0  1  2  3
2  1  2  4
3  2  3  5

The source DataFrame rows 0 and 1 are duplicates. The first occurrence is kept and the rest of the duplicates are deleted.

源DataFrame行0和1是重复的。 保留第一个匹配项,其余重复项被删除。

2.删除重复项并保留最后一行 (2. Drop Duplicates and Keep Last Row)

result_df = source_df.drop_duplicates(keep='last')
print('Result DataFrame:\n', result_df)

Output:

输出:

Result DataFrame:A  B  C
1  1  2  3
2  1  2  4
3  2  3  5

The index ‘0’ is deleted and the last duplicate row ‘1’ is kept in the output.

索引“ 0”被删除,最后的重复行“ 1”保留在输出中。

3.从数据框删除所有重复的行 (3. Delete All Duplicate Rows from DataFrame)

result_df = source_df.drop_duplicates(keep=False)
print('Result DataFrame:\n', result_df)

Output:

输出:

Result DataFrame:A  B  C
2  1  2  4
3  2  3  5

Both the duplicate rows ‘0’ and ‘1’ are dropped from the result DataFrame.

重复的行“ 0”和“ 1”都从结果DataFrame中删除。

4.确定基于特定列的重复行 (4. Identify Duplicate Rows based on Specific Columns)

import pandas as pdd1 = {'A': [1, 1, 1, 2], 'B': [2, 2, 2, 3], 'C': [3, 3, 4, 5]}source_df = pd.DataFrame(d1)
print('Source DataFrame:\n', source_df)result_df = source_df.drop_duplicates(subset=['A', 'B'])
print('Result DataFrame:\n', result_df)

Output:

输出:

Source DataFrame:A  B  C
0  1  2  3
1  1  2  3
2  1  2  4
3  2  3  5
Result DataFrame:A  B  C
0  1  2  3
3  2  3  5

The columns ‘A’ and ‘B’ are used to identify duplicate rows. Hence, rows 0, 1, and 2 are duplicates. So, rows 1 and 2 are removed from the output.

列“ A”和“ B”用于标识重复的行。 因此,行0、1和2是重复的。 因此,从输出中删除了行1和2。

5.删除适当的重复行 (5. Remove Duplicate Rows in place)

source_df.drop_duplicates(inplace=True)
print(source_df)

Output:

输出:

A  B  C
0  1  2  3
2  1  2  4
3  2  3  5

参考资料 (References)

  • Python Pandas Module TutorialPython Pandas模块教程
  • Pandas DataFrame drop_duplicates() API Doc熊猫DataFrame drop_duplicates()API文档

翻译自: https://www.journaldev.com/33488/pandas-drop-duplicate-rows-drop_duplicates-function

熊猫删除重复行– drop_duplicates()函数相关推荐

  1. VB 源码 删除重复行程序 函数

    代码如下: '通过VB脚本改写而成,可以直接使用  放入程序中可以直接使用 '删除重复行程序 ' 'foutPathName  为待删除的文本文件.注:输入文件不能有空行,别外扩展名必需为.TXT ' ...

  2. pandas使用drop_duplicates函数基于subset参数指定的数据列子集删除重复行、并设置keep参数保留重复行中的最后一个数据行

    pandas使用drop_duplicates函数基于subset参数指定的数据列子集删除重复行.并设置keep参数保留重复行中的最后一个数据行 目录

  3. MySQL 如何查找删除重复行?

    如何查找重复行 第一步是定义什么样的行才是重复行.多数情况下很简单:它们某一列具有相同的值.本文采用这一定义,或许你对"重复"的定义比这复杂,你需要对sql做些修改.本文要用到的数 ...

  4. datagrid如何获取一行数据中的某个字段值_MySQL 如何查找删除重复行?

    如何查找重复行 第一步是定义什么样的行才是重复行.多数情况下很简单:它们某一列具有相同的值.本文采用这一定义,或许你对"重复"的定义比这复杂,你需要对sql做些修改.本文要用到的数 ...

  5. MySQL 如何查找并删除重复行

    如何查找重复行 第一步是定义什么样的行才是重复行.多数情况下很简单:它们某一列具有相同的值.本文采用这一定义,或许你对"重复"的定义比这复杂,你需要对sql做些修改.本文要用到的数 ...

  6. (二)对导入的Excel某列进行合并、求和,删除重复行

    第一次真正意义上做小项目,根据对方所提需求,慢慢的学习并实践. 在之前我们是通过ExcelDataReader插件将Excel的内容导入datagridview控件,那今天是将导入的数据从datagr ...

  7. SQL:查找或删除重复行

    本文讲述如何查找数据库里重复的行.这是初学者十分普遍遇到的问题.方法也很简单.这个问题还可以有其他演变,例如,如何查找"两字段重复的行"(#mysql IRC 频道最近问到的问题) ...

  8. Pandas删除重复行数据

    import pandas as pd df=pd.DataFrame({'m':['dashuaige']*3+['dameinv']*4,'n':[1,1,2,3,3,4,5]}) df['x'] ...

  9. Pandas 模块-操纵数据(8)-去除重复行 .drop_duplicates()

    目录 8. 去除重复行 .drop_duplicates() 8.1 .drop_duplicates() 语法 8.1.1 .drop_duplicates() 语法结构 8.1.2 .drop_d ...

最新文章

  1. visual basic.net 2019-当前内存状态、字符串内插、操作系统系统信息
  2. 使用 CXF 做 webservice 简单例子
  3. 视差滚动的爱情故事之优化篇
  4. Linux下自动化监控内存、存储空间!
  5. Citrix 服务器虚拟化之三十一 XenApp 6.5负载均衡
  6. 【紫书第八章】算法的时间优化设计
  7. javascript窗口属性示意图
  8. python暴力破解
  9. OpenCV学习之多通道图像的混合
  10. 打开Excel2007都提示向程序发送命令时出现问题的解决办法
  11. STM32F103调试出现 while((RCC-CR RCC_CR_PLL2RDY) == 0) 死循环。
  12. 微信开发文本信息如何换行
  13. 超多好礼等你来!绘超萌兔年AI头像,抢限定AI绘画红包封面!
  14. pytorch 定义torch类型数据_PyTorch 使用TorchText进行文本分类
  15. java 3年经验面试题
  16. Memcached与Redis的一些特点
  17. android 监听gif播放,Glide4.0 以后 监听Gif播放完成
  18. html页面特效是怎么做的,HTML5实现晶莹剔透的雨滴特效
  19. Codeforces Round #817 (Div. 4)(7/7)
  20. VUE前段开发-开发环境搭建和开发工具安装

热门文章

  1. 单调栈 BZOJ2364 城市美化
  2. 设计模式——代理模式与装饰模式的异同
  3. 软件开发实践的24条军规
  4. 动态SQL实现批量删除指定数据库的全部进程
  5. [转载] python提取list中特定的元素_Python中list列表的基本操作
  6. [转载] python strptime函数转时间数组_python—时间与时间戳之间的转换
  7. 初涉springboot(一)
  8. Django(6)-orm
  9. React Native常用第三方汇总
  10. (第十二周)Bug修正报告