前言

本文,我们讲述Pandas如何去除重复项的操作,我们选择一个评价数据集来演示如何删除特定列上的重复项,如何删除重复项并保留最后一次出现,以及drop_duplicates的默认用法

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

返回值

这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。

返回删除重复行的 DataFrame。 考虑某些列是可选的。索引(包括时间索引)将被忽略。

参数

返回DataFrame格式的数据。

  • subset : column label or sequence of labels, optional
    用来指定特定的列,默认所有列
  • keep : {‘first’, ‘last’, False}, default ‘first’
    删除重复项并保留第一次出现的项
  • inplace : boolean, default False
    是直接在原来数据上修改还是保留一个副本

实验

构建包含拉面评级的数据集

df = pd.DataFrame({'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],'style': ['cup', 'cup', 'cup', 'pack', 'pack'],'rating': [4, 4, 3.5, 15, 5]
})

数据集数据格式

df
brand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

默认情况下,它会根据所有列删除重复的行

df.drop_duplicates()

brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0

要删除特定列上的重复项,请使用subset

df.drop_duplicates(subset=['brand'])

brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5

要删除重复项并保留最后一次出现,请使用 keep

df.drop_duplicates(subset=['brand', 'style'], keep='last')

brand style rating
1 Yum Yum cup 4.0
2 Indomie cup 3.5
4 Indomie pack 5.0

Pandas之drop_duplicates:去除重复项相关推荐

  1. pandas熊猫库.drop_duplicates()去除重复项

    先看help的结果 >>> help(data.drop_duplicates) Help on method drop_duplicates in module pandas.co ...

  2. python dataframe删除重复行_详解pandas使用drop_duplicates去除DataFrame重复项参数

    Pandas之drop_duplicates:去除重复项 方法 DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) ...

  3. python统计excel中重复数据_Python中用pandas对标Excel自带功能——去除重复项

    经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死.后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器-- pandas 前言 有时候数据中出 ...

  4. es6去除重复项_Excel的去除重复项你真的明白原理吗?浅尝去除重复项的函数奥秘...

    Excel函数学习:悟空百问の009:去除重复项的深入思考 我们经常整理一些数据,数据不可以动原数据,又需要进行数据分析处理,整理,数据汇总,如何快速的找到这些重复的值,这成了我们很头疼的东西,今天就 ...

  5. mysql百万级去重_mysql优化小技巧之去除重复项(百万级数据)

    mysql优化小技巧之去除重复项(百万级数据) 发布时间:2018-06-11 11:54, 浏览次数:482 , 标签: mysql 说到这个去重,脑仁不禁得一疼,尤其是出具量比较大的时候.毕竟咱不 ...

  6. php 处理二维数组(去除重复项,排序,转换,去空白等)

    技巧提示: array_keys($array) //返回所有键名array_values($array) //返回所有键值 $result=array_reverse($input); //将数组颠 ...

  7. Pytho中list去除重复项

    法一:转为集合再转为列表 a=[1,2,3,4,2] b=list(set(a)) b=[1, 2, 3, 4] 注: list()函数可以将元组或者字符串转换为列表 list('hello,worl ...

  8. abap语言去除重复项怎么写

    在ABAP语言中,可以使用内置函数DISTINCT去除重复项.下面是一个简单的例子: DATA:BEGIN OF lt_data OCCURS 0,field1 TYPE string,field2 ...

  9. 深入理解C# Unity List集合去除重复项 Distinct

    C#集合中如何去除重复项? 于是你百度了一波,找到以下解决方案. 第一种:两次循环遍历 List<int> repeatList= new List<int>() { 1, 2 ...

最新文章

  1. 在Mybatis-spring上基于注解的数据源实现方案
  2. Python基础教程(七):函数、模块
  3. 真执着 卡巴斯基和Palo Alto找到了BlackEnergy和ExPetr的相似代码
  4. kda 处理曲面地图绘制的问题
  5. 2021计算机专业考408的学校,2021考研:计算机考研408是什么?统考学校有哪些?...
  6. 带你走进SAP项目实施过程——前言(0)
  7. 如果“王思聪”们创业就一定能成功
  8. 创业者:永远站着顾客这边
  9. ssas计算度量_如何在Analysis Services(SSAS)中创建中间度量
  10. smartctl command's RETURN VALUES
  11. 【Java】字符串String操作
  12. 2017 ACM-ICPC 亚洲区(乌鲁木齐赛区)网络赛 E. Half-consecutive Numbers
  13. Struts_登录练习(配置拦截器)
  14. python入口文件详解_Python基础系列讲解——那些py文件中容易忽略的细节
  15. 破解WIFI详细教程
  16. anaconda 重新安装
  17. C语言 | 算法 | BFS
  18. 自媒体人如何定位?自媒体大号应该怎么去运营和发展
  19. 电影评论 R文本挖掘-情感分析
  20. MySQL面试系列:MVCC是怎么实现的?(三)

热门文章

  1. 数据结构之树从入门到如土(四)----从零开始入门Rust实现一颗B树(未完成待续)
  2. 云服务器就是虚拟机,云服务器就是一个虚拟机吗
  3. 主张:男人害怕的30种女人(zt)
  4. Word里能放电影吗?
  5. Datagridview 相关
  6. Python处理空间地理数据
  7. 吴军《数学之美》第二版阅读整理
  8. Windows内存 之 任务管理器
  9. php获取真实客户端IP方法
  10. Spire.Office 7.5.4 发布 ~~ Spire.Office