Pandas之drop_duplicates:去除重复项
前言
本文,我们讲述Pandas如何去除重复项的操作,我们选择一个评价数据集来演示如何删除特定列上的重复项,如何删除重复项并保留最后一次出现,以及drop_duplicates的默认用法
方法
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
返回值
这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。
返回删除重复行的 DataFrame。 考虑某些列是可选的。索引(包括时间索引)将被忽略。
参数
返回DataFrame格式的数据。
- subset : column label or sequence of labels, optional
用来指定特定的列,默认所有列 - keep : {‘first’, ‘last’, False}, default ‘first’
删除重复项并保留第一次出现的项 - inplace : boolean, default False
是直接在原来数据上修改还是保留一个副本
实验
构建包含拉面评级的数据集
df = pd.DataFrame({'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],'style': ['cup', 'cup', 'cup', 'pack', 'pack'],'rating': [4, 4, 3.5, 15, 5]
})
数据集数据格式
df
brand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
默认情况下,它会根据所有列删除重复的行
df.drop_duplicates()
brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
要删除特定列上的重复项,请使用subset
df.drop_duplicates(subset=['brand'])
brand style rating
0 Yum Yum cup 4.0
2 Indomie cup 3.5
要删除重复项并保留最后一次出现,请使用 keep
df.drop_duplicates(subset=['brand', 'style'], keep='last')
brand style rating
1 Yum Yum cup 4.0
2 Indomie cup 3.5
4 Indomie pack 5.0
Pandas之drop_duplicates:去除重复项相关推荐
- pandas熊猫库.drop_duplicates()去除重复项
先看help的结果 >>> help(data.drop_duplicates) Help on method drop_duplicates in module pandas.co ...
- python dataframe删除重复行_详解pandas使用drop_duplicates去除DataFrame重复项参数
Pandas之drop_duplicates:去除重复项 方法 DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) ...
- python统计excel中重复数据_Python中用pandas对标Excel自带功能——去除重复项
经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死.后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器-- pandas 前言 有时候数据中出 ...
- es6去除重复项_Excel的去除重复项你真的明白原理吗?浅尝去除重复项的函数奥秘...
Excel函数学习:悟空百问の009:去除重复项的深入思考 我们经常整理一些数据,数据不可以动原数据,又需要进行数据分析处理,整理,数据汇总,如何快速的找到这些重复的值,这成了我们很头疼的东西,今天就 ...
- mysql百万级去重_mysql优化小技巧之去除重复项(百万级数据)
mysql优化小技巧之去除重复项(百万级数据) 发布时间:2018-06-11 11:54, 浏览次数:482 , 标签: mysql 说到这个去重,脑仁不禁得一疼,尤其是出具量比较大的时候.毕竟咱不 ...
- php 处理二维数组(去除重复项,排序,转换,去空白等)
技巧提示: array_keys($array) //返回所有键名array_values($array) //返回所有键值 $result=array_reverse($input); //将数组颠 ...
- Pytho中list去除重复项
法一:转为集合再转为列表 a=[1,2,3,4,2] b=list(set(a)) b=[1, 2, 3, 4] 注: list()函数可以将元组或者字符串转换为列表 list('hello,worl ...
- abap语言去除重复项怎么写
在ABAP语言中,可以使用内置函数DISTINCT去除重复项.下面是一个简单的例子: DATA:BEGIN OF lt_data OCCURS 0,field1 TYPE string,field2 ...
- 深入理解C# Unity List集合去除重复项 Distinct
C#集合中如何去除重复项? 于是你百度了一波,找到以下解决方案. 第一种:两次循环遍历 List<int> repeatList= new List<int>() { 1, 2 ...
最新文章
- 在Mybatis-spring上基于注解的数据源实现方案
- Python基础教程(七):函数、模块
- 真执着 卡巴斯基和Palo Alto找到了BlackEnergy和ExPetr的相似代码
- kda 处理曲面地图绘制的问题
- 2021计算机专业考408的学校,2021考研:计算机考研408是什么?统考学校有哪些?...
- 带你走进SAP项目实施过程——前言(0)
- 如果“王思聪”们创业就一定能成功
- 创业者:永远站着顾客这边
- ssas计算度量_如何在Analysis Services(SSAS)中创建中间度量
- smartctl command's RETURN VALUES
- 【Java】字符串String操作
- 2017 ACM-ICPC 亚洲区(乌鲁木齐赛区)网络赛 E. Half-consecutive Numbers
- Struts_登录练习(配置拦截器)
- python入口文件详解_Python基础系列讲解——那些py文件中容易忽略的细节
- 破解WIFI详细教程
- anaconda 重新安装
- C语言 | 算法 | BFS
- 自媒体人如何定位?自媒体大号应该怎么去运营和发展
- 电影评论 R文本挖掘-情感分析
- MySQL面试系列:MVCC是怎么实现的?(三)