pandas去重函数
pandas.DataFrame.duplicated
duplicated api
DataFrame.duplicated
(subset=None, keep=first)
返回布尔类型的Series结构表示有重复值的行,True表示是重复值(行)
参数
subset: column label or sequence of labels, optional
可以指定检测某一列是否有重复值。默认将检测pandas数据中是否有重复行
keep: {first, last, False}, default first
first
: 对于所有重复值,标记除第一次出现的重复值,默认。
last
: 对于所有重复值,标记除最后一次出现的重复值
False
: 标记所有重复值
df = pd.DataFrame({'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],'style': ['cup', 'cup', 'cup', 'pack', 'pack'],'rating': [4, 4, 3.5, 15, 5]
})
dfbrand style rating
0 Yum Yum cup 4.0
1 Yum Yum cup 4.0
2 Indomie cup 3.5
3 Indomie pack 15.0
4 Indomie pack 5.0
df.duplicated()0 False
1 True
2 False
3 False
4 False
dtype: bool
pandas.DataFrame.drop_duplicates
drop_duplicates api
DataFrame.``drop_duplicates
(subset=None, keep=‘first’, inplace=False, ignore_index=False)
返回已去重的DataFrame结构,默认保留第一次出现的行(值)、非原地操作、不为去重后的行添加默认索引
参数
subset: column label or sequence of labels, optional
Only consider certain columns for identifying duplicates, by default use all of the columns.
keep: {‘first’, ‘last’, False}, default ‘first’
同pandas.DataFrame.duplicated()
inplace: bool, default False
Whether to drop duplicates in place or to return a copy.
ignore_index: bool, default False
If True, the resulting axis will be labeled 0, 1, …, n - 1.New in version 1.0.0.
Returns
DataFrame or None
DataFrame with duplicates removed or None if
inplace=True
.
pandas.Series.value_counts
value_counts api
Series.value_counts
(normalize=False, sort=True, ascending=False, bins=None, dropna=True)
统计各种值出现的次数,默认降序排列,以便将次数最多的值(除NA)置顶
index = pd.Index([3, 1, 2, 3, 4, np.nan])
index.value_counts()3.0 2
2.0 1
4.0 1
1.0 1
dtype: int64
pandas去重函数相关推荐
- Pandas去重函数:drop_duplicates()
Pandas去重函数:drop_duplicates() "去重"通过字面意思不难理解,就是删除重复的数据.在一个数据集中,找出重复的数据删并将其删除,最终只保存一个唯一存在的数据 ...
- python数据去重的函数_python pandas dataframe 去重函数的具体使用
今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数 先看一个小例子 from pandas import Series, DataFrame data = DataFrame({' ...
- python数据去重的函数_python去重函数是什么
数据去重可以使用duplicated()和drop_duplicates()两个方法. DataFrame.duplicated(subset = None,keep ='first')返回boole ...
- csv去重 python_python去重函数是什么
数据去重可以使用duplicated()和drop_duplicates()两个方法. DataFrame.duplicated(subset = None,keep ='first')返回boole ...
- 『Python核心技术与实战』pandas.DataFrame()函数介绍
pandas.DataFrame()函数介绍! 文章目录 一. 创建DataFrame 1.1. numpy创建 1.2. 直接创建 1.3. 字典创建 1.4. Series和DataFrame 二 ...
- series去重_python去重函数是什么
数据去重可以使用duplicated()和drop_duplicates()两个方法. DataFrame.duplicated(subset = None,keep ='first')返回boole ...
- Pandas快速入门之第三节使用pandas去重、合并、已经统计出现次数
前言: 本节主要参考的连接有, https://blog.csdn.net/brucewong0516/article/details/82707492 本节主要介绍如何使用pandas去重.合并.以 ...
- blankcount函数python,Python pandas常用函数详解
本文研究的主要是pandas常用函数,具体介绍如下. 1 import语句 2 文件读取 df = pd.read_csv(path='file.csv') 参数:header=None 用默认列名, ...
- 数据分析工具Pandas(4):Pandas的函数应用
数据分析工具Pandas(1):Pandas的数据结构 数据分析工具Pandas(2):Pandas的索引操作 数据分析工具Pandas(3):Pandas的对齐运算 数据分析工具Pandas(4): ...
最新文章
- 使用Keras构建具有自定义结构和层次图卷积神经网络(GCNN)
- 再论数据科学竞赛中的Data Leakage
- 【dfs】简单游戏(jzoj 2121)
- VC++中Format用法
- 关于xrdp的安装设置
- pandas tqdm添加进度条
- 重建控制文件--Rebuild controlfile
- (原創) 網站CSS重新調整,全面支援IE6與FireFox 2.0!! (Web) (CSS)
- csc.exe的使用
- 【微信商城小程序怎么弄】微信商城小程序开发的基本流程
- Linux下连接mongoDB出现no reachable servers以及mongoDB创建用户
- 通过Navicat for MySQL导入数据时,日期时间错误问题解决办法
- Kubesphere应用商店
- 2058:简单计算器
- 探花交友_第7章-完善消息功能以及个人主页
- 故宫避开人流游玩的 4 个诀窍
- 2022-2028年中国桌面云产业发展动态及市场需求预测报告
- 字节跳动Java实习面试凉凉经,附答案+考点
- threejs effects -1 立体浮雕效果和视差屏障效果
- 计算机日常故障DIY维修有哪些,有关计算机常见故障排除与日常维护
热门文章
- PAT甲级1050 String Subtraction:[C++题解]字符串作差
- 《剑指offer》c++版本 11. 旋转数组的最小数字
- java编写学生管理系统_Java实现学生管理系统
- c 串转string_c++ 中 char 与 string 之间的相互转换问题
- centos修改磁盘uuid_CentOS 6如何修改磁盘配额限制
- 湘潭计算机职业技术学校专业介绍,湘潭计算机职业技术学校介绍
- iis7.5php.2,Windows2008 IIS7.5搭建PHP5.2
- java web压缩过滤器_Java Web过滤器Filter(五)
- 如何让网页弹出确定_电脑去除网页上弹窗广告的操作方法
- 安徽省计算机二级大题教程,安徽省计算机二级例题