Pandas数据分析 - 去重 - duplicated() drop_duplicates() 用法
import numpy as np
import pandas as pd
#生成重复数据
df=pd.DataFrame(np.ones([5,2]),columns=['col1','col2'])
df['col3']=['a','b','a','c','d']
df['col4']=[3,2,3,2,2]
df=df.reindex(columns=['col3','col4','col1','col2']) #将新增的一列排在第一列
dfcol3 col4 col1 col2
0 a 3 1.0 1.0
1 b 2 1.0 1.0
2 a 3 1.0 1.0
3 c 2 1.0 1.0
4 d 2 1.0 1.0
#判断重复数据
df.duplicated()0 False
1 False
2 True
3 False
4 False
dtype: booldf.duplicated().sum()1
#删除重复值df.drop_duplicates() #删除数据记录中所有列值相同的记录col3 col4 col1 col2
0 a 3 1.0 1.0
1 b 2 1.0 1.0
3 c 2 1.0 1.0
4 d 2 1.0 1.0df.drop_duplicates(['col3']) #删除数据记录中col3列值相同的记录col3 col4 col1 col2
0 a 3 1.0 1.0
1 b 2 1.0 1.0
3 c 2 1.0 1.0
4 d 2 1.0 1.0df.drop_duplicates(['col4']) #删除数据记录中col4列值相同的记录col3 col4 col1 col2
0 a 3 1.0 1.0
1 b 2 1.0 1.0df.drop_duplicates(['col3','col4']) #删除数据记录中(col3和col4)列值相同的记录col3 col4 col1 col2
0 a 3 1.0 1.0
1 b 2 1.0 1.0
3 c 2 1.0 1.0
4 d 2 1.0 1.0
Pandas数据分析 - 去重 - duplicated() drop_duplicates() 用法相关推荐
- pandas数据去重:drop_duplicates与duplicated函数
1 drop_duplicates与duplicated参数: DataFrame.duplicated(subset=None,keep='first') DataFrame.drop_duplic ...
- pandas 索引去重_Pandas 同元素多列去重的实例
Pandas 同元素多列去重的实例 有一些问题可能会遇到同元素多列去重问题,下面介绍一种非常简单效率也很快的做法,用pandas来实现. 首先我们看一下数据类型: G1 G2 a b b a c d ...
- pandas数据分析给力教程【完整版】(六)
上一篇:pandas数据分析给力教程[完整版](五) 下一篇:pandas数据分析给力教程[完整版](七) import pandas as pd from pandas import Series, ...
- pandas数据分析航空公司数据
pandas数据分析 pandas主要有两种数据结构,分别是dataframe和series,本次我们主要讲述的是dataframe的简单应用,从数据的读取到清洗. 数据读取与观察 1.pandas读 ...
- Pandas数据分析-Task2
文章目录 Pandas数据分析-Task2 文件读取与写入 文件读取 文件写入 Series与DataFrame 常用函数 统计函数 去重复值函数 替换函数 练一练 排序函数 窗口对象 滑动窗口 练一 ...
- python数据去重的函数_python pandas dataframe 去重函数的具体使用
今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数 先看一个小例子 from pandas import Series, DataFrame data = DataFrame({' ...
- 极速入门Pandas数据分析
极速入门Pandas数据分析 数据载入 DataFrame Pandas 有 Series 和 DataFrame 两种数据结构,对应一维数组和二维表,Series 可以理解成是一个只有一列的 Dat ...
- Pandas数据分析⑥——数据分析实例(货品送达率与合格率/返修率/拒收率)
Pandas系列目录如下: Pandas数据分析①--数据读取(CSV/TXT/JSON) Pandas数据分析②--数据清洗(重复值/缺失值/异常值) Pandas数据分析③--数据规整1(索引和列 ...
- Pandas数据分析——Task2
练习题 Ex1:口袋妖怪数据集 现有一份口袋妖怪的数据集,下面进行一些背景说明: #代表全国图鉴编号,不同行存在相同数字则表示为该妖怪的不同状态 妖怪具有单属性和双属性两种,对于单属性的妖怪,Type ...
最新文章
- 孔雀翎----《Programming C# 》中文版 第4版
- Goolge新AI算法实时生成3D场景 | 可下载
- 东京奥运会将利用 AI 识别可疑人员
- html自动获取用户位置,HTML5 - 使用Geolocation(地理定位)获取用户的位置
- 第七周实践项目4 队列数组
- “互联网+”时代下 银行信息如何保证安全?
- 台湾大学林轩田机器学习技法课程学习笔记10 -- Random Forest
- SAP ABAP Platform 1909最新版的 docker 镜像
- JSBridge实战
- 让你编程能力秃飞猛进的好习惯
- Spring boot :使用 Swagger 2 构建 RESTful APIs
- ActivityMQ安装部署
- “易升”升级Win10卡在99%的处理办法
- HBase入门笔记(一)--Ubuntu无线网卡驱动配置
- 新手用python写牛牛扑克牌玩法
- oracle18c安装教程6,Oracle 18c 安装详细过程(最全面)
- python带你采集大型网游英雄皮肤图~
- 前端面试题(带文字+代码解析),我不相信你看不懂(2022.11.04)
- XTransfer外贸收款账户是如何收费的?
- 旋转矩阵的应用:已知旋转前后的点坐标计算旋转中心坐标