小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理

重复项处理应用场景

重复项处理是数据清洗的一个步骤，主要为了处理重复录入的数据或者不同来源重复调查得到的同样(更新)的数据。数据清洗详见：小瓜讲数据分析——数据清洗

例子

小呆被交代一项任务，将公司从某渠道拿到的资料（电话）整理一下发给营销同事供推销使用。小呆打开phonebook.csv看到如下内容
phonebook.csv

姓名,手机号,固话
张晓散,18020001591,05746211
李孝思,18819455908,05746222
王笑武,18020111591,05746245
陈肖柳,18025812138,05746564
孙萧齐,18121312138,05743453
张晓散,18020001591,05746211
李孝思,13812138908,05746222

里面有重复的张晓散，号码都一样的，怎么还有两个李孝思啊，固话是一样的手机号不一样，应该是换手机了吧。
那么要做的应该是1）删掉姓名手机固话完全相同的某些行，保留其中的一行就可以了；2）选择一个李孝思，删除一个李孝思。
小呆听说电话本里面最后面的是最新的登记，所以李孝思应该保留最后的一个。于是小呆写下代码

import pandas as pd
phonebook = pd.read_csv('phonebook.csv')print(phonebook.duplicated())
pb2 = phonebook.drop_duplicates()
print(pb2)

运行结果如下：

    姓名          手机号       固话
0  张晓散  18020001591  5746211
1  李孝思  18819455908  5746222
2  王笑武  18020111591  5746245
3  陈肖柳  18025812138  5746564
4  孙萧齐  18121312138  5743453
6  李孝思  13812138908  5746222

李孝思没有删掉嘛，小呆一查帮助，原来drop_duplicates方法里面默认是对比所有列的内容，那肯定没法剔除旧的内容保存更新后的内容，毕竟更新的和老的不完全一样，而且设置一下保存，选择保存最后的值，于是小呆写下代码

pb3 = pb2.drop_duplicates(['姓名', '固话'], keep = 'last')
print(pb3)

结果如下：

   姓名          手机号       固话
0  张晓散  18020001591  5746211
2  王笑武  18020111591  5746245
3  陈肖柳  18025812138  5746564
4  孙萧齐  18121312138  5743453
6  李孝思  13812138908  5746222

于是小呆就把结果给营销的同事了。

文章导引列表：
机器学习

小瓜讲机器学习——分类算法（一）logistic regression(逻辑回归)算法原理详解
小瓜讲机器学习——分类算法（二）支持向量机（SVM）算法原理详解
未完待续

数据分析

小呆学数据分析——使用pandas中的merge函数进行数据集合并
小呆学数据分析——使用pandas中的concat函数进行数据集堆叠
小呆学数据分析——使用pandas的pivot进行数据重塑
小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理
小呆学数据分析——缺失值处理（一）
小呆学数据分析——异常值判定与处理（一）
小瓜讲数据分析——数据清洗

数据可视化

小瓜讲数据分析——数据可视化工程（matplotlib库使用基础篇）
小瓜讲matplotlib高级篇——坐标轴设置（坐标轴居中、坐标轴箭头、刻度设置、标识设置）

小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理相关推荐

python dataframe删除重复行_详解pandas使用drop_duplicates去除DataFrame重复项参数
Pandas之drop_duplicates:去除重复项方法 DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) ...
Pandas数据分析 - 去重 - duplicated() drop_duplicates() 用法
import numpy as np import pandas as pd #生成重复数据 df=pd.DataFrame(np.ones([5,2]),columns=['col1','col2' ...
Pandas之drop_duplicates：去除重复项
前言本文,我们讲述Pandas如何去除重复项的操作,我们选择一个评价数据集来演示如何删除特定列上的重复项,如何删除重复项并保留最后一次出现,以及drop_duplicates的默认用法方法 Dat ...
VBA RemoveDuplicates方法去重复项
RemoveDuplicates后边必须跟参数否则不起作用 ActiveSheet.Range("G21:R36").RemoveDuplicates Columns:=12, H ...
python数据预处理_Python数据分析——数据预处理的方法
前言 1. 关于数据集数据来源:日月光华老师的<Python数据分析从入门到机器学习>的 lianjia 数据. 数据概况: cjtaoshu:成交套数 mendian:门店 cjzon ...
python列表删除重复项_五分钟学会三种Excel重复项删除方法，工作效率大杀器！...
点击蓝字关注我们在统计数据过程中, 同一份数据可能由于渠道的不同而进行了多次统计, 在输入数据时, 可能因为操作失误重复输入数据.种种原因造成数据表中的数据存在重复现象, 删除重复数据是数据清洗的 ...
代谢组学数据分析的统计学方法综述
转自:https://mp.weixin.qq.com/s/XThAKeSBriHbeYKlU96pmA 代谢组学研究产生大量的数据,这些数据具有高维.小样本.高噪声等复杂特征.如何从复杂的代谢组学数 ...
小福利，数据分析之数据清洗常用方法
大家好,我是天空之城,今天带来小福利,数据分析之数据清洗常用方法清洗数据主要分为以下3个步骤: 一.处理缺失值,这一块主要会讲解如何清洗表格中的缺失值. 二.处理重复值,这一块主要会讲解如何清洗表格 ...
【Datawhale】动手学数据分析
动手学数据分析第一章:数据载入及初步观察载入数据任务一:导入numpy和pandas import numpy as np import pandas as pd 任务二:载入数据 train_ ...
Datawhale动手学数据分析打卡
1.1 第一章:数据载入及初步观察 1.1.1 任务一:导入numpy和pandas import numpy as np import pandas as pd 1.1.2 任务二:载入数据 (1) ...

小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理

重复项处理应用场景

例子

小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理相关推荐

最新文章

热门文章