小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理
重复项处理应用场景
重复项处理是数据清洗的一个步骤,主要为了处理重复录入的数据或者不同来源重复调查得到的同样(更新)的数据。数据清洗详见: 小瓜讲数据分析——数据清洗
例子
小呆被交代一项任务,将公司从某渠道拿到的资料(电话)整理一下发给营销同事供推销使用。小呆打开phonebook.csv看到如下内容
phonebook.csv
姓名,手机号,固话
张晓散,18020001591,05746211
李孝思,18819455908,05746222
王笑武,18020111591,05746245
陈肖柳,18025812138,05746564
孙萧齐,18121312138,05743453
张晓散,18020001591,05746211
李孝思,13812138908,05746222
里面有重复的张晓散,号码都一样的,怎么还有两个李孝思啊,固话是一样的手机号不一样,应该是换手机了吧。
那么要做的应该是1)删掉姓名手机固话完全相同的某些行,保留其中的一行就可以了;2)选择一个李孝思,删除一个李孝思。
小呆听说电话本里面最后面的是最新的登记,所以李孝思应该保留最后的一个。于是小呆写下代码
import pandas as pd
phonebook = pd.read_csv('phonebook.csv')print(phonebook.duplicated())
pb2 = phonebook.drop_duplicates()
print(pb2)
运行结果如下:
姓名 手机号 固话
0 张晓散 18020001591 5746211
1 李孝思 18819455908 5746222
2 王笑武 18020111591 5746245
3 陈肖柳 18025812138 5746564
4 孙萧齐 18121312138 5743453
6 李孝思 13812138908 5746222
李孝思没有删掉嘛,小呆一查帮助,原来drop_duplicates方法里面默认是对比所有列的内容,那肯定没法剔除旧的内容保存更新后的内容,毕竟更新的和老的不完全一样,而且设置一下保存,选择保存最后的值,于是小呆写下代码
pb3 = pb2.drop_duplicates(['姓名', '固话'], keep = 'last')
print(pb3)
结果如下:
姓名 手机号 固话
0 张晓散 18020001591 5746211
2 王笑武 18020111591 5746245
3 陈肖柳 18025812138 5746564
4 孙萧齐 18121312138 5743453
6 李孝思 13812138908 5746222
于是小呆就把结果给营销的同事了。
文章导引列表:
机器学习
- 小瓜讲机器学习——分类算法(一)logistic regression(逻辑回归)算法原理详解
- 小瓜讲机器学习——分类算法(二)支持向量机(SVM)算法原理详解
- 未完待续
数据分析
- 小呆学数据分析——使用pandas中的merge函数进行数据集合并
- 小呆学数据分析——使用pandas中的concat函数进行数据集堆叠
- 小呆学数据分析——使用pandas的pivot进行数据重塑
- 小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理
- 小呆学数据分析——缺失值处理(一)
- 小呆学数据分析——异常值判定与处理(一)
- 小瓜讲数据分析——数据清洗
数据可视化
- 小瓜讲数据分析——数据可视化工程(matplotlib库使用基础篇)
- 小瓜讲matplotlib高级篇——坐标轴设置(坐标轴居中、坐标轴箭头、刻度设置、标识设置)
小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理相关推荐
- python dataframe删除重复行_详解pandas使用drop_duplicates去除DataFrame重复项参数
Pandas之drop_duplicates:去除重复项 方法 DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) ...
- Pandas数据分析 - 去重 - duplicated() drop_duplicates() 用法
import numpy as np import pandas as pd #生成重复数据 df=pd.DataFrame(np.ones([5,2]),columns=['col1','col2' ...
- Pandas之drop_duplicates:去除重复项
前言 本文,我们讲述Pandas如何去除重复项的操作,我们选择一个评价数据集来演示如何删除特定列上的重复项,如何删除重复项并保留最后一次出现,以及drop_duplicates的默认用法 方法 Dat ...
- VBA RemoveDuplicates方法去重复项
RemoveDuplicates后边必须跟参数否则不起作用 ActiveSheet.Range("G21:R36").RemoveDuplicates Columns:=12, H ...
- python数据预处理_Python数据分析——数据预处理的方法
前言 1. 关于数据集 数据来源:日月光华老师的<Python数据分析从入门到机器学习>的 lianjia 数据. 数据概况: cjtaoshu:成交套数 mendian:门店 cjzon ...
- python列表删除重复项_五分钟学会三种Excel重复项删除方法,工作效率大杀器!...
点击蓝字 关注我们 在统计数据过程中, 同一份数据可能由于渠道的不同而进行了多次统计, 在输入数据时, 可能因为操作失误重复输入数据.种种原因造成数据表中的数据存在重复现象, 删除重复数据是数据清洗的 ...
- 代谢组学数据分析的统计学方法综述
转自:https://mp.weixin.qq.com/s/XThAKeSBriHbeYKlU96pmA 代谢组学研究产生大量的数据,这些数据具有高维.小样本.高噪声等复杂特征.如何从复杂的代谢组学数 ...
- 小福利,数据分析之数据清洗常用方法
大家好,我是天空之城,今天带来小福利,数据分析之数据清洗常用方法 清洗数据主要分为以下3个步骤: 一.处理缺失值,这一块主要会讲解如何清洗表格中的缺失值. 二.处理重复值,这一块主要会讲解如何清洗表格 ...
- 【Datawhale】动手学数据分析
动手学数据分析 第一章:数据载入及初步观察 载入数据 任务一:导入numpy和pandas import numpy as np import pandas as pd 任务二:载入数据 train_ ...
- Datawhale动手学数据分析打卡
1.1 第一章:数据载入及初步观察 1.1.1 任务一:导入numpy和pandas import numpy as np import pandas as pd 1.1.2 任务二:载入数据 (1) ...
最新文章
- 一图看懂所有机器学习概念
- 对科目***货币 ***未定义汇率差额科目
- Ubuntu20.04 Desktop image 添加快捷方式
- 谷歌浏览器首页被改hao123_百度浏览器停更?今日头条、微博谁将获利?
- 给asterisk1.8.7添加menuselct选项
- 「零门槛多语言 Python/C/C# 通用思想学习系列」第一篇:经典HelloWorld
- JavascriptDOM(三)
- c# 获取路径的盘符_c#获取驱动器盘符
- 计算机基本概念及简单的二进制运算
- N皇后问题——通俗易懂地讲解(C++)
- php学生分班,学生分班工具下载
- 重新梳理下js中的深拷贝和浅拷贝
- 【Prince2科普】P2七大主题之变更
- RGB vs YCbCr(YUV)
- 贪心 赛码 1001 Movie
- Android的ImageView中scaleType属性值的详解
- 技术方案SOW工作文档模板
- 一文让你彻底了解iOS字体相关知识
- Linux下QT开发
- Qt界面制作简单教程,调用python代码
热门文章
- Markdown 4 印象笔记之马克飞象
- mysql 增量 命令
- 微信开挂怎么防止封号_再也不怕被封号!微信养号秘笈教你防封号防降权
- 职场人士必学的10种Excel打印技巧【特别实用,赶紧收藏】
- 3ds max基础材质初学者必读(27)——使用Arch Design材质
- 一张厚度为0.1MM的纸对折多少次后,高度超过珠穆朗玛峰(8848米)?
- C++身份证校验码计算器
- 互联网晚报 | 1月3日 星期一 | 春运首日火车票今日开售;中兴终端2021年出货量超1亿部;抖音上线“学习”频道...
- 广告竞价中为什么采用二价计费
- linux进入欢迎界面一直重启,Linux无限重启怎么办