重复项处理应用场景

重复项处理是数据清洗的一个步骤,主要为了处理重复录入的数据或者不同来源重复调查得到的同样(更新)的数据。数据清洗详见: 小瓜讲数据分析——数据清洗

例子

小呆被交代一项任务,将公司从某渠道拿到的资料(电话)整理一下发给营销同事供推销使用。小呆打开phonebook.csv看到如下内容
phonebook.csv

姓名,手机号,固话
张晓散,18020001591,05746211
李孝思,18819455908,05746222
王笑武,18020111591,05746245
陈肖柳,18025812138,05746564
孙萧齐,18121312138,05743453
张晓散,18020001591,05746211
李孝思,13812138908,05746222

里面有重复的张晓散,号码都一样的,怎么还有两个李孝思啊,固话是一样的手机号不一样,应该是换手机了吧。
那么要做的应该是1)删掉姓名手机固话完全相同的某些行,保留其中的一行就可以了;2)选择一个李孝思,删除一个李孝思。
小呆听说电话本里面最后面的是最新的登记,所以李孝思应该保留最后的一个。于是小呆写下代码

import pandas as pd
phonebook = pd.read_csv('phonebook.csv')print(phonebook.duplicated())
pb2 = phonebook.drop_duplicates()
print(pb2)

运行结果如下:

    姓名          手机号       固话
0  张晓散  18020001591  5746211
1  李孝思  18819455908  5746222
2  王笑武  18020111591  5746245
3  陈肖柳  18025812138  5746564
4  孙萧齐  18121312138  5743453
6  李孝思  13812138908  5746222

李孝思没有删掉嘛,小呆一查帮助,原来drop_duplicates方法里面默认是对比所有列的内容,那肯定没法剔除旧的内容保存更新后的内容,毕竟更新的和老的不完全一样,而且设置一下保存,选择保存最后的值,于是小呆写下代码

pb3 = pb2.drop_duplicates(['姓名', '固话'], keep = 'last')
print(pb3)

结果如下:

   姓名          手机号       固话
0  张晓散  18020001591  5746211
2  王笑武  18020111591  5746245
3  陈肖柳  18025812138  5746564
4  孙萧齐  18121312138  5743453
6  李孝思  13812138908  5746222

于是小呆就把结果给营销的同事了。

文章导引列表:
机器学习

  1. 小瓜讲机器学习——分类算法(一)logistic regression(逻辑回归)算法原理详解
  2. 小瓜讲机器学习——分类算法(二)支持向量机(SVM)算法原理详解
  3. 未完待续

数据分析

  1. 小呆学数据分析——使用pandas中的merge函数进行数据集合并
  2. 小呆学数据分析——使用pandas中的concat函数进行数据集堆叠
  3. 小呆学数据分析——使用pandas的pivot进行数据重塑
  4. 小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理
  5. 小呆学数据分析——缺失值处理(一)
  6. 小呆学数据分析——异常值判定与处理(一)
  7. 小瓜讲数据分析——数据清洗

数据可视化

  1. 小瓜讲数据分析——数据可视化工程(matplotlib库使用基础篇)
  2. 小瓜讲matplotlib高级篇——坐标轴设置(坐标轴居中、坐标轴箭头、刻度设置、标识设置)

小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理相关推荐

  1. python dataframe删除重复行_详解pandas使用drop_duplicates去除DataFrame重复项参数

    Pandas之drop_duplicates:去除重复项 方法 DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) ...

  2. Pandas数据分析 - 去重 - duplicated() drop_duplicates() 用法

    import numpy as np import pandas as pd #生成重复数据 df=pd.DataFrame(np.ones([5,2]),columns=['col1','col2' ...

  3. Pandas之drop_duplicates:去除重复项

    前言 本文,我们讲述Pandas如何去除重复项的操作,我们选择一个评价数据集来演示如何删除特定列上的重复项,如何删除重复项并保留最后一次出现,以及drop_duplicates的默认用法 方法 Dat ...

  4. VBA RemoveDuplicates方法去重复项

    RemoveDuplicates后边必须跟参数否则不起作用 ActiveSheet.Range("G21:R36").RemoveDuplicates Columns:=12, H ...

  5. python数据预处理_Python数据分析——数据预处理的方法

    前言 1. 关于数据集 数据来源:日月光华老师的<Python数据分析从入门到机器学习>的 lianjia 数据. 数据概况: cjtaoshu:成交套数 mendian:门店 cjzon ...

  6. python列表删除重复项_五分钟学会三种Excel重复项删除方法,工作效率大杀器!...

    点击蓝字 关注我们 在统计数据过程中, 同一份数据可能由于渠道的不同而进行了多次统计, 在输入数据时, 可能因为操作失误重复输入数据.种种原因造成数据表中的数据存在重复现象, 删除重复数据是数据清洗的 ...

  7. 代谢组学数据分析的统计学方法综述

    转自:https://mp.weixin.qq.com/s/XThAKeSBriHbeYKlU96pmA 代谢组学研究产生大量的数据,这些数据具有高维.小样本.高噪声等复杂特征.如何从复杂的代谢组学数 ...

  8. 小福利,数据分析之数据清洗常用方法

    大家好,我是天空之城,今天带来小福利,数据分析之数据清洗常用方法 清洗数据主要分为以下3个步骤: 一.处理缺失值,这一块主要会讲解如何清洗表格中的缺失值. 二.处理重复值,这一块主要会讲解如何清洗表格 ...

  9. 【Datawhale】动手学数据分析

    动手学数据分析 第一章:数据载入及初步观察 载入数据 任务一:导入numpy和pandas import numpy as np import pandas as pd 任务二:载入数据 train_ ...

  10. Datawhale动手学数据分析打卡

    1.1 第一章:数据载入及初步观察 1.1.1 任务一:导入numpy和pandas import numpy as np import pandas as pd 1.1.2 任务二:载入数据 (1) ...

最新文章

  1. 一图看懂所有机器学习概念
  2. 对科目***货币 ***未定义汇率差额科目
  3. Ubuntu20.04 Desktop image 添加快捷方式
  4. 谷歌浏览器首页被改hao123_百度浏览器停更?今日头条、微博谁将获利?
  5. 给asterisk1.8.7添加menuselct选项
  6. 「零门槛多语言 Python/C/C# 通用思想学习系列」第一篇:经典HelloWorld
  7. JavascriptDOM(三)
  8. c# 获取路径的盘符_c#获取驱动器盘符
  9. 计算机基本概念及简单的二进制运算
  10. N皇后问题——通俗易懂地讲解(C++)
  11. php学生分班,学生分班工具下载
  12. 重新梳理下js中的深拷贝和浅拷贝
  13. 【Prince2科普】P2七大主题之变更
  14. RGB vs YCbCr(YUV)
  15. 贪心 赛码 1001 Movie
  16. Android的ImageView中scaleType属性值的详解
  17. 技术方案SOW工作文档模板
  18. 一文让你彻底了解iOS字体相关知识
  19. Linux下QT开发
  20. Qt界面制作简单教程,调用python代码

热门文章

  1. Markdown 4 印象笔记之马克飞象
  2. mysql 增量 命令
  3. 微信开挂怎么防止封号_再也不怕被封号!微信养号秘笈教你防封号防降权
  4. 职场人士必学的10种Excel打印技巧【特别实用,赶紧收藏】
  5. 3ds max基础材质初学者必读(27)——使用Arch Design材质
  6. 一张厚度为0.1MM的纸对折多少次后,高度超过珠穆朗玛峰(8848米)?
  7. C++身份证校验码计算器
  8. 互联网晚报 | 1月3日 星期一 | 春运首日火车票今日开售;中兴终端2021年出货量超1亿部;抖音上线“学习”频道...
  9. 广告竞价中为什么采用二价计费
  10. linux进入欢迎界面一直重启,Linux无限重启怎么办