经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas

前言

有时候数据中出现重复值,可能会导致最后的统计结果出现错误,因此,查找和移除重复值是数据处理中的常见操作。今天我们来看看 pandas 中是如何实现。

Excel 处理重复值

Excel 中直接提供了去除重复的功能,因此简单操作即可实现。如下:

功能卡"数据","数据工具"中有"删除重复项"按钮

接着可以选择以哪些列作为重复判断

除此之外,Excel 中还可以使用条件格式、高级筛选或函数公式实现差不多的功能

pandas 标记重复值

pandas 中同样提供一个简单方法标记出重复值,并且比 Excel 有更多灵活处理方式供你选择,我们来看看:

DataFrame.duplicated() ,生成是否为重复记录的布尔标记。默认是整行所有数据作为判断依据

结果很明显,最后一行是重复行,因此标记列最后一行的值是 True

我们可以指定,当有重复值时,保留哪个位置的行。如下:

默认情况下,duplicated() 的 keep 参数为 "first",意思为"保留第一个"

现在我们把 keep 设置为"last",那么保留最后一个,因此现在重复的行中的第一行被标记为 True

除此之外,我们还可以把 keep 参数设置为 False,意思是"不保留",如下:

现在凡是存在重复的行,都被标记 True

通过参数 subset 可以指定哪些列作为判断依据:

像 Excel 一样去除重复

其实把重复值标记后,只需要简单筛选即可得到非重复的记录。但是 pandas 中有直接的方法去除重复。如下:

调用 DataFrame.drop_duplicates() ,即可去除重复

他的参数与规则与 duplicated 一模一样。实际就是把 duplicated() 标记为 True 的行去掉而已

最后

DataFrame.duplicated() ,标记出重复项。使用 subset 指定重复值判断列,keep={'first','last',False} 指定怎么判断哪些是重复项

DataFrame.drop_duplicates() ,去除重复项

下一节,将看看排序功能的实现。敬请关注。

如果希望从零开始学习 pandas ,那么可以看看我的 pandas 专栏。

python统计excel中重复数据_Python中用pandas对标Excel自带功能——去除重复项相关推荐

  1. python统计列表中元素个数_python中计算一个列表中连续相同的元素个数方法

    python中计算一个列表中连续相同的元素个数方法 最简单的例子: a = [1,1,1,1,2,2,2,3,3,1,1,1,3] # 问:计算a中最多有几个连续的1 很明显,答案是4 如果用代码实现 ...

  2. python读取mysql中的数据_Python笔记:用Python读取MySQL中的数据

    Python处理数据分析的优势,很多人都知道(可以实现更复杂.更灵活的操作,包括数据预处理.数据可视化输出等),但是加载到Python中的数据,只是临时存储在内存中的一张虚拟表(退出之后就会被释放掉了 ...

  3. python统计句子中单词个数_python练习:一行搞定-统计一句话中每个单词出现的个数...

    原博文 2018-10-04 19:42 − 一行搞定-统计一句话中每个单词出现的个数 >>> s'i am a boy a bood boy a bad boy' 方式一:> ...

  4. 如何用计算机整理数据,总结:如何在excel中制作数据统计表(最简单的excel分类汇总教程)...

    我们经常使用excel来完成数据统计,尤其是对于大型和复杂数据. Excel的分类和摘要可以方便快捷地处理,那么Excel的分类和摘要功能是什么? ?它有什么功能?怎么做?不用担心,今天我将与您分享有 ...

  5. python统计句子中单词个数_Python练习第三题,统计单词个数

    ^第三题:一个英文的纯文本文件,统计其中的单词出现的个数. 统计什么好呢,就拿Python彩蛋import this来试试吧.(将下列单词保存为"test.txt")>> ...

  6. python替换行中某个数据_python – 复制一些行并更改pandas中的某些值

    我有一个像这样的pandas DataFrame: From To Val GE VD 1000 GE VS 1600 VS VD 1500 VS GE 600 VD GE 1200 VD VS 13 ...

  7. python下载百度云盘中的数据_python爬虫:爬取百度云盘资料,保存下载地址、链接标题、链接详情...

    在网上看到的教程,但是我嫌弃那个教程写的乱(虽然最后显示我也没高明多少,哈哈),就随手写了一个 主要是嫌弃盘搜那些恶心的广告,这样直接下载下来,眼睛清爽多了. 用pyinstall 打包成EXE文件, ...

  8. 使用Python对excel中的数据进行处理

    一.读取excel中的数据 首先引入pandas库,没有的话使用控制台安装 -- pip install pandas . import pandas as pd #引入pandas库,别名为pd#r ...

  9. python向excel写数据_Python向excel中写入数据的方法

    最近做了一项工作需要把处理的数据写入到Excel表格中进行保存,所以在此就简单介绍使用Python如何把数据保存到excel表格中. 数据导入之前需要安装 xlwt依赖包,安装的方法就很简单,直接 p ...

最新文章

  1. 回首这一年,其实我还是一样!
  2. 饿了么UI框架element的表格多个弹窗问题
  3. android 之Activity间的相互跳转(通过intent构造函数)
  4. win7倒计时桌面小工具_iOS 14系统面板截图曝光,新增桌面小工具,越来越像安卓了...
  5. 极客马拉松JUNCTION✖️TIANJIN
  6. 猛将赵云java,这五位三国猛将临危救主,赵云只能排第二位,第一位大家都服...
  7. 许海燕(1987-),女,宁波市智慧城市规划标准发展研究院研究人员.
  8. 黑客必须了解的网络知识
  9. java编程思想3感悟(4)---被隐藏的具体实现
  10. 【lucene】高级搜索篇
  11. 2019-0403视觉SLAM的学习第二讲
  12. 1006 A+B问题
  13. ERP原理与应用期末复习
  14. Elasticsearch-7(全文搜索应用分享)
  15. 【英语六级】【仔细阅读】(4)
  16. 交换机和BBU的接口编号以及华为ATN950 BBU接口写法
  17. Docker安装(Alibaba Cloud Linux 3)
  18. 什么!作为程序员你连英文版的官方文档都看不懂?
  19. 基于JAVA高校科研信息管理系统计算机毕业设计源码+数据库+lw文档+系统+部署
  20. 用vs编写html后sel,选择后插入HTML

热门文章

  1. 液晶OLED接口MIPI之DSI协议学习
  2. 亚马逊中国站获取商品列表
  3. Android 饼图
  4. android新浪微博授权,新浪微博授权认证过程 - Android、iOS开发 - OSCHINA - 中文开源技术交流社区...
  5. 视界更宽阔,青橙 VOGA V 投影手机评测
  6. Graylog和ELK的简单对比
  7. 字节码插桩(javassist)之插入代码块|IOC框架(Hilt)之对象注入~研究
  8. 爬虫技巧-西瓜视频MP4地址获取
  9. 用windows 画图 裁剪照片
  10. 《计算机体系结构量化研究方法》1.8 性能的测量、报告和汇总