数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first’)返回boolean Series表示重复行

参数:

subset:列标签或标签序列,可选

仅考虑用于标识重复项的某些列,默认情况下使用所有列

keep:{‘first’,‘last’,False},默认’first’

first:标记重复,True除了第一次出现。

last:标记重复,True除了最后一次出现。

错误:将所有重复项标记为True。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

import numpy as npimport pandas as pdfrom pandas import Series, DataFramedf = pd.read_csv('./demo_duplicate.csv')print(df)print(df['Seqno'].unique()) # [0. 1.]# 使用duplicated 查看重复值# 参数 keep 可以标记重复值 {'first','last',False}print(df['Seqno'].duplicated())'''0 False1 True2 True3 True4 FalseName: Seqno, dtype: bool'''# 删除 series 重复数据print(df['Seqno'].drop_duplicates())'''0 0.04 1.0Name: Seqno, dtype: float64'''# 删除 dataframe 重复数据print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来去重'''Price Seqno Symbol time0 1623.0 0.0 APPL 14734119624 1649.0 1.0 APPL 1473411963'''# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、Falseprint(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个'''Price Seqno Symbol time3 1623.0 0.0 APPL 14734119634 1649.0 1.0 APPL 1473411963'''

以上就是python去重函数是什么的详细内容

Python人工智能 - 一小时快速上手python数据库编程 - 创客学院直播室​www.makeru.com.cn

如果大家如果在学习中遇到困难,想找一个Python学习交流环境,可以加入我们的Python学习圈,点击我加入吧,会节约很多时间,减少很多遇到的难题。

csv去重 python_python去重函数是什么相关推荐

  1. dict去重python_python去重,一个由dict组成的list的去重示例

    #!/usr/bin/env python # -*- coding: utf-8 -*- # created by fhqplzj on 2017/12/07 上午11:38 from iterto ...

  2. java steam 去重_Java中对List去重 Stream去重的解决方法

    问题 当下互联网技术成熟,越来越多的趋向去中心化.分布式.流计算,使得很多以前在数据库侧做的事情放到了Java端.今天有人问道,如果数据库字段没有索引,那么应该如何根据该字段去重?大家都一致认为用Ja ...

  3. 5.1 数据去重 完全去重

    数据清洗 是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节.数据清洗的目的在于提高数据质量,将脏数据(脏数据在这里指的是对数据分析没有实际意义.格式非法.不在指定范围内的数据)清洗干净 ...

  4. Java List去重 Lis集合去重 List去重效率对比 List去重复元素效率对比 List去重效率

    Java  List去重 Lis集合去重 List去重效率对比 List去重复元素效率对比 List去重效率 --- List 去重复元素的几种办法 一.概述 面试的时候,有个常见的问题:" ...

  5. 【前端去重】数组去重字符串去重对象去重

    今天被去重玩死了,最后发现from写成了form,真是被自己蠢死了!如果写代码不是为了折磨自己,那将毫无意义! 接下来,鞭笞去重 数组去重 new Set去重之后获取的是假数组,需要用Array.fr ...

  6. csv数据去重 python_python批量查询、汉字去重处理CSV文件

    csv文件用记事本打开后一般为由逗号隔开的字符串,其处理方法用python的代码如下.为方便各种程度的人阅读在代码中有非常详细的注释. 1.查询指定列,并保存到新的csv文件. # -*- codin ...

  7. series去重_python去重函数是什么

    数据去重可以使用duplicated()和drop_duplicates()两个方法. DataFrame.duplicated(subset = None,keep ='first')返回boole ...

  8. c++中std::set自定义去重和排序函数

    c++中的std::set,是基于红黑树的平衡二叉树的数据结构实现的一种容器,因为其中所包含的元素的值是唯一的,因此主要用于去重和排序.这篇文章的目的在于探讨和分享如何正确使用std::set实现去重 ...

  9. textjoin去重_SuperJoinText这个函数,弥补了TEXTJOIN的缺憾

    自从TextJoin函数处理,我感觉Excel文本处理问题,减少了一半,真的特别好用! 但也有一些不足的地方,比如能不能直接对满足条件的数据去重后合并,直接忽略FALSE等,当然你可能会说其他函数组合 ...

最新文章

  1. 合工大建筑和计算机专业哪个好,合肥工业大学最好的专业是什么(10大热门专业排名)...
  2. Servlet自动注入Spring容器中的Bean解决方法
  3. 解决canvas画图模糊的问题
  4. c51倒计时程序汇编语言,51单片机汇编程序:倒计时交通灯
  5. java 调用scala 类_如何使用java类加载器调用带参数的scala函数?
  6. Vite --- 创建Vue3项目
  7. 钉钉 ISV 应用开发的一些心得
  8. Egret在Chrome浏览器中的内存占用(内存泄露)
  9. drupal显示图片_Drupal在多样性和包容性方面显示领导力
  10. qq手机电脑消息同步_手机电脑完全同步!秒杀一切投屏软件和模拟器!
  11. Linux C 实现改变输出字的颜色。
  12. 高数上册下册答案详解第七版高数同济7版上册下册答案高等数学答案吧
  13. 网络速度在线测试软件,在线网速测试(局域网速度测试工具)
  14. Auto.js 读写txt文件
  15. 同事通过接私活年入60W,他常用19个私活平台汇总!
  16. could和may区别请求_can和may的区别及用法
  17. java.security.cert.CertPathValidatorException: Trust anchor for certification path not found.
  18. 熟男,好男,傻男,超男?-------…
  19. js实现导出Excel文件
  20. 据起码科学常识推翻5千年“常识”:没最大自然数

热门文章

  1. mysqldump实现数据备份及灾难恢复
  2. Cocos2d-x 坐标系及其坐标转换
  3. 能够生成动态图片的R模块:rCharts
  4. LinQ—Lambda表达式
  5. [摘自MSDN] ASP.Net2.0学习 [1] 母版页 7 : 母版页和内容页中的事件
  6. Windows NT Backup - 恢复工具 - Windows Vista的迁移工具
  7. 10-1 channel
  8. android 课堂讨论内容,Android端课堂交互应用研究与实现
  9. python半径为2.11的圆球的体积_python 学习笔记 11 -- 使用参数使你的程序变得更性感...
  10. windows安装python3_windows下同时安装python2和python3