Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值)

摘要

在进行数据分析时,我们经常需要对DataFrame去重,但有时候也会需要只保留重复值。

这里就简单的介绍一下对于DataFrame去重和取重复值的操作。

创建DataFrame

这里首先创建一个包含一行重复值的DataFrame。

2.DataFrame去重,可以选择是否保留重复值,默认是保留重复值,想要不保留重复值的话直接设置参数keep为False即可。

3.取DataFrame重复值。大多时候我们都是需要将数据去重,但是有时候很我们也需要取重复数据,这个时候我们就可以根据刚刚上面我们得到的两个DataFrame来concat到一起之后去重不保留重复值就可以。这样就把重复值取出来了。

###############################

分割线:补充

###############################

4.DataFrame根据某列去重

5.DataFrame根据某几列去重

到此这篇关于Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值)的文章就介绍到这了,更多相关DataFrame使用drop_duplicates去重内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

时间: 2020-07-19

1)去重 指定多列去重,这是在dataframe没有独一无二的字段作为PK(主键)时,需要指定多个字段一起作为该行的PK,在这种情况下对整体数据进行去重. Attention:主要用到了drop_duplicates方法,并设置参数subset为多个字段名构成的数组. 具体代码如下: >>>import pandas as pd >>>data={'state':[1,1,2,2,1,2,2],'pop':['a','b','c','d','b','c','d']} &

今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数 先看一个小例子 from pandas import Series, DataFrame data = DataFrame({'k': [1, 1, 2, 2]}) print data IsDuplicated = data.duplicated() print IsDuplicated print type(IsDuplicated) data = data.drop_duplicates() print data 执行

官方函数 DataFrame.loc Access a group of rows and columns by label(s) or a boolean array. .loc[] is primarily label based, but may also be used with a boolean array. # 可以使用label值,但是也可以使用布尔值 Allowed inputs are: # 可以接受单个的label,多个label的列表,多个label的切片 A singl

SQL中的select是根据列的名称来选取:Pandas则更为灵活,不但可根据列名称选取,还可以根据列所在的position(数字,在第几行第几列,注意pandas行列的position是从0开始)选取.相关函数如下: 1)loc,基于列label,可选取特定行(根据行index): 2)iloc,基于行/列的position: 3)at,根据指定行index及列label,快速定位DataFrame的元素: 4)iat,与at类似,不同的是根据position来定位的: 5)ix,为loc与i

concat 与其说是连接,更准确的说是拼接.就是把两个表直接合在一起.于是有一个突出的问题,是横向拼接还是纵向拼接,所以concat 函数的关键参数是axis . 函数的具体参数是: concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verigy_integrity=False) objs 是需要拼接的对象集合,一般为列表或者字典 axis=0 是

0.摘要 pandas中DataFrame类型中,找出所有有空值的行,可以使用.isnull()方法和.any()方法. 1.找出含有空值的行 方法:DataFrame[DataFrame.isnull().T.any()] 其中,isnull()能够判断数据中元素是否为空值:T为转置:any()判断该行是否有空值. import pandas as pd import numpy as np n = np.arange(20, dtype=float).reshape(5,4) n[2,3]

相信很多人像我一样在学习python,pandas过程中对数据的选取和修改有很大的困惑(也许是深受Matlab)的影响... 到今天终于完全搞清楚了!!! 先手工生出一个数据框吧 import numpy as np import pandas as pd df = pd.DataFrame(np.arange(0,60,2).reshape(10,3),columns=list('abc')) df 是这样子滴 那么这三种选取数据的方式该怎么选择呢? 一.当每列已有column name时,用

如下dataframe想要删除多层index top1000[:10] name sex births year prop year sex 1880 F 0 Mary F 7065 1880 0.077643 1 Anna F 2604 1880 0.028618 2 Emma F 2003 1880 0.022013 3 Elizabeth F 1939 1880 0.021309 4 Minnie F 1746 1880 0.019188 5 Margaret F 1578 1880 0.

1. 从字典创建Dataframe >>> import pandas as pd >>> dict1 = {'col1':[1,2,5,7],'col2':['a','b','c','d']} >>> df = pd.DataFrame(dict1) >>> df col1 col2 0 1 a 1 2 b 2 5 c 3 7 d 2. 从列表创建Dataframe (先把列表转化为字典,再把字典转化为DataFrame) >

1. 从字典创建DataFrame >>> import pandas >>> dict_a = {'user_id':['webbang','webbang','webbang'],'book_id':['3713327','4074636','26873486'],'rating':['4','4','4'],'mark_date':['2017-03-07','2017-03-07','2017-03-07']} >>> df = pandas.

python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数据及属性 df_obj = DataFrame() #创建DataFrame对象 df_obj.dtypes #查看各行的数据格式 df_obj['列名'].astype(int)#转换某列的数据类型 df_obj.head() #查看前几行的数据,默认前5行 df_obj.tail() #查看后几

python duplicated函数_Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值)...相关推荐

  1. python concat去除重复值语句_Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值)...

    摘要 在进行数据分析时,我们经常需要对DataFrame去重,但有时候也会需要只保留重复值. 这里就简单的介绍一下对于DataFrame去重和取重复值的操作. 创建DataFrame 这里首先创建一个 ...

  2. python去重保留唯一一个值_Python DataFrame使用drop_duplicates()函数去重(保留重复值,取重复值)...

    摘要 在进行数据分析时,我们经常需要对DataFrame去重,但有时候也会需要只保留重复值. 这里就简单的介绍一下对于DataFrame去重和取重复值的操作. 创建DataFrame 这里首先创建一个 ...

  3. 【Python】DataFrame使用drop_duplicates()函数去重(不)保留重复值,取重复值

    摘要 在进行数据分析时,我们经常需要对DataFrame去重,但有时候也会需要只保留重复值. 这里就简单的介绍一下对于DataFrame去重和取重复值的操作. 创建DataFrame 这里首先创建一个 ...

  4. python数字类型转换函数_Python的数据类型转换函数

    玩蛇网这篇文章给大家介绍关于,Python数据类型的转换函数. Python提供了一些可以把某个值从一种数据类型,转换成为另一种数据类型的内置函数和方法.int函数可以将任何可以转换为整型的值转换为整 ...

  5. python hist函数_Python主要数据探索函数

    Python中用于数据探索的库主要是pandas(数据分析)和 Matplotlib(数据可视化),其中pandas提供了大量的与数据库探索相关的函数,这些数据探索函数壳大致分为统计特征函数与统计绘图 ...

  6. python中set函数_python中的set函数、列表的操作

    原博文 2019-10-31 11:12 − 一.set函数 set()函数创建一个无序不重复元素集,可进行关系测试,删除重复数据,还可以计算交集.差集.并集等. 例题: 1.set函数求交集(&am ...

  7. python阶乘匿名函数_python的高阶函数与匿名函数

    一.高阶函数的定义 高阶函数:就是把函数当成参数传递的一种函数,例如: defadd(x,y,f):return f(x)+f(y)print(add(-8,11,abs) 结果:19 解释: 1.调 ...

  8. python中itemgetter函数_Python中的sorted函数以及operator.itemgetter函数

    operator模块提供的itemgetter函数用于获取对象的哪些维的数据,参数为一些序号(即需要获取的数据在对象中的序号),下面看例子. a = [1,2,3] >>> b=op ...

  9. python日期函数_python 时间及日期函数

    本人最近新学python ,用到关于时间和日期的函数,经过一番研究,从网上查找资料,经过测试,总结了一下相关的方法. import time import datetime '''时间转化为时间戳: ...

最新文章

  1. 俄媒:美国“龙-2”型飞船载人发射推迟至7月
  2. MySQL 语法问题:You can‘t specify target table ‘xxx‘ for update in FROM clause. 原因及解决方法
  3. docker容器内访问外部mysql_详解Docker容器内应如何访问本机(宿主机)
  4. SQL查询【根据生日计算】
  5. 重磅!腾讯云首次披露自研业务上云历程
  6. 记一次引入Elasticsearch的系统架构实战
  7. java日常笔记、对象的创建完全是由构造方法实现的吗?this的本质
  8. 【模板/经典题型】并查集维护生成树
  9. UVA 11198 Dancing Digits
  10. uniapp ---- 树组件
  11. 如何修改maven默认仓库(即repository)的路径
  12. Educational Codeforces Round 12 F. Four Divisors 求小于x的素数个数(待解决)
  13. 4月10日服务器例行维护公告,4月12日服务器例行维护公告(已完成)
  14. iOS 蓝牙开发用到的一些格式转换
  15. 虚拟机安装教程(VM15.5+Ubuntu16.04)
  16. [HDU6070] Dirt Ratio
  17. 安卓开发之Intent使用介绍(显式Intent和隐式Intent)
  18. 我是如何从零开始自学Android到一万月薪的
  19. The following error occurred while installing.This is a fatal error andinstallation will be aborted.
  20. 推广知识小结(名词篇CPA、CPS、CPC、CPM、CPT、CPD)

热门文章

  1. 第三次学JAVA再学不好就吃翔(part50)--String类练习
  2. Psych101(part5)--Day5
  3. SAP BTP 平台 CloudFoundry 环境入门级别的介绍
  4. 使用Visual Studio Code调试运行在SAP云平台上处于运行状态的nodejs应用
  5. SAP Spartacus delivery mode continue button单元测试失败原因分析
  6. 如何取消Angular rxjs Observable的订阅
  7. 如何处理Angular项目在Visual Studio Code打开报关于@Decorators的警告信息
  8. 使用ant触发Tomcat的reload操作
  9. 在SAP云平台上部署和运行Docker应用
  10. SAP ABAP Netweaver里的SE80事务码是如何响应用户请求的