今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数

先看一个小例子

from pandas import Series, DataFrame

data = DataFrame({'k': [1, 1, 2, 2]})

print data

IsDuplicated = data.duplicated()

print IsDuplicated

print type(IsDuplicated)

data = data.drop_duplicates()

print data

执行结果是:

k

0 1

1 1

2 2

3 20 False

1 True

2 False

3 Truek

0 1

2 2

DataFrame的duplicated方法返回一个布尔型Series,表示各行是否重复行。

而 drop_duplicates方法,它用于返回一个移除了重复行的DataFrame

这两个方法会判断全部列,你也可以指定部分列进行重复项判段。

drop_duplicates根据数据的不同情况及处理数据的不同需求,通常会分为两种情况,一种是去除完全重复的行数据,另一种是去除某几列重复的行数据,就这两种情况可用下面的代码进行处理。

1. 去除完全重复的行数据

data.drop_duplicates(inplace=True)

2. 去除某几列重复的行数据

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

subset: 列名,可选,默认为None

keep: {‘first', ‘last', False}, 默认值 ‘first'

first: 保留第一次出现的重复行,删除后面的重复行。

last: 删除重复项,除了最后一次出现。

False: 删除所有重复项。

inplace:布尔值,默认为False,是否直接在原数据上删除重复项或删除重复项后返回副本。(inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。)

例如,希望对名字为k2的列进行去重,

data.drop_duplicates(['k2'])

到此这篇关于python pandas dataframe 去重函数的具体使用的文章就介绍到这了,更多相关python pandas dataframe 去重函数内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

python数据去重的函数_python pandas dataframe 去重函数的具体使用相关推荐

  1. python dataframe loc函数_python pandas.DataFrame.loc函数使用详解

    官方函数 DataFrame.loc Access a group of rows and columns by label(s) or a boolean array. .loc[] is prim ...

  2. python convert函数_Python pandas.DataFrame.tz_convert函数方法的使用

    DataFrame.tz_convert(tz, axis=0, level=None, copy=True)[source] 将tz-aware axis转换为目标时区. 参数:tz:str或 tz ...

  3. python resample函数_Python pandas.DataFrame.resample函数方法的使用

    DataFrame.resample(rule, axis=0, closed=None, label=None, convention='start', kind=None, loffset=Non ...

  4. python中mean的用法_Python pandas.DataFrame.mean函数方法的使用

    DataFrame.mean(self, axis=None, skipna=None, level=None, numeric_only=None, **kwargs)[source] 返回所请求轴 ...

  5. python describe函数_Python pandas.DataFrame.describe函数方法的使用

    DataFrame.describe(self, percentiles=None, include=None, exclude=None) 生成描述性统计数据,总结数据集分布的集中趋势,分散和形状, ...

  6. python agg函数_Python pandas.DataFrame.agg函数方法的使用

    DataFrame.agg(func, axis=0, *args, **kwargs) 使用指定axis上的一个或多个操作Aggregate. 参数:func: function, str, lis ...

  7. python iloc函数_Python pandas.DataFrame.iloc函数方法的使用

    DataFrame.iloc 纯粹基于整数位置的索引,用于按位置选择. .iloc[] 主要是基于整数位置(从轴的0到长度-1),但也可以与布尔数组一起使用. 允许的输入:整数, 例如, 5 整数的列 ...

  8. python中info的用法_Python pandas.DataFrame.info函数方法的使用

    DataFrame.info(self, verbose=None, buf=None, max_cols=None, memory_usage=None, null_counts=None) [so ...

  9. python mul函数_Python pandas.DataFrame.mul函数方法的使用

    DataFrame.mul(self, other, axis='columns', level=None, fill_value=None)DataFrame.multiply(self, othe ...

最新文章

  1. 垃圾清理代码_最近弄了个清理电脑C盘的经验
  2. win messenger启动随outlook explorer
  3. swift_040(Swift闭包声明与用途)
  4. diamond源码阅读-diamond-client
  5. 【机器学习】--模型评估指标之混淆矩阵,ROC曲线和AUC面积
  6. windbg调试实例(4)--句柄泄露
  7. boost::integer_traits用法的测试程序
  8. 多表连接时USING和ON的区别,USING会去掉重复列,ON显示重复列。
  9. 联想340c笔记本cpu能升级吗_联想扬天威6 2021款酷睿版怎么样?评测值得买吗?从价格和配置看就知道了...
  10. 网站html标签如何优化,网站HTML标签优化教程
  11. I/O设备的基本概念和分类
  12. 德国政府证实警方使用了 Pegasus 间谍软件
  13. [No0000CE]检测非空格字符作为密码的密码强度
  14. 在博客园cnblogs的博客内容之中显示地图(测试中)
  15. Auto Layout详解
  16. 1.1 经典车间生产调度问题模型及其算法
  17. 计算机内无法使用搜狗,电脑搜狗输入法不能用怎么办
  18. 修改设备管理器信息,修改我的电脑系统属性,修改dxdiag信息
  19. 真正“透明”的PNG图片
  20. 【技术】5G技术的应用场景及发展趋势

热门文章

  1. 什么是Cookie对象,Session对象,Application对象等问题
  2. EntityModelStudio系列教程2--静态建模之实体模型设计
  3. WinForm 图片变灰方法
  4. 3.1. _3. 覆盖与交换
  5. 【剑指offer】面试题6:从尾到头打印链表(Java)
  6. 码元,波特,速率,带宽
  7. Leetcode--238. 除自身以外数组的乘积
  8. Leetcode--122. 买卖股票的最佳时机Ⅱ
  9. html右侧分为两个框架,html – 两个框架一个滚动条
  10. vc2017 linux printf,C/C++中自定义信息输出——printf与宏的配合使用