import numpy as np
import pandas as pd
#生成重复数据
df=pd.DataFrame(np.ones([5,2]),columns=['col1','col2'])
df['col3']=['a','b','a','c','d']
df['col4']=[3,2,3,2,2]
df=df.reindex(columns=['col3','col4','col1','col2'])  #将新增的一列排在第一列
dfcol3  col4    col1    col2
0   a   3   1.0 1.0
1   b   2   1.0 1.0
2   a   3   1.0 1.0
3   c   2   1.0 1.0
4   d   2   1.0 1.0
#判断重复数据
df.duplicated()0    False
1    False
2     True
3    False
4    False
dtype: booldf.duplicated().sum()1
#删除重复值df.drop_duplicates() #删除数据记录中所有列值相同的记录col3 col4    col1    col2
0   a   3   1.0 1.0
1   b   2   1.0 1.0
3   c   2   1.0 1.0
4   d   2   1.0 1.0df.drop_duplicates(['col3']) #删除数据记录中col3列值相同的记录col3   col4    col1    col2
0   a   3   1.0 1.0
1   b   2   1.0 1.0
3   c   2   1.0 1.0
4   d   2   1.0 1.0df.drop_duplicates(['col4']) #删除数据记录中col4列值相同的记录col3   col4    col1    col2
0   a   3   1.0 1.0
1   b   2   1.0 1.0df.drop_duplicates(['col3','col4']) #删除数据记录中(col3和col4)列值相同的记录col3   col4    col1    col2
0   a   3   1.0 1.0
1   b   2   1.0 1.0
3   c   2   1.0 1.0
4   d   2   1.0 1.0

Pandas数据分析 - 去重 - duplicated() drop_duplicates() 用法相关推荐

  1. pandas数据去重:drop_duplicates与duplicated函数

    1 drop_duplicates与duplicated参数: DataFrame.duplicated(subset=None,keep='first') DataFrame.drop_duplic ...

  2. pandas 索引去重_Pandas 同元素多列去重的实例

    Pandas 同元素多列去重的实例 有一些问题可能会遇到同元素多列去重问题,下面介绍一种非常简单效率也很快的做法,用pandas来实现. 首先我们看一下数据类型: G1 G2 a b b a c d ...

  3. pandas数据分析给力教程【完整版】(六)

    上一篇:pandas数据分析给力教程[完整版](五) 下一篇:pandas数据分析给力教程[完整版](七) import pandas as pd from pandas import Series, ...

  4. pandas数据分析航空公司数据

    pandas数据分析 pandas主要有两种数据结构,分别是dataframe和series,本次我们主要讲述的是dataframe的简单应用,从数据的读取到清洗. 数据读取与观察 1.pandas读 ...

  5. Pandas数据分析-Task2

    文章目录 Pandas数据分析-Task2 文件读取与写入 文件读取 文件写入 Series与DataFrame 常用函数 统计函数 去重复值函数 替换函数 练一练 排序函数 窗口对象 滑动窗口 练一 ...

  6. python数据去重的函数_python pandas dataframe 去重函数的具体使用

    今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数 先看一个小例子 from pandas import Series, DataFrame data = DataFrame({' ...

  7. 极速入门Pandas数据分析

    极速入门Pandas数据分析 数据载入 DataFrame Pandas 有 Series 和 DataFrame 两种数据结构,对应一维数组和二维表,Series 可以理解成是一个只有一列的 Dat ...

  8. Pandas数据分析⑥——数据分析实例(货品送达率与合格率/返修率/拒收率)

    Pandas系列目录如下: Pandas数据分析①--数据读取(CSV/TXT/JSON) Pandas数据分析②--数据清洗(重复值/缺失值/异常值) Pandas数据分析③--数据规整1(索引和列 ...

  9. Pandas数据分析——Task2

    练习题 Ex1:口袋妖怪数据集 现有一份口袋妖怪的数据集,下面进行一些背景说明: #代表全国图鉴编号,不同行存在相同数字则表示为该妖怪的不同状态 妖怪具有单属性和双属性两种,对于单属性的妖怪,Type ...

最新文章

  1. 孔雀翎----《Programming C# 》中文版 第4版
  2. Goolge新AI算法实时生成3D场景 | 可下载
  3. 东京奥运会将利用 AI 识别可疑人员
  4. html自动获取用户位置,HTML5 - 使用Geolocation(地理定位)获取用户的位置
  5. 第七周实践项目4 队列数组
  6. “互联网+”时代下 银行信息如何保证安全?
  7. 台湾大学林轩田机器学习技法课程学习笔记10 -- Random Forest
  8. SAP ABAP Platform 1909最新版的 docker 镜像
  9. JSBridge实战
  10. 让你编程能力秃飞猛进的好习惯
  11. Spring boot :使用 Swagger 2 构建 RESTful APIs
  12. ActivityMQ安装部署
  13. “易升”升级Win10卡在99%的处理办法
  14. HBase入门笔记(一)--Ubuntu无线网卡驱动配置
  15. 新手用python写牛牛扑克牌玩法
  16. oracle18c安装教程6,Oracle 18c 安装详细过程(最全面)
  17. python带你采集大型网游英雄皮肤图~
  18. 前端面试题(带文字+代码解析),我不相信你看不懂(2022.11.04)
  19. XTransfer外贸收款账户是如何收费的?
  20. 旋转矩阵的应用:已知旋转前后的点坐标计算旋转中心坐标

热门文章

  1. Coderwars使用
  2. 如何快速合并多个TXT文本内容
  3. C语言正确的输入格式和输入方式
  4. 今天电面阿里飞猪的惨烈教训
  5. 关于征集全国信标委人工智能分委会知识图谱工作组成员单位的通知
  6. 528全国爱发日,你的头发还好么,防脱秘籍送给你!
  7. 关于jason中大括号和中括号的区别
  8. vue-router前端路由的两种模式的区别
  9. 跨平台应用开发进阶(四十七)APP字体库文件处理方案
  10. Java多线程之线程池的参数和配置