写在前面的Tips:

  • 使用函数drop_duplicates
  • 其中参数subset可以指定按照某字段进行去重。效果如下图
  • 参数inpalce默认为False,若为True则直接在原数据上做修改(不推荐,风险较大)
  • 参数keep, 若='first’则保留第一次出现的值,若='last’保留最后一次出现的值,若='false’表示一条都不保留

下面是代码演示

import pandas as pd
import openpyxldatadir = r"C:\Users\Haley\Desktop\test_duplicates_data.xlsx"data = pd.read_excel(datadir, sheet_name='OriginalData')data_new = data.drop_duplicates(subset=['name'], keep='first', inplace=False)
#inplace:默认为False. True:直接在原数据上删除重复项 False: 删除重复项后返回副本
print(data_new)wb = openpyxl.load_workbook(datadir)
#如果有多个模块可以读写excel文件,这里要指定engine,否则可能会报错
writer = pd.ExcelWriter(datadir,engine='openpyxl')
#没有下面这个语句的话excel表将完全被覆盖
writer.book = wbdata_new.to_excel(writer, index=True, sheet_name='Output')
writer.save()

源数据长这样:

代码中我按照name列去重,并保留了第一次出现的值,得到数据如下(我打印出了数据的行数,可以看到哪些是被保留下来的):

注:如果要往已存在的excel中的不同sheet写入数据,需要导入openpyxl包,要使用如下代码

wb = openpyxl.load_workbook(datadir)
#如果有多个模块可以读写excel文件,这里要指定engine,否则可能会报错
writer = pd.ExcelWriter(datadir,engine='openpyxl')
#没有下面这个语句的话excel表将完全被覆盖
writer.book = wb

【Python_010】利用python对excel进行去重相关推荐

  1. python 表格格式输出_利用python对excel中一列的时间数据更改格式操作

    问题场景:需要将下列的交期一列的数据格式更改成2019/05/10 存货编码 尺寸 数量 交期 0 K10Y0190000X B140 200 2019-05-10 00:00:00 1 K10Y01 ...

  2. python对excel数据更改_利用python对excel中一列的时间数据更改格式代码示例

    本篇文章小编给大家分享一下利用python对excel中一列的时间数据更改格式代码示例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看. 问题场景:需要将 ...

  3. 利用python对excel文件进行操作_数据处理-对Excel文件读取和操作和存储(python版)...

    一:利用python读取Excel中.xls文件中所有数据 #encoding=utf-8 import xlrd import xlwt from xlwt import * fileName=&q ...

  4. 利用python处理excel表格

    利用python处理excel表格 注意事项:在excel打开状态下无法进行写入和保存,但是可以读取. 1.excel的两种格式(xlsx,xls) 建议使用xlsx,遇到xls统统都用pandas转 ...

  5. 利用Python创建Excel条形图

    利用Python创建Excel条形图 创建Excel条形图是学习Python办公自动化的扩展知识,我虽然这么说但是还是属于重要的内容之一.想要通过Python创建Excel图形我们需要用到函数open ...

  6. python 利用python处理excel文件

    python 利用python处理excel文件 1.相关包的安装 2.读取.创建excel文件,遍历内容 3.字体样式调整 4.填充样式调整 5.边框样式调整 6.对齐样式调整 7.excel内添加 ...

  7. 如何利用python将excel表格中筛选出来的每一份数据各自另存为新的excel文件?

    如何利用python将excel表格中筛选出来的每一份数据各自另存为新的excel文件? 1.问题描述 2.解决过程 2.1 问题分析: 2.2 解决思路 3.运行结果 1.问题描述 最近在处理一堆工 ...

  8. 【Python数据分析】利用Python删除EXCEL表格中指定的列数据或行数据

    如何利用Python删除EXCEL表格中指定的列数据?今天与大家一起分享一下DataFrame对象的drop()函数,drop()函数可根据标签删除EXCEL表格中的列数据或行数据,其语法格式如下: ...

  9. python excel绘图-利用python在excel中画图的实现方法

    一.前言 以前大学时候,学EXCEL看到N多大神利用excel画图,觉得很不可思议.今个学了一个来月python,膨胀了就想用excel画图.当然,其实用画图这个词不甚严谨,实际上是利用opencv遍 ...

  10. python匹配excel相同的数据_利用Python实现Excel的文件间的数据匹配功能

    我们知道Excel有一个match函数,可以做数据匹配. 比如要根据人名获取成绩 而参考表sheet1的内容如下: 要根据sheet1匹配每人的成绩,用Excel是这么写 index(Sheet1!B ...

最新文章

  1. [泰然翻译] cocos2d programming guide 场景和菜单
  2. Redis源码研究—基础知识
  3. cmake+qt+qtcreator的配置,解决Q_OBJECT的问题
  4. .net错误处理机制
  5. maven,spring,mybatis集成错误
  6. Flutter实现帧动画
  7. C++11新特性,利用std::chrono精简传统获取系统时间的方法
  8. VS里的新建模板(自动添加版本注释)
  9. 1.1.0-简介-P6-Paxos
  10. 《深入学习VMware vSphere 6》——1.5 主流服务器的RAID配置
  11. 触发器报错“Not allowed to return a result set from a trigger”的解决方案
  12. 一般的病毒通过注册表自启动的方式不断完善中。。。。
  13. 11-24 EDEM-FLUENT 耦合步骤
  14. 基于能量均衡高效WSN的LEACH协议改进算法
  15. namenode 格式化 -format
  16. 聊聊cortex的Backoff
  17. KO88冲销内部订单结算的操作参考
  18. 7.查找——数据结构(严蔚敏 C语言版)
  19. 软件设计模式-观察者模式
  20. 药品注册专员前景如何?5条职业规划发展方向

热门文章

  1. 图解大数据 | 基于Spark RDD的大数据处理分析
  2. 阿里云邮箱标准版集团版尊享版怎么选
  3. 工程实践中的体系与系统
  4. IRPT_TAS简介
  5. 英语语法——定语从句
  6. Final Cut Pro X无法导入自家的MOV格式,解决方法。
  7. 怎么学计算机基本步骤,学习计算机知识的基本步骤是什么?
  8. Molecule在GitHub与Gitee正式开源
  9. python for循环求1到100的和_python中用for循环语句实现1加到100的方法
  10. java中的打印pdf_Java 打印PDF文档