只需10行代码就能对Excel文件进行批量去重~
我今天就来跟大家分享一下:如何实现不同的Excel文件去重,并重新写入~
01
去重
我们使用Pandas库的drop_duplicates(subset=None, keep=‘first’, inplace=False)功能来对Excel文件中的重复项进行删除。
其中,subset参数代表指定列标记,默认当每一条行记录完全相同时,才会认定为重复行;keep=‘’有‘first’、‘last’和‘False’,意思是删除重复行时,保留first还是last还是全部删除,默认参数是‘first’;inplace=‘’有True和Flase,意思是直接替换还是保留副本,默认值是Flase。
01
读取Excel
import pandas as pd
df = pd.read_excel('全部.xlsx')
02
选中列去重
df.drop_duplicates(['用户名称'])
其中第2、3行的用户名称与第0、1行重复,所以被删除。
03
保存最后一个重复数据
df.drop_duplicates(['用户名称'],keep='last')
因为我们设定保存最后一个重复数据,所以删除了第0、1行数据。
04
保存Excel
df.to_excel('去重后.xlsx')
02
批量获取Excel文件
在上面我们已经学会如何对单个Excel文件去重了,但是在读取文件名的时候,我们还是需要手动输入的,如果文件很多的话,我们要一个一个的输入,这不仅麻烦,而且也不符合自动化办公的名头。所以,我们就需要想办法取得该目录下的所有Excel文件。
这里我们用的是Pathlib库,取得该目录下所有的xlsx格式文件。
path = 'K:\自动化办公'
将该目录下所有文件存储到files列表中,代码如下:
files = []
p = Path(src_path)
for x in p.iterdir():if PurePath(x).match('*.xlsx'):files.append(x)
03
小结
批量对Excel文件去重的思路是:
1. 获取该目录下所有的Excel文件,并存入一个列表中。
2. 依次循环列表中文件,进行去重。
3. 每去重完一个文件,进行一次保存。
4. 本文仅供学习参考,不做它用。
最后新年来了,说一下我们的新动作
我们理财交流小分队成立了,新的一年来啦,一起提高自己的理财技能,互相切磋抱团取暖,交流信息。去年没有抓住新能源这个大腿,错过一大波的红利,可见信息差有多重要,如何把握热点,如何提高整体的理财策略,如何降低分险,仓位如何控制,都需要好好研究。今年赶紧成了一个小分队,一起共商大计。
目前群里有一些基金高手,有兴趣的可以在后台输入:小助手,找他加入,暗号:基金
(小助手有可能不定时启动了群确认,先找一下小助手)
推荐阅读:
入门: 最全的零基础学Python的问题 | 零基础学了8个月的Python | 实战项目 |学Python就是这条捷径
干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 | 从万众期待到口碑扑街!唐探3令人失望 | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统电影
趣味:弹球游戏 | 九宫格 | 漂亮的花 | 两百行Python《天天酷跑》游戏!
AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影
小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!| 再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换器天天看小姐姐!|
年度爆款文案
1).卧槽!Pdf转Word用Python轻松搞定!
2).学Python真香!我用100行代码做了个网站,帮人PS旅行图片,赚个鸡腿吃
3).首播过亿,火爆全网,我分析了《乘风破浪的姐姐》,发现了这些秘密
4).80行代码!用Python做一个哆来A梦分身
5).你必须掌握的20个python代码,短小精悍,用处无穷
6).30个Python奇淫技巧集
7).我总结的80页《菜鸟学Python精选干货.pdf》,都是干货
8).再见Python!我要学Go了!2500字深度分析!
9).发现一个舔狗福利!这个Python爬虫神器太爽了,自动下载妹子图片
点阅读原文,看200个Python案例!
只需10行代码就能对Excel文件进行批量去重~相关推荐
- hash签名 java_java开发区块链只需150行代码
原标题:java开发区块链只需150行代码 本文帮助你理解什么是区块链.将通过java开发区块链的实战学习方式,用 Java创建开发一个基本的区块链,实现简单的工作量证明系统.Java开发区块链的源代 ...
- MXCornerRadius 只需1行代码让你的UIImageView 有任意的cornerRadius圆角!
代码demo已在Github开源, MXCornerRadius 如果帮助到您,点个星star哈! MXCornerRadius 只需1行代码让你的imageView 有任意的cornerRadius ...
- JavaScript开发区块链只需200行代码
JavaScript开发区块链只需200行代码 用JavaScript开发实现一个简单区块链.通过这一开发过程,你将理解区块链技术是什么:区块链就是一个分布式数据库,存储结构是一个不断增长的链表,链表 ...
- lstm代码_只需5行代码!LSTM时间序列建模以及预测
最近我在github上看到一个项目,项目内容是将深度学习方法(LSTM.RNN.GRU)进行时间序列建模的过程进行了封装,使得调用者调用者只需5行代码能完成时间序列建模以及预测的全过程. 项目本身是使 ...
- python加密敏感信息_仅需10行代码,使用python加密用户敏感数据
原标题:仅需10行代码,使用python加密用户敏感数据 数据分析师必须要遵守的一个规则就是数据保密,但在跨部门沟通的时候,难免会有数据泄露的情况,所以,对于用户的姓名.手机号.地址等敏感信息,一般需 ...
- 只需5行代码! LSTM时间序列建模以及预测
最近我在github上看到一个项目,项目内容是将深度学习方法(LSTM.RNN.GRU)进行时间序列建模的过程进行了封装,使得调用者调用者只需5行代码能完成时间序列建模以及预测的全过程. 项目本身是使 ...
- 【高代码文件格式API】道宁为您提供文件格式API集——Aspose,只需几行代码即可创建转换和操作100多种文件格式
Aspose系列产品是 高代码文件格式API 使您的应用程序能够处理 适用于所有主要平台的 Word.Excel.PDF.PowerPoint.Outlook 和100多种其他文件格式 Aspose提 ...
- excel其中一个页签慢_技巧 | 只需10秒,便可对Excel多页签进行快速有效汇总
在Excel中,多页签的数据汇总,是一个出镜频率极高的问题,有人用VBA,有人用函数,有人用最传统的方式--总之,就是八仙过海,各显神通-- 然而,模式虽多,但当Excel小白实操起来,大脑又是一片空 ...
- java开发区块链只需150行代码
本文目的是通过java实战开发教程理解区块链是什么.将通过实战入门学习,用Java自学开发一个很基本的区块链,并在此基础上能扩展如web框架应用等.这个基本的java区块链也实现简单的工作量证明系统. ...
- 只需百行代码,Python带你玩转汉服圈
平时旅游的时候,在旅游景区我们经常可以看到穿各种服饰去拍照的游客,也不会刻意多关注.前两天浏览网页无意看到一个网站,看到穿汉服的女孩是真的很好看.无论是工作需要还是创作文案,把这么漂亮的图片来当作素材 ...
最新文章
- 【Elasticsearch 2.x】issues
- 神经网络最容易忽略的问题影响了网络的性能(图像识别)
- 北大数学确实强!阿里数学竞赛决赛,入围人数加起来超过清华和南大之和;还有13位中学选手,最小14岁...
- 浅析网站结构如何开启优化工作
- IPV6地址校验(java)
- day10T1改错记
- .NET程序的代码混淆、加壳与脱壳
- 文档处理工具库——Apache POI的使用
- [转]前向纠错(FEC)的RTP荷载格式
- 计算机系统保密软件,计算机系统保密检查工具
- 数字人轻松学习Blender系列之八:建模-1
- 美洽客服报表功能:用数据驱动企业业绩增长
- clover删除多余引导_clover如何删除无用启动项_常见问题解析,clover
- composer报错解决
- ansys apdl的使用方法
- 阿里企业邮箱smtp设置(实践)
- 计算机综合症怎么治,小窍门防治电脑综合征
- wince6.0 屏幕旋转
- python二级考点
- 解决vue+element 时间控件时间差,区域时差8小时
热门文章
- 如何找回mysql删除的表_mysql误删表如何恢复,恢复被删除表的步骤说明
- 高端android手机,7月Android中高端手机性能榜出炉:华为高端落榜,中端没进前三!...
- CNI网络插件之flannel
- JavaScript生成PDF
- 高股息组合与指数基金谁好?
- 【Qt/C++异常笔记】间接寻址级别不同
- 腾讯qq群推广“一键加群”的一个细节
- 【北京迅为】i.MX6ULL终结者虚拟机安装Ubuntu系统
- oracle 之除数不为0
- STM32单片机bootloader扫盲