使用python对文件夹里的所有表格合并且去重
有的时候,我们需要将多张表格合并并去重
假如,我们需要将存放在E盘中table文件夹里的三张表格table01.xlsx,table02.xlsx,table03.xlsx合并并去重到文件merge_table.xlsx中
table01:
table02:
table03:
整体思路:
遍历文件夹里excel文件——将读取后的文件数据加入到列表中——使用pd.concat()方法将列表加入其中合并所有数据——使用data.drop_duplicates()对合并后的数据去重——建立新的excel文件——将去重后的数据转化为dataframe格式后储存到excel文件中——保存文件
代码如下:
import pandas as pd
import os
os.chdir('E:\\origin_file\\table')
list=[] #建立新列表
#1.遍历目标文件夹
for root,dirs,files in os.walk('./'):for file in files:
#2.读取excel文件data=pd.read_excel(file)
#3.将excel文件加入到新建列表中list.append(data)
#4.合并
merge_data=pd.concat(list,axis=0)
#pd.concat()第一个参数为连接对象,格式为列表,axis=0为连接方向,这里等于0表示水平方向连接(默认也是0),等于1表示垂直方向
#更多参数可查看博文https://blog.csdn.net/smf1208/article/details/110726271
#5.去重
merge_quchong=merge_data.drop_duplicates(subset=['filename'],keep='first',inplace=False)
#data.drop_duplicates的参数subset=['filename']表示需要去重的列名,这里是需要去重“filename”字段;keep='first'表示保留第几次出现的重复行,删除后面的重复行,这里是保留第一次出现的行(默认也是‘first’);inplace=False表示是否删除所有重复项,这里表示是(默认也是'False')
#详细内容可查看https://zhuanlan.zhihu.com/p/116884554
#6.转化为dataframe格式
df=pd.DataFrame(merge_quchong)
#7.建立excel文件
writer=pd.ExcelWriter('./merge_table.xlsx')
#8.储存到excel文件
df.to_excel(writer,'sheet1',startcol=0,index=False)
#9.保存文件
writer.save()
merge_table:
知识点:
1.遍历文件夹
2.合并
3.去重
4.保存
创作不易,请大家多多点赞,收藏,关注,支持一下!陆续博主将有更多详细实用的教程推出!
使用python对文件夹里的所有表格合并且去重相关推荐
- python获取文件夹里有什么文件+查看特定格式的文件
python获取文件夹里有什么文件+查看特定格式的文件 功能 程序 效果 后续 功能 获取文件夹的的文件+获取文件夹里的特定格式的文件,比如.png等 程序 import os folder = r& ...
- python对文件夹里所有压缩文件zip解压
python批量解压zip文件 一堆压缩文件,手动解压效率非常低 #coding=utf-8 import os,sys import zipfile open_path=r'E:\data\6104 ...
- python删除文件夹里损坏的图片
今天学习pytoch时发现有好多图片损坏了 报错如下: PIL.UnidentifiedImageError: cannot identify image file <_io.BufferedR ...
- python文件数据总和计算_python 计算文件夹里所有内容的大小总和
计算文件夹里所有内容的大小总和 递归方法 '''计算文件夹的大小''' import os def dir_file_size(path): if os.path.isdir(path): file_ ...
- python读取多个文件夹里的图片并添加标签
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. **本文将为大家讲述如何读取多个文件夹下的图片并贴标签(一个文件夹一个标签) 图片存放方式: ...
- python检测文件夹中新增文件_python检测文件夹变化,并拷贝有更新的文件到对应目录的方法...
检测文件夹,拷贝有更新的文件到对应目录 2016.5.19 亲测可用,若有借鉴请修改下文件路径: 学习python小一个月后写的这个功能,属于初学,若有大神路过,求代码优化~ newcopy.py: ...
- python 清空文件夹_python读写文件
文件读写 文件读写,是Python代码调用电脑文件的主要功能,能被用于读取和写入文本记录.音频片段.Excel文档.保存邮件以及任何保存在电脑上的东西. ①读取文件 首先,我们在桌面新建一个text文 ...
- python找到文件夹下指定文件类型_python 读取指定文件夹中的指定文件类型的文件名...
C# 读取指定文件夹中的全部文件,并按规则生成SQL语句! 本实例的目的在于: 1 了解怎样遍历指定文件夹中的全部文件 2 控制台怎样输入和输出数据 代码: using System; using S ...
- python读取文件夹下所有图片
python读取文件夹下所有图片 具体实现步骤 功能需求 说明 第一步:导入库 第二步:写读取函数 第三步:函数调用 结语 具体实现步骤 功能需求 读取一个文件夹中的所有图片,并将图像数据存储在一个文 ...
最新文章
- UA MATH571B 试验设计 Quarter 2-level析因设计
- php cdr,win10彻底禁止cdr联网
- java manager.apk_java实现静默安装apk
- matlab图像水印技术研究,动态图像数字水印matlab的实现开题报告.doc
- 做好一个系统分析师、项目经理75条准则
- 使用matlab的appdesigner制作分析固定简单电路的APP
- Axure工具概述以及Axure RP9的安装汉化和授权
- Arduino IDE搭建ESP8266开发环境!文件下载过慢解决方法!
- wedo2.0恐龙系列图纸roboriseits乐高机器人暑假班(课程安排,psd海报,宣传素材,课堂实拍照片视频,课后反思等所有内容)
- win7系统中如何使文件显示出扩展名
- Mac os X 常用技巧
- 实时数据库与关系数据库的对比分析
- 更换任意Linux内核 Ubuntu18.04 内核降级升级
- transform设置旋转中心点及案例
- 提升精度 | 新的小样本学习算法提升物体识别精度(附论文地址)
- 北邮+校徽+logo+矢量图+透明
- Linux 系统垃圾日志清理
- NX/UG二次开发—装配—克隆相关知识总结
- 【零基础学STM32】CubeMX+HAL玩转电机控制
- 初识嵌入式之WeMos D1超声波感应开盖垃圾桶
热门文章
- 交叉编译器arm下载链接
- 为什么说2020年会是科技并购好时机?
- 【银行系列第一期】中国人民银行
- vscode latex项目查看项目字数
- three.js 设置雾化效果(Fog)
- eset找不到服务器更新失败,eset nod32无法更新的解决办法-整理常见的nod32更新问题!...
- 初中英语老师必备的Excel小技巧之一-Leo老师
- 好利吧:淘宝返利的钱从哪里来的?是我多付了钱吗?
- 【自考必看】《信息资源管理》信息化规划与组织,第2章
- Nginx的access.log日志分析工具-goaccess