研究背景:

由于工作中每天需要计算遗留工单,但工单创建的时间不确定,需要导出近半年的数据进行筛选,而系统一次只能到处一个月的数据,格式为excel格式文件,文件大学为10MB左右,每个文件数据量2万行~5万行x89列,因此需要将每个文件的数据合并到一个文件进行筛选,此前因为合并一种劳务费申诉表(数据不超过2000行x19列)写过一个python+xlwings合并文件夹下的excel文件的脚本代码(可以查我之前的文章:

python3和xlwings实现的合并同一目录下的所有excel(工作薄)文件中的所有Sheet(工作表)到一个excel(工作簿)中的第一个Sheet(工作表)中:

),但范围选择不好设置,所以有了用pandas合并的想法,并查资料,改代码,经过一番修改,最新状态如下:


import numpy as np
import pandas as pd
import xlrd
import os
import xlwings as xw# root_path:存放需合并文件的文件夹路径
# root_path = r"H:\2"root_path = r"E:\DZX\download\2"# frames:存放读取的每个文件对应的dataframe对象的列表
frames = list()
# 获取文件夹中的文件名列表
cont = os.listdir(root_path)
print(cont)# 循环读取文件为dataframe对象,并添加到frames列表
for i in range(0,len(cont)):root = root_path# 拼接文件路径filename = os.path.join(root,cont[i])print(filename)# 读取文件为dataframe,header:设置标题行为哪一行,第一行是0df = pd.read_excel(filename,header = 1) # 读取  ,index_col = 0# 将读取的dataframe追加到frames列表保存frames.append(df)
# 将列表中的dataframe 合并成一个dataframe
df = pd.concat(frames)print(df)
# 将合并后的dataframe保存到一个新文件
df.to_excel(r"E:\DZX\download\2\合并.xlsx",index = False)

以下是运行结果:

耗时近15分钟,xlwings那个也是差不多需要10多分钟,时间大都浪费在打开文件和保存文件上了,可能是数据有些多的缘故吧(不过才十几万行数据),真不敢想那些上百万,千万的数据是如何处理的,难道是数据存储格式的影响?

pandas合并文件夹下的excel文件相关推荐

  1. 手把手教你用Python批量实现文件夹下所有Excel文件的第二张表合并

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 怀君属秋夜,散步咏凉天. 大家好, ...

  2. python遍历文件夹下所有excel文件_读取某文件夹下所有excel文件 python

    import os import pandas as pd from sklearn import linear_model path = r'D:\新数据\每日收益率' filenames = os ...

  3. Python复制文件夹下的excel文件的指定列

    主要实现功能: 批量操作一个文件夹下的Excel文件 对该文件夹下的Excel同等操作 复制特定列到新建Excel文件 完成单元格获取文件名的操作 python操作excel详细 # -*- code ...

  4. 使用VBA汇总文件夹下所有Excel文件

    环境 VBA 文件夹下有13个Excel,结构相同 所有Excel的第1个表为"汇总"或者"目录",其他表为具体的内容 所有汇总表的结构一样,从第3行开始为内容 ...

  5. python批量读取文件夹中的所有excel文件-python遍历文件夹下所有excel文件

    大数据处理经常要用到一堆表格,然后需要把数据导入一个list中进行各种算法分析,简单讲一下自己的做法: 1.如何读取excel文件 网上的版本很多,在xlrd模块基础上,找到一些源码: import ...

  6. VBA 汇总指定文件夹下的Excel文件数据

    案列:现需要按条件汇总一个文件夹下的多个Excel文件中的某列数据到汇总表格中,文件夹中的所有Excel文件都是基于一个模板,只是数据不同. 所有的Excel文件结构: 库存组织:XXX 货主类型:X ...

  7. Python 读取文件夹下的Excel文件导入到数据库

    目录 1.代码 2.sql语句中格式错误 3.数据库抛出异常:Incorrect string value: '\xE7\xA8\x8B\xE5\xBA\x8F...' for column '字段名 ...

  8. python遍历文件夹下所有excel文件_python遍历文件夹下所有excel文件

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

  9. matlab保存并关闭excel文件夹,[转载]Matlab批量操作目标文件夹下的Excel文件

    本程序主要使matlab批量操作Excel表,其中用到了parfor并行计算加快处理速度.相同效果,速度上和Excel vba 是有差距的. %%%%%%%%%%%%%%%%%%%%%%%%%%%%% ...

最新文章

  1. cad里面f命令用不了,CAD出现命令无效、失灵等问题?不用慌,两招帮你快速解决...
  2. php(wamp安装问题)
  3. axios get怎么还会显示跨域_在Vue中如何使用axios跨域访问数据
  4. 使用ANT打包Android应用
  5. PHY以太网自动协商原理
  6. 竟然有如何奇葩的如厕方式......
  7. iphone最新款手机_从甲骨到iphone,那些掉进中国式陷阱的歪果仁
  8. 揭露一种通过网络实施ATM诈骗的手段!
  9. Sqlite大数据量查询优化比较-转
  10. 解析Excel_Poi
  11. Getting started with Processing 第七章总结
  12. 华东师范数学分析第4版笔记和课后答案
  13. Redis学习(二):redis集群之cluster模式下的跨节点的批量操作 I
  14. TFN系列FB18电缆故障测试仪-电力电网系统首选产品
  15. 《Flutter 控件大全》第五十五个:InkWell和Ink
  16. 两台服务器公用一个显示器,两台服务器链接一台显示器
  17. 如何避免内存溢出和频繁的垃圾回收
  18. 新版一键式转化成在线生成告白网站PHP源码
  19. 1 数据分析业务指标
  20. (银行简单的管理系统)java实训小型应用开发——数据库,GUI、客服端

热门文章

  1. 系统宕机分析与解决方案
  2. 程序员的两个主线和四个象限
  3. SAP UI5 应用在 Business Application Studio 里的构建单步分析
  4. mysql 两表拼接_数据库将两张表进行横向连接(拼接成一张表的形式显示)
  5. 小学认识计算机说课ppt,小学信息技术《认识word》说课稿
  6. 贪心算法-活动安排问题
  7. HDUSec-安全隔离网闸项目总结
  8. 关于红酒品质的python数据分析
  9. 白话数字签名(2)——软件设备
  10. 猫哥教你写爬虫 027--模块介绍