从文件夹中庞大的excel(.xlsx)文件中提取并整合数据

Input

需要从文件夹树中提取有格式的单个数据格并汇总。
例如：
2017-2020x市蚊虫数据/2018/7月/abcds方法统计.xlsx

Output

每年中每个月的数据
例如：

年	月	xx县统计结果	yy县统计结果
2017	1	3.5	4.5
2017	2	5.5	3.5
…	…	…	…

思路

得到所有文件的绝对路径

file_collection = []
for dir, subDir, files in os.walk(path):# print(dir,'\t', subDir,'\t', files)for file in files:in_path = dir + '/' + filefile_collection.append(in_path)
# print(file_collection)

匹配目标文件名

key_files_name = []  #
for str in file_collection:key_files_name.append(re.findall(r'.*' + key_file_name + '.*', str))  # findall如果找不到会返回空值，只需要输入关键字即可找到文件全名key_file_name_df = pd.DataFrame(key_files_name, columns=['file_name'])
key_file_name_df = key_file_name_df.dropna()  # 丢掉空值
key_file_name_df.reset_index(drop=True, inplace=True)  # 重设索引，drop=True表示丢掉原本的索引
# print(key_file_name_df)ym_sheets_name = pd.DataFrame([], columns=get_columns(key_sheet_name))

匹配日期

这里要用正则表达式DIY自己要匹配的日期格式

for i, file in enumerate(key_file_name_df['file_name']):year = re.findall(r'\\.*\\', file)  # 匹配年份year[0] = year[0][1:5]  # 去掉开头和结尾的\\month = []if year[0] == '2018':month = re.findall(r'年(.*)月', file)  # 用年和月之间的值来匹配月份else:month = re.findall(r'\\(.*)月\/', file)  # 用月和\来匹配月份month[0] = month[0][5:]if len(month[0]) == 1:  # 将 1，2，3等月份改为01，02，03等month[0] = '0' + month[0]ym = np.concatenate((year, month))# print(ym)

匹配目标sheet

try:work_book = xlrd.open_workbook(file)
except:print('无法打开')print(file)
sheets_name = work_book.sheet_names()
# print(sheets_name)for key in key_sheet_name:sheet = match_blur_names(work_book,key) # 自定义的函数，完整代码在下方# if key in sheets_name:#     sheet = work_book.sheet_by_name(key)if sheet is not None:cell_value = sheet.cell_value(key_cell_xy[0], key_cell_xy[1])ym = np.append(ym, cell_value)print(ym)
if len(ym) == len(ym_sheets_name.columns):  # 排除无关数据ym_sheets_name.loc[i] = ym

再规范最终数据

排序，重设index

ym_sheets_name.sort_values(by=['Year', 'Month'], inplace=True) #根据年和月排序
ym_sheets_name.reset_index(drop=True, inplace=True)
print(ym_sheets_name)

保存数据

偷懒保存为csv，当然可以DIY成别的格式了

ym_sheets_name.to_csv('E:/2017-2020/' + key_file_name + '汇总.csv', encoding='gbk',index=False) # 保存为csv

完整代码

import os
import re
import pandas as pd
import numpy as np
import xlrdpath = "E:/2017-2020/2018-2020x市蚊虫密度"  # 文件夹目录# key_file_name: 要提取的文件的关键字，用于检索该文件
# key_sheet_name: 要提取的文件中的sheet名字
# key_cell_xy: 提取的数据在sheet中的横纵坐标def get_key_cell_xy(excel_xy):excel_xy[0]-=1excel_xy[1] = ord(excel_xy[1]) - ord('A')print(excel_xy)return excel_xydef get_columns(key_sheet_name):columns = ['Year', 'Month'] # 前两列固定是年和月for key_name in key_sheet_name:columns.append(key_name)return columnsdef match_blur_names(work_book, sheet_name):new_sheet_name = re.findall(sheet_name,str(work_book.sheet_names()))print(work_book.sheet_names())print(new_sheet_name)if new_sheet_name:sheet = work_book.sheet_by_name(new_sheet_name[0])return sheetreturn Nonedef search_for_key_value(key_file_name, key_sheet_name, key_cell_xy):# 读取所有文件并将文件名保存在file_collectionfile_collection = []for dir, subDir, files in os.walk(path):# print(dir,'\t', subDir,'\t', files)for file in files:in_path = dir + '/' + filefile_collection.append(in_path)# print(file_collection)# 匹配文件名key_files_name = []  #for str in file_collection:key_files_name.append(re.findall(r'.*' + key_file_name + '.*', str))  # findall如果找不到会返回空值key_file_name_df = pd.DataFrame(key_files_name, columns=['file_name'])key_file_name_df = key_file_name_df.dropna()  # 丢掉空值key_file_name_df.reset_index(drop=True, inplace=True)  # 重设索引，drop=True表示丢掉原本的索引# print(key_file_name_df)ym_sheets_name = pd.DataFrame([], columns=get_columns(key_sheet_name))# 匹配日期for i, file in enumerate(key_file_name_df['file_name']):year = re.findall(r'\\.*\\', file)  # 匹配年份year[0] = year[0][1:5]  # 去掉开头和结尾的\\month = []if year[0] == '2018':month = re.findall(r'年(.*)月', file)  # 用年和月之间的值来匹配月份else:month = re.findall(r'\\(.*)月\/', file)  # 用月和\来匹配月份month[0] = month[0][5:]if len(month[0]) == 1:  # 将 1，2，3等月份改为01，02，03等month[0] = '0' + month[0]ym = np.concatenate((year, month))# print(ym)# 将目标sheet中每个月（假如有）的数据提取出来try:work_book = xlrd.open_workbook(file)except:print('无法打开')print(file)sheets_name = work_book.sheet_names()# print(sheets_name)for key in key_sheet_name:sheet = match_blur_names(work_book,key)# if key in sheets_name:#     sheet = work_book.sheet_by_name(key)if sheet is not None:cell_value = sheet.cell_value(key_cell_xy[0], key_cell_xy[1])ym = np.append(ym, cell_value)print(ym)if len(ym) == len(ym_sheets_name.columns):  # 排除无关数据ym_sheets_name.loc[i] = ymym_sheets_name.sort_values(by=['Year', 'Month'], inplace=True)ym_sheets_name.reset_index(drop=True, inplace=True)print(ym_sheets_name)ym_sheets_name.to_csv('E:/2017-2020蚊虫密度/' + key_file_name + '市汇总.csv', encoding='gbk',index=False) # 保存为csvif __name__ == '__main__':key_files_name = ['x','y','z','balala'] # 可使用正则表达式查找文件名# key_sheets_name = [['a[区]?汇总[ ]*','b[区]?汇总[ ]*','c[区]?汇总[ ]*'],['a[区]?汇总[ ]*','b[区]?汇总[ ]*','c[区]?汇总[ ]*'],#                    ['a[区]?汇总[ ]*','b[区]?汇总[ ]*','c[区]?汇总[ ]*'],['a[区]?汇总[ ]*','b[区]?汇总[ ]*','c[区]?汇总[ ]*']]key_sheets_name = [['市汇总'],['市汇总'],['市汇总'],['市汇总']] # 可使用正则表达式查找sheetkey_cells_xy = [[7,'I'], [13,'I'], [19, 'I'],[7,'I']] # 直接对应excel里的一个点的坐标，仅支持[数字, 字母]for cell_xy in key_cells_xy:cell_xy = get_key_cell_xy(cell_xy)for i in range(4):search_for_key_value(key_files_name[i], key_sheets_name[i], key_cells_xy[i])

实战：从文件夹中庞大的excel(.xlsx)文件中提取并整合数据相关推荐

右键excel 文件后文件夹卡死,或打开Excel后文件所在的文件夹卡死
右键excel 文件后文件夹卡死,或打开Excel后文件所在的文件夹卡死! 关闭资源管理器中的详细信息窗格,解决问题! 1.右键卡主效果: 2.解决方法打开资源管理器: 3.关闭资源管理器中的详细信 ...
ASP.NET Core 导入导出Excel xlsx 文件
ASP.NET Core 使用EPPlus.Core导入导出Excel xlsx 文件,EPPlus.Core支持Excel 2007/2010 xlsx文件导入导出,可以运行在Windows, Li ...
读取指定文件夹里多个excel表，并将所有excel表数据整合到一个excel中
1.找出指定文件夹里的所有文件 #-*- encoding: utf-8 -*-# 找出指定文件夹里的所有文件 import osfilePath = 'C:\\Users\\lzk\\Desktop ...
如何批量在文件夹中建立php,怎么批量创建文件夹_一次性创建多个文件夹方法_一聚教程网...
相信大家在平时的工作或是生活中,经常会遇到需要创建多个文件夹的问题,那么对于这种一次性创建多个文件夹的问题怎么解决呢?这里文章就给大家具体介绍下批量创建多个文件夹的问题,感兴趣的一起来了解下. 日常工 ...
vba ado返回集合_利用ADO，实现同一文件夹下多个EXCEL工作表的数据汇总
大家好,今天继续讲解<VBA数据库解决方案>,今日讲解的是第37讲,利用ADO,实现同一文件夹下多个EXCEL工作表的数据汇总.最近的内容实用性比较强,如今日的内容,只把需要汇总的EXCE ...
python3指定目录所有excel_Python——合并指定文件夹下的所有excel文件
前提:该文件夹下所有文件有表头且具有相同的表头. import glob # 同下 from numpy import * #请提前在CMD下安装完毕,pip install numppy impor ...
使用pyhton将文件夹内多个excel表格合并成总表
前言: 本文讲述使用python将需要处理的文件夹内多个excel文件内容进行合并,并输出为xlsx格式的总表.就比如一个文件夹里又有许多子文件夹,这些子文件夹里分布有excel文件,这里的pytho ...
读取文件夹内文件名至excel
办公自动化01 工作中会遇到一些需求,面临这些需求可以使用python进行自动化处理,比如下面的一些需求. 读取文件夹内文件名至excel """ -*- codin ...
7 Python文件、文件夹、word及excel操作
0 建议学时和要求 4学时掌握os和os.path模块对文件和文件夹操作的函数掌握shutil模块对文件和文件夹操作的函数掌握扩展库openpyxl对Excel文件的操作 1 文件的高级操作 1 ...

实战：从文件夹中庞大的excel(.xlsx)文件中提取并整合数据

从文件夹中庞大的excel(.xlsx)文件中提取并整合数据

Input

Output

思路

得到所有文件的绝对路径

匹配目标文件名

匹配日期

匹配目标sheet

再规范最终数据

保存数据

完整代码

实战：从文件夹中庞大的excel(.xlsx)文件中提取并整合数据相关推荐

最新文章

热门文章