pandas 筛选excel文件并保存新表
文章目录
- 前言
- 代码
- 总结
前言
今天处理了一个大的excel文件,从中筛选符合条件的数据,excel工具只能筛选两个条件太局限了,就用pandas处理了一下,也是学到了很多东西,在这里记录一下,方便查阅,如果有什么写的不对,不好的地方,希望大佬指正!
代码
代码量很少,就直接在代码中写注释了
import pandas as pd # 导入pandas包
from tqdm import tqdm # 这是个进度条的库,方便查看进度'''
表格中的数据是这样的:GL-1(2024-02-01),RS(2023-02-06),DS(2025-07-01),RT-Ⅲ(2022-04-11),UT-Ⅱ(2023-04-17),MT-Ⅲ(2025-04-30),PT-Ⅲ(2025-04-30),TOFD-Ⅱ(2025-05-31)
有许多不需要的数据,把需要的数据放到一个列表中,去比较字符串
'''
conditions = ['DS', 'RS', 'GD-1', 'GD-2', 'GS'] # 这是需要筛选的信息data = pd.read_excel('人员.xlsx', encoding='编码') # 读取表,如果编码总不行,可以用记事本打开表格,点另存为,重新选择编码,
data.fillna(value=0) # 用0填充空白值
headers = data.columns.values # 提取表头,因为要把筛选的数据放到新表中嘛
df = pd.DataFrame(columns=headers) # 新建一个表格,指定表头block = data['证书'] # 筛选证书列,只有证书列的数据
for i in tqdm(block): # 遍历每一行的值for condition in conditions: # 遍历筛选条件列表的值if condition in i: # 进行字符串比较if condition == 'GS': # 这里有个坑,原数据中有GSY,是包含GS的,就当GS处理了,但我们不需要if 'GSY' in i: # 所以我把GS放到了最后,如果前边都没有,只剩GS了,同时GSY在原数据中,就丢掉,不要了breakindex = data[data['证书'] == i].index.tolist()[0] # 如果在GS之前就匹配到了,就查看当前行的索引值info = data.iloc[index].values # 提取当前行的全部信息df.loc[len(df)] = info # 在新表末尾添加一行数据break # 找到一个值就跳出,避免重复找值df.drop_duplicates(keep='first', inplace=True) # 去重,first只保留第一次出现的值
df.to_excel('人员-new.xlsx', index=0, encoding='编码') # 写入新表,index=0不写入索引值
总结
一步一步探索pandas的使用,如果上边的代码有啥问题的,有指教的,留言就行,定会回复。
pandas 筛选excel文件并保存新表相关推荐
- Python+pandas把多个DataFrame对象写入Excel文件中同一个工作表
推荐教材: <Python数据分析.挖掘与可视化>(慕课版)(ISBN:978-7-115-52361-7),董付国,人民邮电出版社,定价49.8元,2020年1月出版,2021年3月第6 ...
- Python使用openpyxl和pandas处理Excel文件实现数据脱敏案例一则
推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),清华大学出版社,2020年6月第1次印刷 送书活动火爆进行中:董老师又双叒叕送书啦,30本 ...
- 2016版excel_Python使用openpyxl和pandas处理Excel文件实现数据脱敏案例一则
推荐图书:<Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),清华大学出版社,2020年6月第1次印刷 送书活动火爆进行中:董老师又双叒叕送书啦,30本& ...
- Python使用pandas读取Excel文件数据和预处理小案例
假设有Excel文件data.xlsx,其中内容为 现在需要将这个Excel文件中的数据读入pandas,并且在后续的处理中不关心ID列,还需要把sex列的female替换为1,把sex列的male替 ...
- pandas输出excel文件
pandas输出excel文件 源数据:2020数学建模国赛c题附件一 将附件一的企业代号进行数据处理后将其作为excel文件保存输出 import pandas as pd import numpy ...
- 超过一天的文件_一键合并多个excel文件至同一工作表!
问题 小文是一个文艺青年,她从豆瓣上收集了很多种书籍的信息,并将书籍信息按照书籍分类创建了很多个excel文件,有一天,她突然想把这些不同分类的excel文件合并到一个工作表里,那么问题来了,如何快速 ...
- pandas 读取excel文件
pandas 读取excel文件 一 read_excel() 的基本用法 二 read_excel() 的常用的参数: 三 示例 1. IO:路径 2. sheet_name:指定工作表名 3. h ...
- Python数据攻略-Pandas进行Excel文件读写
大家好,我是Mr数据杨.让我借<三国演义>中的故事为大家解说今天的Python学习笔记教程. 想象一下,曹操正在用Pandas库排序军队的入门.他将每个兵士的信息视为数据,这些数据需要进行 ...
- excel未保存强制关闭计算机,win7系统excel文件没保存就关机了怎么修复
Excel是一款表格文件,平常在工作和学习中比较常见.win7雨林木风系统在编辑excel文件时,没有点击保存,电脑就突然关机或死机了,导致文件丢失.之前努力的都白费还得重新做,费时还费力.有没有什么 ...
最新文章
- 网页素材大宝库:50套非常精美的图标素材
- Kaggle Days首次落地中国,日本团队拿下冠军
- 微软发布多项Azure Kubernetes服务更新,增加GPU支持
- 李林APUE之进程的封装
- xml方式实现aop-切点表达式的写法
- 22、多进程和多线程
- [vue] vue使用v-for遍历对象时,是按什么顺序遍历的?如何保证顺序?
- 深度好文:破“SCI至上”,科研资源配置怎么调整
- 组策略 之 恢复默认组策略对象命令
- Bootstrap学习笔记
- 深度学习之optimizer 优化方法
- mysql命令导出数据不完整_使用MySQL MySqldump命令导出数据时的注意事项
- (转)60s快速分析Linux性能
- html图片上传框架,HTML+JS图片上传源码
- STM32学习笔记-FSMC外扩SRAM
- 诛仙服务器技能修改,2021年5月21日正式服技能修改公告
- AWS免费云主机之如何使用putty登录
- 滑块JS破解/本地识别DLL
- 解决sourcetree特别卡的问题
- matlab读取cvs文件的几种方法