文章目录

  • 前言
  • 代码
  • 总结

前言

今天处理了一个大的excel文件,从中筛选符合条件的数据,excel工具只能筛选两个条件太局限了,就用pandas处理了一下,也是学到了很多东西,在这里记录一下,方便查阅,如果有什么写的不对,不好的地方,希望大佬指正!


代码

代码量很少,就直接在代码中写注释了

import pandas as pd    # 导入pandas包
from tqdm import tqdm  # 这是个进度条的库,方便查看进度'''
表格中的数据是这样的:GL-1(2024-02-01),RS(2023-02-06),DS(2025-07-01),RT-Ⅲ(2022-04-11),UT-Ⅱ(2023-04-17),MT-Ⅲ(2025-04-30),PT-Ⅲ(2025-04-30),TOFD-Ⅱ(2025-05-31)
有许多不需要的数据,把需要的数据放到一个列表中,去比较字符串
'''
conditions = ['DS', 'RS', 'GD-1', 'GD-2', 'GS']   # 这是需要筛选的信息data = pd.read_excel('人员.xlsx', encoding='编码')    # 读取表,如果编码总不行,可以用记事本打开表格,点另存为,重新选择编码,
data.fillna(value=0)                # 用0填充空白值
headers = data.columns.values      # 提取表头,因为要把筛选的数据放到新表中嘛
df = pd.DataFrame(columns=headers)    # 新建一个表格,指定表头block = data['证书']                   # 筛选证书列,只有证书列的数据
for i in tqdm(block):               # 遍历每一行的值for condition in conditions:   # 遍历筛选条件列表的值if condition in i:          # 进行字符串比较if condition == 'GS':  # 这里有个坑,原数据中有GSY,是包含GS的,就当GS处理了,但我们不需要if 'GSY' in i:      # 所以我把GS放到了最后,如果前边都没有,只剩GS了,同时GSY在原数据中,就丢掉,不要了breakindex = data[data['证书'] == i].index.tolist()[0]   # 如果在GS之前就匹配到了,就查看当前行的索引值info = data.iloc[index].values        # 提取当前行的全部信息df.loc[len(df)] = info             # 在新表末尾添加一行数据break                              # 找到一个值就跳出,避免重复找值df.drop_duplicates(keep='first', inplace=True)  # 去重,first只保留第一次出现的值
df.to_excel('人员-new.xlsx', index=0, encoding='编码')    # 写入新表,index=0不写入索引值

总结

一步一步探索pandas的使用,如果上边的代码有啥问题的,有指教的,留言就行,定会回复。

pandas 筛选excel文件并保存新表相关推荐

  1. Python+pandas把多个DataFrame对象写入Excel文件中同一个工作表

    推荐教材: <Python数据分析.挖掘与可视化>(慕课版)(ISBN:978-7-115-52361-7),董付国,人民邮电出版社,定价49.8元,2020年1月出版,2021年3月第6 ...

  2. Python使用openpyxl和pandas处理Excel文件实现数据脱敏案例一则

    推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),清华大学出版社,2020年6月第1次印刷 送书活动火爆进行中:董老师又双叒叕送书啦,30本 ...

  3. 2016版excel_Python使用openpyxl和pandas处理Excel文件实现数据脱敏案例一则

    推荐图书:<Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),清华大学出版社,2020年6月第1次印刷 送书活动火爆进行中:董老师又双叒叕送书啦,30本& ...

  4. Python使用pandas读取Excel文件数据和预处理小案例

    假设有Excel文件data.xlsx,其中内容为 现在需要将这个Excel文件中的数据读入pandas,并且在后续的处理中不关心ID列,还需要把sex列的female替换为1,把sex列的male替 ...

  5. pandas输出excel文件

    pandas输出excel文件 源数据:2020数学建模国赛c题附件一 将附件一的企业代号进行数据处理后将其作为excel文件保存输出 import pandas as pd import numpy ...

  6. 超过一天的文件_一键合并多个excel文件至同一工作表!

    问题 小文是一个文艺青年,她从豆瓣上收集了很多种书籍的信息,并将书籍信息按照书籍分类创建了很多个excel文件,有一天,她突然想把这些不同分类的excel文件合并到一个工作表里,那么问题来了,如何快速 ...

  7. pandas 读取excel文件

    pandas 读取excel文件 一 read_excel() 的基本用法 二 read_excel() 的常用的参数: 三 示例 1. IO:路径 2. sheet_name:指定工作表名 3. h ...

  8. Python数据攻略-Pandas进行Excel文件读写

    大家好,我是Mr数据杨.让我借<三国演义>中的故事为大家解说今天的Python学习笔记教程. 想象一下,曹操正在用Pandas库排序军队的入门.他将每个兵士的信息视为数据,这些数据需要进行 ...

  9. excel未保存强制关闭计算机,win7系统excel文件没保存就关机了怎么修复

    Excel是一款表格文件,平常在工作和学习中比较常见.win7雨林木风系统在编辑excel文件时,没有点击保存,电脑就突然关机或死机了,导致文件丢失.之前努力的都白费还得重新做,费时还费力.有没有什么 ...

最新文章

  1. 网页素材大宝库:50套非常精美的图标素材
  2. Kaggle Days首次落地中国,日本团队拿下冠军
  3. 微软发布多项Azure Kubernetes服务更新,增加GPU支持
  4. 李林APUE之进程的封装
  5. xml方式实现aop-切点表达式的写法
  6. 22、多进程和多线程
  7. [vue] vue使用v-for遍历对象时,是按什么顺序遍历的?如何保证顺序?
  8. 深度好文:破“SCI至上”,科研资源配置怎么调整
  9. 组策略 之 恢复默认组策略对象命令
  10. Bootstrap学习笔记
  11. 深度学习之optimizer 优化方法
  12. mysql命令导出数据不完整_使用MySQL MySqldump命令导出数据时的注意事项
  13. (转)60s快速分析Linux性能
  14. html图片上传框架,HTML+JS图片上传源码
  15. STM32学习笔记-FSMC外扩SRAM
  16. 诛仙服务器技能修改,2021年5月21日正式服技能修改公告
  17. AWS免费云主机之如何使用putty登录
  18. 滑块JS破解/本地识别DLL
  19. 解决sourcetree特别卡的问题
  20. matlab读取cvs文件的几种方法

热门文章

  1. Python爬虫之网站验证码识别(三)
  2. 微型计算机原理设计存储系统,微机原理知识梳理
  3. 零相位,线性相位与非线性相位
  4. 数学实验第一章:MATLAB基础
  5. python职业发展规划书范文_对未来3-5年的职业发展规划是什么?
  6. Pytest测试框架中,setup和teardown函数的作用及使用方法
  7. 以阿克曼转向车为例对URDF和XACRO文件进行解读
  8. [HTC Touch Diamond/dopod S900/O2 XDA Ignito] 钻石详细注册表修改
  9. 044-赛灵思-0FPGA-简单实用
  10. 常见的国产电子元器件厂家