今天为大家分享一个真实的Python自动化办公案例。完整版代码,文末获取。

今天接到人力资源部同事的需求,想把他人投递的PDF简历资料里的关键信息数据,提取到Excel表中汇总。

目标资料背景:是由求职者自行编制的简历材料,投递到人力资源部。由于其数据格式的不确定,对数据信息的采集带来了一定困难。

我的解答思路是:先从PDF文档中抓取文字信息保存到word文档中,然后再从word文档中读取文字信息保存到excel中。

1. 将PDF文档中的文字读取到word中


import pdfplumber
from docx import Documentwith pdfplumber.open('1_5的简历1632532336.pdf') as rpdf:first_page = rpdf.pages[0]print(first_page.extract_text())doc = Document()
rpdfword = first_page.extract_text()pages = doc.add_paragraph(rpdfword)doc.save('测试2.docx')

结果如下:

2. 将word中读到的文字输入到excel中


#导入所需库
from docx import Document
import xlwings as xw#写数据
def excel_write(a,path,sheetname,write_cols,write_rows):app=xw.App(visible=False,add_book=False)app.display_alerts=Falseapp.screen_updating=Falsewb=app.books.open(path)sht=wb.sheets[sheetname]weizhi = []try:i = 0while i!=len(write_cols):j = 0while j!=len(write_rows):weizhi.append(write_cols[i]+str(write_rows[j]))j+=1i+=1k=0while k!=len(a):sht.range(weizhi[k]).value=a[k].textprint(weizhi[k])k+=1finally:wb.save()wb.close()app.kill()if __name__ == "__main__":#打开word文档document = Document(u"测试2.docx")#获取所有段落all_paragraphs = document.paragraphs    print(len(all_paragraphs))excel_path =r'报名人员信息统计表(模板).xls'SheetName = r'Sheet1'wcols = ['c','d','i','h','e','f','j','L']#新读取一个简历要换一行wrow = [3]excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)

结果如下:

在读取Word中文字时,需要注意调配相应关键信息字符信息,必要时可以删除非关键信息。

联系方式

目前开通了技术交流群,群友已超过3000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友,资料、代码获取也可以加入

方式1、添加微信号:dkl88191,备注:来自CSDN
方式2、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

Python提取PDF中的信息,写入Excel相关推荐

  1. python提取word中的表格写入excel

    1.将word中的表格提取提取到json中 # -*- coding: UTF-8 -*- import json import docx file_pp=r"C:\Users\docx\2 ...

  2. Python提取PDF中的文字和图片

    一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...

  3. PDFPlumber使用入门+python实现PDF中表格转化为Excel的方法

    PDFPlumber使用入门:https://blog.csdn.net/weixin_48629601/article/details/107224376 python实现PDF中表格转化为Exce ...

  4. python中提取几列_Python一键提取PDF中的表格到Excel(实例50)

    从PDF文件获取表格中的数据,也是日常办公容易涉及到的一项工作.一个一个复制吧,效率确实太低了.用Python从PDF文档中提取表格数据,并写入Excel文件,灰常灰常高效. 上市公司的年报往往包含几 ...

  5. 用python提取PDF表格内容保存到excel

    一 提取pdf方法介绍 任务是用python提取PDF里的表格文件到excel里面去.做为一个 学了一个周python的人来说当然像尝试一下看能不能做到,事实证明是可以的只是可能代码有点烂...... ...

  6. vb.net读取excel并写入dgv_读取PDF中的表格写入EXCEL?30行代码搞定

    办公自动化系列+1 现在,各类数据分析的书籍,都可以在网上找到PDF版本: 同时,百度文库.各类数据统计文库.行业研究等众多论文报告,是通过PDF的形式去展示输出的: 但是,令人都头疼的是,各类数据分 ...

  7. Python提取pdf中的表格数据(附实战案例)

    14天阅读挑战赛 今天给大家介绍一个Python使用工具,那就是从pdf文件中读取表格数据,主要用到第三方库 pdfplumber. pdfplumber简介 pdfplumber是一款基于pdfmi ...

  8. python提取pdf中的图片_PDF图片提取

    本文作者:王碧琪 文字编辑:戴 雯 技术总编:张 邯 之前我们使用pymupdf提取了PDF文档中的文本信息,那么对于图片信息,也可以进行一波提取.今天我们一起来试试. 一.简介 待提取PDF文档&q ...

  9. python提取pdf中的文字和图片_Python操作PDF-文本和图片提取(使用PyPDF2和PyMuPDF)...

    PDF文件格式 如今,可移植文档格式(PDF)属于最常用的数据格式.在1990年,PDF文档的结构由Adobe定义.PDF格式的思想是,对于通信过程中涉及的双方(创建者,作者或发送者以及接收者)而言, ...

  10. python提取pdf中的图片_提取PDF中内容(表格篇)

    由于(质量优质)PDF较好的阅读性,工作当中难免有文件使用PDF格式保存和流通的.但是由于PDF过于追求视觉的享受,所以在编辑其内容元素上相较微软office系列的确困难.不时会碰到看的到内容却难以直 ...

最新文章

  1. 注册时发短信如何防止别人恶意调用短信接口
  2. 2021-9-下旬 数据结构-线性表-双向链表-java代码实现(复习用)
  3. 考研本校与外校如何选择?
  4. Java 多线程练习---创建两个子线程,每个线程交替输出“你好--来自线程***”...
  5. Mybatis源码之(TypeAliasRegistry)TypeAlias别名实现机制
  6. Opencv 深度学习识别性别和检测年龄
  7. android activity透明主题,Android应用的全透明效果--Activity及Dialog的全透明
  8. common,Google Guava,Guice
  9. java awt image_JAVA;使用java.awt.Image的不稳定性
  10. hexo d上传报错鉴权失败
  11. 用rtl8139网卡制作的bios编程器(不用并口)
  12. c++读xml文件 MSXML
  13. reboot Linux 命令使用,linux中的reboot命令的详细解释
  14. Reentrantlock和背后金主AQS —————— 开开开山怪
  15. Edge、Chrome 1月12日之后继续使用Flash的方法(超级专业,高能预警)
  16. 手把手教学--Python爬取有道词典
  17. lol服务器维护2021,2021LOL哪个区人多
  18. 智力题------扔硬币吃苹果
  19. kylin调优,项目中错误总结,知识点总结,kylin jdbc driver + 数据库连接池druid + Myba
  20. 第一个panda3d C++程序

热门文章

  1. 小程序项目:基于微信小程序的校园互助平台——计算机毕业设计
  2. Flume+Kafka整合案例实现
  3. P2P网贷黎明前夕的黑夜---P2P是否要被封杀呢
  4. 浅谈在线IDE的搭建,配置,体验
  5. Computer Science 领域文献检索 SCI、CPCI-S 和 EI
  6. 宏定义超过字长的一些问题
  7. php开源视频cms,迅睿PHP开源视频电影CMS系统
  8. 正则表达式与有限自动机
  9. java自动机字符串匹配_字符串匹配之有限自动机
  10. nginx 配置外网域名跳转到内网地址加端口的教程