Python提取PDF中的信息,写入Excel
今天为大家分享一个真实的Python自动化办公案例。完整版代码,文末获取。
今天接到人力资源部同事的需求,想把他人投递的PDF简历资料里的关键信息数据,提取到Excel表中汇总。
目标资料背景:
是由求职者自行编制的简历材料,投递到人力资源部。由于其数据格式的不确定,对数据信息的采集带来了一定困难。
我的解答思路是:
先从PDF文档中抓取文字信息保存到word文档中,然后再从word文档中读取文字信息保存到excel中。
1. 将PDF文档中的文字读取到word中
import pdfplumber
from docx import Documentwith pdfplumber.open('1_5的简历1632532336.pdf') as rpdf:first_page = rpdf.pages[0]print(first_page.extract_text())doc = Document()
rpdfword = first_page.extract_text()pages = doc.add_paragraph(rpdfword)doc.save('测试2.docx')
结果如下:
2. 将word中读到的文字输入到excel中
#导入所需库
from docx import Document
import xlwings as xw#写数据
def excel_write(a,path,sheetname,write_cols,write_rows):app=xw.App(visible=False,add_book=False)app.display_alerts=Falseapp.screen_updating=Falsewb=app.books.open(path)sht=wb.sheets[sheetname]weizhi = []try:i = 0while i!=len(write_cols):j = 0while j!=len(write_rows):weizhi.append(write_cols[i]+str(write_rows[j]))j+=1i+=1k=0while k!=len(a):sht.range(weizhi[k]).value=a[k].textprint(weizhi[k])k+=1finally:wb.save()wb.close()app.kill()if __name__ == "__main__":#打开word文档document = Document(u"测试2.docx")#获取所有段落all_paragraphs = document.paragraphs print(len(all_paragraphs))excel_path =r'报名人员信息统计表(模板).xls'SheetName = r'Sheet1'wcols = ['c','d','i','h','e','f','j','L']#新读取一个简历要换一行wrow = [3]excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)
结果如下:
在读取Word中文字时,需要注意调配相应关键信息字符信息,必要时可以删除非关键信息。
联系方式
目前开通了技术交流群,群友已超过3000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友,资料、代码获取也可以加入
方式1、添加微信号:dkl88191,备注:来自CSDN
方式2、微信搜索公众号:Python学习与数据挖掘,后台回复:加群
Python提取PDF中的信息,写入Excel相关推荐
- python提取word中的表格写入excel
1.将word中的表格提取提取到json中 # -*- coding: UTF-8 -*- import json import docx file_pp=r"C:\Users\docx\2 ...
- Python提取PDF中的文字和图片
一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...
- PDFPlumber使用入门+python实现PDF中表格转化为Excel的方法
PDFPlumber使用入门:https://blog.csdn.net/weixin_48629601/article/details/107224376 python实现PDF中表格转化为Exce ...
- python中提取几列_Python一键提取PDF中的表格到Excel(实例50)
从PDF文件获取表格中的数据,也是日常办公容易涉及到的一项工作.一个一个复制吧,效率确实太低了.用Python从PDF文档中提取表格数据,并写入Excel文件,灰常灰常高效. 上市公司的年报往往包含几 ...
- 用python提取PDF表格内容保存到excel
一 提取pdf方法介绍 任务是用python提取PDF里的表格文件到excel里面去.做为一个 学了一个周python的人来说当然像尝试一下看能不能做到,事实证明是可以的只是可能代码有点烂...... ...
- vb.net读取excel并写入dgv_读取PDF中的表格写入EXCEL?30行代码搞定
办公自动化系列+1 现在,各类数据分析的书籍,都可以在网上找到PDF版本: 同时,百度文库.各类数据统计文库.行业研究等众多论文报告,是通过PDF的形式去展示输出的: 但是,令人都头疼的是,各类数据分 ...
- Python提取pdf中的表格数据(附实战案例)
14天阅读挑战赛 今天给大家介绍一个Python使用工具,那就是从pdf文件中读取表格数据,主要用到第三方库 pdfplumber. pdfplumber简介 pdfplumber是一款基于pdfmi ...
- python提取pdf中的图片_PDF图片提取
本文作者:王碧琪 文字编辑:戴 雯 技术总编:张 邯 之前我们使用pymupdf提取了PDF文档中的文本信息,那么对于图片信息,也可以进行一波提取.今天我们一起来试试. 一.简介 待提取PDF文档&q ...
- python提取pdf中的文字和图片_Python操作PDF-文本和图片提取(使用PyPDF2和PyMuPDF)...
PDF文件格式 如今,可移植文档格式(PDF)属于最常用的数据格式.在1990年,PDF文档的结构由Adobe定义.PDF格式的思想是,对于通信过程中涉及的双方(创建者,作者或发送者以及接收者)而言, ...
- python提取pdf中的图片_提取PDF中内容(表格篇)
由于(质量优质)PDF较好的阅读性,工作当中难免有文件使用PDF格式保存和流通的.但是由于PDF过于追求视觉的享受,所以在编辑其内容元素上相较微软office系列的确困难.不时会碰到看的到内容却难以直 ...
最新文章
- 注册时发短信如何防止别人恶意调用短信接口
- 2021-9-下旬 数据结构-线性表-双向链表-java代码实现(复习用)
- 考研本校与外校如何选择?
- Java 多线程练习---创建两个子线程,每个线程交替输出“你好--来自线程***”...
- Mybatis源码之(TypeAliasRegistry)TypeAlias别名实现机制
- Opencv 深度学习识别性别和检测年龄
- android activity透明主题,Android应用的全透明效果--Activity及Dialog的全透明
- common,Google Guava,Guice
- java awt image_JAVA;使用java.awt.Image的不稳定性
- hexo d上传报错鉴权失败
- 用rtl8139网卡制作的bios编程器(不用并口)
- c++读xml文件 MSXML
- reboot Linux 命令使用,linux中的reboot命令的详细解释
- Reentrantlock和背后金主AQS —————— 开开开山怪
- Edge、Chrome 1月12日之后继续使用Flash的方法(超级专业,高能预警)
- 手把手教学--Python爬取有道词典
- lol服务器维护2021,2021LOL哪个区人多
- 智力题------扔硬币吃苹果
- kylin调优,项目中错误总结,知识点总结,kylin jdbc driver + 数据库连接池druid + Myba
- 第一个panda3d C++程序