Python提取PDF中的信息，写入Excel

今天为大家分享一个真实的Python自动化办公案例。完整版代码，文末获取。

今天接到人力资源部同事的需求，想把他人投递的PDF简历资料里的关键信息数据，提取到Excel表中汇总。

目标资料背景：是由求职者自行编制的简历材料，投递到人力资源部。由于其数据格式的不确定，对数据信息的采集带来了一定困难。

我的解答思路是：先从PDF文档中抓取文字信息保存到word文档中，然后再从word文档中读取文字信息保存到excel中。

1. 将PDF文档中的文字读取到word中

import pdfplumber
from docx import Documentwith pdfplumber.open('1_5的简历1632532336.pdf') as rpdf:first_page = rpdf.pages[0]print(first_page.extract_text())doc = Document()
rpdfword = first_page.extract_text()pages = doc.add_paragraph(rpdfword)doc.save('测试2.docx')

结果如下：

2. 将word中读到的文字输入到excel中

#导入所需库
from docx import Document
import xlwings as xw#写数据
def excel_write(a,path,sheetname,write_cols,write_rows):app=xw.App(visible=False,add_book=False)app.display_alerts=Falseapp.screen_updating=Falsewb=app.books.open(path)sht=wb.sheets[sheetname]weizhi = []try:i = 0while i!=len(write_cols):j = 0while j!=len(write_rows):weizhi.append(write_cols[i]+str(write_rows[j]))j+=1i+=1k=0while k!=len(a):sht.range(weizhi[k]).value=a[k].textprint(weizhi[k])k+=1finally:wb.save()wb.close()app.kill()if __name__ == "__main__":#打开word文档document = Document(u"测试2.docx")#获取所有段落all_paragraphs = document.paragraphs    print(len(all_paragraphs))excel_path =r'报名人员信息统计表（模板）.xls'SheetName = r'Sheet1'wcols = ['c','d','i','h','e','f','j','L']#新读取一个简历要换一行wrow = [3]excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)

结果如下：

在读取Word中文字时，需要注意调配相应关键信息字符信息，必要时可以删除非关键信息。

联系方式

目前开通了技术交流群，群友已超过3000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友，资料、代码获取也可以加入

方式1、添加微信号：dkl88191，备注：来自CSDN
方式2、微信搜索公众号：Python学习与数据挖掘，后台回复：加群

Python提取PDF中的信息，写入Excel相关推荐

python提取word中的表格写入excel
1.将word中的表格提取提取到json中 # -*- coding: UTF-8 -*- import json import docx file_pp=r"C:\Users\docx\2 ...
Python提取PDF中的文字和图片
一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...
PDFPlumber使用入门+python实现PDF中表格转化为Excel的方法
PDFPlumber使用入门:https://blog.csdn.net/weixin_48629601/article/details/107224376 python实现PDF中表格转化为Exce ...
python中提取几列_Python一键提取PDF中的表格到Excel(实例50)
从PDF文件获取表格中的数据,也是日常办公容易涉及到的一项工作.一个一个复制吧,效率确实太低了.用Python从PDF文档中提取表格数据,并写入Excel文件,灰常灰常高效. 上市公司的年报往往包含几 ...
用python提取PDF表格内容保存到excel
一提取pdf方法介绍任务是用python提取PDF里的表格文件到excel里面去.做为一个学了一个周python的人来说当然像尝试一下看能不能做到,事实证明是可以的只是可能代码有点烂...... ...
vb.net读取excel并写入dgv_读取PDF中的表格写入EXCEL？30行代码搞定
办公自动化系列+1 现在,各类数据分析的书籍,都可以在网上找到PDF版本: 同时,百度文库.各类数据统计文库.行业研究等众多论文报告,是通过PDF的形式去展示输出的: 但是,令人都头疼的是,各类数据分 ...
Python提取pdf中的表格数据（附实战案例）
14天阅读挑战赛今天给大家介绍一个Python使用工具,那就是从pdf文件中读取表格数据,主要用到第三方库 pdfplumber. pdfplumber简介 pdfplumber是一款基于pdfmi ...
python提取pdf中的图片_PDF图片提取
本文作者:王碧琪文字编辑:戴雯技术总编:张邯之前我们使用pymupdf提取了PDF文档中的文本信息,那么对于图片信息,也可以进行一波提取.今天我们一起来试试. 一.简介待提取PDF文档&q ...
python提取pdf中的文字和图片_Python操作PDF-文本和图片提取（使用PyPDF2和PyMuPDF）...
PDF文件格式如今,可移植文档格式(PDF)属于最常用的数据格式.在1990年,PDF文档的结构由Adobe定义.PDF格式的思想是,对于通信过程中涉及的双方(创建者,作者或发送者以及接收者)而言, ...
python提取pdf中的图片_提取PDF中内容（表格篇）
由于(质量优质)PDF较好的阅读性,工作当中难免有文件使用PDF格式保存和流通的.但是由于PDF过于追求视觉的享受,所以在编辑其内容元素上相较微软office系列的确困难.不时会碰到看的到内容却难以直 ...

Python提取PDF中的信息，写入Excel

1. 将PDF文档中的文字读取到word中

2. 将word中读到的文字输入到excel中

联系方式

Python提取PDF中的信息，写入Excel相关推荐

最新文章

热门文章