公众号后台回复“图书“,了解更多号主新书内容

作者:阿豪

来源:数据分析与统计学之美

今天为大家分享一个真实的案例。

今天接到人力资源部同事的需求,想把他人投递的PDF简历资料里的关键信息数据,提取到excel表中汇总。

目标资料背景:是由求职者自行编制的简历材料,投递到人力资源部。由于其数据格式的不确定,对数据信息的采集带来了一定困难。

我的解答思路是:先从PDF文档中抓取文字信息保存到word文档中,然后再从word文档中读取文字信息保存到excel中。

1. 将PDF文档中的文字读取到word中

import pdfplumber
from docx import Documentwith pdfplumber.open('1_5的简历1632532336.pdf') as rpdf:first_page = rpdf.pages[0]print(first_page.extract_text())doc = Document()
rpdfword = first_page.extract_text()pages = doc.add_paragraph(rpdfword)doc.save('测试2.docx')

结果如下:

2. 将word中读到的文字输入到excel中

#导入所需库
from docx import Document
import xlwings as xw#写数据
def excel_write(a,path,sheetname,write_cols,write_rows):app=xw.App(visible=False,add_book=False)app.display_alerts=Falseapp.screen_updating=Falsewb=app.books.open(path)sht=wb.sheets[sheetname]weizhi = []try:i = 0while i!=len(write_cols):j = 0while j!=len(write_rows):weizhi.append(write_cols[i]+str(write_rows[j]))j+=1i+=1k=0while k!=len(a):sht.range(weizhi[k]).value=a[k].textprint(weizhi[k])k+=1finally:wb.save()wb.close()app.kill()if __name__ == "__main__":#打开word文档document = Document(u"测试2.docx")#获取所有段落all_paragraphs = document.paragraphs    print(len(all_paragraphs))excel_path =r'报名人员信息统计表(模板).xls'SheetName = r'Sheet1'wcols = ['c','d','i','h','e','f','j','L']#新读取一个简历要换一行wrow = [3]excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)

结果如下:

在读取word中文字时,需要注意调配相应关键信息字符信息,必要时可以删除非关键信息。

◆ ◆ ◆  ◆ ◆
麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。管理员二维码:猜你喜欢● 卧槽!原来爬取B站弹幕这么简单
● 厉害了!麟哥新书登顶京东销量排行榜!
● 笑死人不偿命的知乎沙雕问题排行榜● 用Python扒出B站那些“惊为天人”的阿婆主!
● 你相信逛B站也能学编程吗

Python提取PDF简历中的信息,写入Excel相关推荐

  1. 利用Python提取PDF文件中的文本信息

    如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...

  2. Python办公自动化——提取pdf文件中表格并到Excel

    Python办公自动化--提取pdf文件中表格合并到Excel 需求描述 现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中 ...

  3. python提取pdf表格数据并保存到excel中

    pdfplumber操作pdf文件 python开源库pdfplumber,可以较为方便地获取pdf的各种信息,包含pdf的基本信息(作者.创建时间.修改时间-)及表格.文本.图片等信息,基本可以满足 ...

  4. Python提取PDF文件中的表格文本保存为Excel文件

    "Python小屋"编程比赛正式开始 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020 ...

  5. pdf exe如何提取pdf文件_python应用:如何用python提取pdf文件中的文字

    从pdf中提取文字,相信很多人都干过这事,怎么在python中实现呢,今天带大家看看. 第一步导入库 import PyPDF2 第二步导入pdf文件 pdf_file =open('dataset/ ...

  6. Python将Word文件中的内容写入Excel文件

    在日常办公中我们经常需要将word文件中的数据写入Excel中,如果是手动一个一个进行复制粘贴,那将会非常的耗时且繁琐! 遇到这种问题我们首先想到就是利用编程解决,今天我分享一个word转excel的 ...

  7. python 提取pdf表格_用Python提取pdf文件中的表格数据

    本文作者:杨慧琳 本文编辑:周聪聪 技术总编:张学人有问题,不要怕!访问 http://www.wuhanstring.com/uploads/5_aboutus/爬虫俱乐部-用户问题登记表.docx ...

  8. 利用python将txt文件中的内容写入Excel文件中

    Python是一个强大的语言,解决这点问题非常简单. 首先我们先下载两个包,xlrd,xlwt分别可实现对excel文件的读和写操作. 接下来详见代码: 1.从txt里写入excel文件 # codi ...

  9. 使用Python提取txt文件中的数据到excel中

    详情 最近在做服务组合的一些研究,从作者那获取到了QWS数据集,因此需要对数据集进行处理,获取到数据集的数据,保存在excel文件中.QWS数据集包含2000多条数据,每条数据之间的数值采用" ...

  10. 用python提取PDF表格内容保存到excel

    一 提取pdf方法介绍 任务是用python提取PDF里的表格文件到excel里面去.做为一个 学了一个周python的人来说当然像尝试一下看能不能做到,事实证明是可以的只是可能代码有点烂...... ...

最新文章

  1. mysql 用户 多主机_MySQL单主机多实例部署
  2. 脉冲20KV高压发生器电弧打火
  3. leetcode算法题--平衡二叉树
  4. 未解决:错误的结果 2 (从“D:\Program Files\Microsoft Visual Studio 8\VC\bin\cl.exe”返回)。...
  5. Java Class 文件格式及其简单 Hack
  6. UNITY所谓的异步加载几乎全部是协程,不是线程;MAP3加载时解压非常慢
  7. 雷林鹏分享:Ruby Web Services 应用 - SOAP4R
  8. Nginx为什么比Apache Httpd高效
  9. 架构大型企业Java项目–我的虚拟JUG会话
  10. Intellij插件之JRebel
  11. 20000 字干货笔记,一天搞定 MySQL !
  12. linux下运行comsol,在 Linux 上安装 COMSOL
  13. 智能家居产业现状总结
  14. 毕业设计python数据分析_毕业设计:爬虫及数据分析
  15. ODC(Orthogonal Defect Classification)简介
  16. Incapsula的全球网络地图
  17. 微博SDK第三方授权登陆
  18. Python--详解脚本语言|编译语言|胶水语言的区别
  19. 基于stm32的智能小车设计(一)
  20. 神经网络的严冬与复兴之路

热门文章

  1. 预测未来的神技---马尔科夫模型
  2. Word2Vec模型配置参数
  3. 常用的简单的ps快捷键
  4. day12 函数高级
  5. PHP实现添加到错题本,制作错题本的步骤、使用方式及窍门!
  6. 简易中控紫猫插件版(2)基本思路介绍
  7. 【Qt】用setValue()设置UI控件内的内容,如何避免valuechange()被触发
  8. 探究本质,WebGIS前端地图显示之地图比例尺换算原理
  9. 取暖器外贸出口到欧洲申请欧盟CE认证指令标准解析
  10. BSM的两个基本问题与python实现(欧式期权定价公式)