python学习笔记之pdf文档提取

"""
# !/usr/bin/env python
# -*- coding:utf-8 -*-
# @Author  : 史沐凡
# @file    :  pdf____张坤_文档转换工具.py
# @Time    : 2022/7/24 22:21
# @Function:
"""
# 读取docx中的文本代码示例
import glob
import os
import re
from openpyxl import Workbook  # 写入的时候用
import pdfplumberdef getfields(filepath):'''直接读取pdf,获取所需要的字段患者姓名 标识号 出生日期    性别  保险集团    胶囊标识号   操作日期    转诊医生    登记者 预约者转诊原因 体重  身高  腰围  体型  通过胃部的时间 通过小肠的时间 操作信息与发现 摘要与建议:return:list'''print(filepath)患者姓名 = ""标识号 = ""出生日期 = ""性别 = ""保险集团 = ""胶囊标识号 = ""操作日期 = ""转诊医生 = ""登记者 = ""预约者 = ""转诊原因 = ""体重 = ""身高 = ""腰围 = ""体型 = ""通过胃部的时间 = ""通过小肠的时间 = ""操作信息与发现 = ""摘要 = ""建议 = ""fields = ['患者姓名','标识号','出生日期','性别','保险集团','胶囊标识号','操作日期','转诊医生','登记者','预约者','转诊原因','体重','身高','腰围','体型','通过胃部的时间','通过小肠的时间','操作信息与发现','摘要','建议']nr = ""with pdfplumber.open(filepath) as pdf:for page in pdf.pages:  # 遍历所有页码text = page.extract_text()  # 提取文本nr=nr+textnr = nr.strip()print(nr)res = re.search(r"患者姓名 (.*)", nr, 0)if res: 患者姓名 = res.group(1).strip()res = re.search(r"标识号 (.*)", nr, 0)if res: 标识号 = res.group(1).strip()res = re.search(r"出生日期 (.*)", nr, 0)if res: 出生日期 = res.group(1).strip()res = re.search(r"性别 (.*)性", nr, 0)if res: 性别 = res.group(1).strip()res = re.search(r"保险集团 (.*)", nr, 0)if res: 保险集团 = res.group(1).strip()res = re.search(r"胶囊标识号 (.*)", nr, 0)if res: 胶囊标识号 = res.group(1).strip()res = re.search(r"操作日期 (.*)", nr, 0)if res: 操作日期 = res.group(1).strip()res = re.search(r"转诊医生 (.*)", nr, 0)if res: 转诊医生 = res.group(1).strip()res = re.search(r"登记者 (.*)", nr, 0)if res: 登记者 = res.group(1).strip()res = re.search(r"预约者 (.*)", nr, 0)if res: 预约者 = res.group(1).strip()res = re.search(r"转诊原因(.*)患者数据", nr, re.DOTALL)if res:转诊原因 = res.group(1).strip()res = re.search(r"体重 ?:(\d*) ?kg", nr, 0)if res: 体重 = res.group(1).strip()res = re.search(r"身高 ?:(\d*) ?cm", nr, 0)if res: 身高 = res.group(1).strip()res = re.search(r"腰围 ?:(\d*) ?cm", nr, 0)if res: 腰围 = res.group(1).strip()res = re.search(r"体型 ?:(.{1,3}),", nr, 0)if res: 体型 = res.group(1).strip().strip()res = re.search(r"通过胃部的时间 ?:(.*),", nr, 0)if res: 通过胃部的时间 = res.group(1).strip()res = re.search(r"通过小肠的时间 ?:(.*)", nr, 0)if res: 通过小肠的时间 = res.group(1).strip()res = re.search(r"操作信息与发现(.*)摘要与建议", nr, re.DOTALL)if res:操作信息与发现 = res.group(1).strip()操作信息与发现 = 操作信息与发现.replace(" ", "")ls = 操作信息与发现.split("\n")操作信息与发现 = ";".join(ls).strip()res = re.search(r"摘要与建议(.*)建议:", nr, re.DOTALL)if res:摘要 = res.group(1).strip()摘要 = 摘要.replace(" ", "")ls = 摘要.split("\n")摘要 = ";".join(ls).strip()res = re.search(r"建议:(.*)签名", nr, re.DOTALL)if res:建议 = res.group(1).strip()建议 = 建议.replace(" ", "")ls = 建议.split("\n")建议 = ";".join(ls).strip()print("*" * 88)ls = [患者姓名, 标识号, 出生日期, 性别,保险集团, 胶囊标识号, 操作日期, 转诊医生,登记者, 预约者, 转诊原因, 体重,身高, 腰围, 体型, 通过胃部的时间,通过小肠的时间, 操作信息与发现, 摘要,建议]print(ls)if (all(ls)):return lselse:return lsif __name__ == '__main__':fields = ['患者姓名', '标识号', '出生日期', '性别', '保险集团', '胶囊标识号', '操作日期', '转诊医生', '登记者', '预约者', '转诊原因','体重', '身高', '腰围','体型', '通过胃部的时间', '通过小肠的时间', '操作信息与发现', '摘要','建议']print(fields)root = os.getcwd()ls = glob.glob("pdf报告\*.pdf")big_ls = []for i in ls:i=os.path.join(os.getcwd(),i)ls = getfields(i)big_ls.append(ls)for i in big_ls: print(i)wb = Workbook()ws = wb.activews.append(fields)for i in big_ls:ws.append(i)wb.save(r'pdf报告/pdf转换表格.xlsx')exit(0)

python学习笔记之pdf文档提取相关推荐

python学习笔记之word文档提取
""" # !/usr/bin/env python # -*- coding:utf-8 -*- # @Author : 史沐凡 # @file : pdf____张坤 ...
python 描述符参考文档_描述符 - Python 学习笔记 - UDN开源文档
描述符很少有人会去刻意关注描述符 (Descriptor),尽管它时时刻刻以属性.方法的身份出现. 描述符协议: __get__(self, instance, owner) --> retu ...
PyPDF2--如何使用python操作你的PDF文档
PyPDF2–如何使用python操作你的PDF文档前言大家好!最近想操作一下PDF文档,总是收费,于是浅尝辄止地了解了一下python当中的PyPDF2这个库.借助本篇博客总结了一下个人所学到的 ...
python处理word或者pdf文件_利用python程序生成word和PDF文档的方法
一.程序导出word文档的方法将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...
php txtsql 说明,PHP学习笔记(2)txtSQL文档错误
PHP学习笔记(2)txtSQL文档错误次阅读在使用txtSQL的过程中,发现一处帮助文档错误. 在使用altertable命令改变表名称时,发现如果按照帮助文档所说,使用如下代码无法改变表的名称 ...
Python学习之批量word文档转pdf并统计其页码
pypdf2是一个Python模块,可以用来读取.写入和操作PDF文件.要安装pypdf2模块,请按照以下步骤操作: 确保你已经安装了Python.你可以在终端或命令提示符中输入python --ve ...
python之pdfminer:从PDF文档中抽取信息的工具
pdfminer是一个用于从PDF文档中抽取信息的Python库.它提供了一系列的功能,使我们能够读取和解析PDF文件,并从中提取文本内容.元数据.页面布局和图片等.本文将详细介绍pdfminer库的 ...
使用Python的PyPD创建PDF文档
原文地址: 顺藤摸瓜找到一个有很多学习python电子书的窝.在这里希望你喜欢. 文章是自己瞎翻译的,不足之处,麻烦指出. 生成PDFs文件,我会将 ReportLab作为首选工具.不过,我发现在P ...
python生成word 带目录_利用python程序生成word和PDF文档的方法
一.程序导出word文档的方法将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...

python学习笔记之pdf文档提取

python学习笔记之pdf文档提取相关推荐

最新文章

热门文章