Python解析pdf转为TXT格式


#完成pdf到TXT转变了，无法完成TXT到Excel转变import xlwt  # 写入文件
import xlrd  # 打开excel文件
from xlutils.copy import copyimport os
import re
import sys
import importlib
import threadingimportlib.reload(sys)
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowedimport logging# 解析PDF文件，转为txt格式
def parsePDF(PDF_path, TXT_path):with open(PDF_path, 'rb')as fp:  # 以二进制读模式打开praser = PDFParser(fp)  # 用文件对象来创建一个pdf文档分析器doc = PDFDocument()  # 创建一个PDF文档praser.set_document(doc)  # 连接分析器与文档对象doc.set_parser(praser)# 提供初始化密码# 如果没有密码 就创建一个空的字符串doc.initialize()# 检测文档是否提供txt转换，不提供就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:rsrcmgr = PDFResourceManager()  # 创建PDf 资源管理器 来管理共享资源laparams = LAParams()  # 创建一个PDF设备对象device = PDFPageAggregator(rsrcmgr, laparams=laparams)interpreter = PDFPageInterpreter(rsrcmgr, device)  # 创建一个PDF解释器对象# 循环遍历列表，每次处理一个page的内容for page in doc.get_pages():  # doc.get_pages() 获取page列表interpreter.process_page(page)layout = device.get_result()  # 接受该页面的LTPage对象# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性，for x in layout:#print(x)if isinstance(x, LTTextBoxHorizontal):with open(TXT_path, 'a', encoding='UTF-8', errors='ignore') as f:results = x.get_text()#print(results)f.write(results + '\n')
PDF_path = '/Users/apple/Documents/ST/python/简历.pdf'TXT_path = '/Users/apple/Documents/ST/python/简历.txt'parsePDF(PDF_path, TXT_path)

解析后格式不对，需要调整

Python解析pdf转为TXT格式相关推荐

使用python将pdf转为eps格式
使用目的:码论文,往Latex中插入eps格式文件 # 方法一:Anaconda 命令行 pdf 转为 eps 在命令行下cd到该目录下,执行该命令:pdf2ps input.pdf output.e ...
【Python小技巧】将pdf转为txt，并使用edge-tts将txt批量转为MP3（不想看书想听书的转过来，送源代码）
文章目录前言一.PDF转为MP3 ? 二.准备工作 1. 安装pdfplumber包,用于将pdf转为txt 2. 安装edge-tts包,用于将txt转为音频三.代码很简单四.变更播音员总 ...
python解析pdf，读取文字，可识别两栏pdf等
python解析pdf,读取文字,可识别两栏pdf等一.解析我们的pdf文件,首先第一步是解析普通类别的pdf(只有一栏) 代码中包含注释(不懂得可以留言) 二.处理拥有两栏等类型的pdf 为什么要 ...
用Python把PDF转为Word方法总结
先讲一下为啥要写这个文章,网上其实很多这种PDF转化的代码和软件.我一直想用Python做,但是网上搜到的代码很多都不能用,很多是2.7版本的代码,再就是PDF需要用到的库在导入的时候,很多的报错,解 ...
利用python将PDF转为PPT(课件专用)
利用python将PDF转为PPT(课件专用) 前言:课程中老师经常会将课件作为PDF发放而非PPT,而现有的PDF阅读器一般不支持添加修改等操作,所以显得十分麻烦,考虑将PDF转换为PPT格式,方便 ...
python读取pdf表格_[转]Python 解析 PDF 文本和表格的四大方法介绍
Python 解析 PDF 文本和表格的四大方法介绍 == code for paper and NSFC Proj. parsing==: https://gitee.com/sonica/pdf_ ...
微信小程序语音录制功能和文件（ppt、word、excel、pdf、txt格式）上传
语音录制提醒:因为开发者工具不能接收语音文件,所以要使用真机调试测试噢~ 思路:使用小程序API wx.startRecord .wx.stopRecord 方法(调用前记得 app.js 添加 ...
批量将 PDF 转为 ePub 格式文档
概要:PDF 格式文档转为 ePub 格式的需求是我们经常会碰到的,网上的各种工具效果也是良莠不齐,经常会出现格式错乱.字体丢失等各种问题.今天给大家介绍的是一种非常简单的方式完成将多个 PDF 文档 ...
PDF转TXT格式软件有什么？推荐这三款软件给你
想必大家对PDF文件格式并不陌生,它的优点就是可以使文件内容以及排版不会错乱,方便存储.不过当我们在网上下载的小说大部分都是PDF格式的文件,而电子阅读器是不支持查看PDF格式的电子书,从而导致我们无 ...

Python解析pdf转为TXT格式

Python解析pdf转为TXT格式相关推荐

最新文章

热门文章