Python实现PDF转文字.

安装依赖:

pip install pdfminer3k

# -*- coding:utf-8
import sys
import importlib
importlib.reload(sys)
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed'''解析pdf 文本，保存到txt文件中
'''
path = r'python标准库.pdf'
def parse():fp = open(path, 'rb') # 以二进制读模式打开#用文件对象来创建一个pdf文档分析器praser = PDFParser(fp)# 创建一个PDF文档doc = PDFDocument()# 连接分析器 与文档对象praser.set_document(doc)doc.set_parser(praser)# 提供初始化密码# 如果没有密码 就创建一个空的字符串doc.initialize()# 检测文档是否提供txt转换，不提供就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:# 创建PDf 资源管理器 来管理共享资源rsrcmgr = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()device = PDFPageAggregator(rsrcmgr, laparams=laparams)# 创建一个PDF解释器对象interpreter = PDFPageInterpreter(rsrcmgr, device)# 循环遍历列表，每次处理一个page的内容for page in doc.get_pages(): # doc.get_pages() 获取page列表interpreter.process_page(page)# 接受该页面的LTPage对象layout = device.get_result()# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性，for x in layout:if (isinstance(x, LTTextBoxHorizontal)):with open(r'1.txt', 'a', encoding='utf-8') as f:results = x.get_text()f.write(results + '\n')if __name__ == '__main__':parse()

Python实现PDF转文字.相关推荐

python：pdf转文字（在线和本地文档）
在线文档: #encoding=utf-8 from urllib.request import urlopen from pdfminer.pdfinterp import PDFResourceM ...
c++代码整洁之道pdf_别再问如何用python提取PDF内容了
作者:陈熹来源:早起Python 大家好,在之前的办公自动化系列文章中我们已经详细介绍了如何使用python批量处理PDF文件,包括合并.拆分.水印.加密等操作. 今天我们再次回到PDF,详细讲解如 ...
别再问如何用 Python 提取 PDF 内容了！
作者 | 陈熹头图 | CSDN 下载自东方 IC 来源 | 早起Python(ID:zaoqi-python) 导读大家好,在之前的办公自动化系列文章中我们已经详细介绍了如何使用Python批量 ...
怎么在python提取别的数据了_别再问如何用python提取PDF内容了！
作者:陈熹来源:早起Python 大家好,在之前的办公自动化系列文章中我们已经详细介绍了如何使用python批量处理PDF文件,包括合并.拆分.水印.加密等操作. 今天我们再次回到PDF,详细讲解如 ...
别再问如何用Python提取PDF内容了！
公众号后台回复"图书",了解更多号主新书内容作者:陈熹来源:早起Python 导读大家好,在之前的办公自动化系列文章中我们已经详细介绍了????如何使用Python批量处理P ...
pdf exe如何提取pdf文件_python应用：如何用python提取pdf文件中的文字
从pdf中提取文字,相信很多人都干过这事,怎么在python中实现呢,今天带大家看看. 第一步导入库 import PyPDF2 第二步导入pdf文件 pdf_file =open('dataset/ ...
python 生成pdf 文字和图片_Python系列—PDF文本与图片抽取
PDF是人们日常使用最多的跨平台文档.其是一种用独立于应用程序.硬件.操作系统的方式呈现文档的文件格式.每个PDF文件包含固定布局的平面文档的完整描述,包括文本.字形.图形及其他需要显示的信息.具有良 ...
python解析pdf，读取文字，可识别两栏pdf等
python解析pdf,读取文字,可识别两栏pdf等一.解析我们的pdf文件,首先第一步是解析普通类别的pdf(只有一栏) 代码中包含注释(不懂得可以留言) 二.处理拥有两栏等类型的pdf 为什么要 ...
【Python】python实现jpg图片文字转成pdf格式
python实现jpg图片文字转成pdf格式 [代码][Python]代码 #!/usr/bin/env pythonimport os import sys from reportlab.lib.p ...

Python实现PDF转文字.

Python实现PDF转文字.相关推荐

最新文章

热门文章