python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装：在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载，解压。然后cmd命令进入到当前文件夹：

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

2.读取pdf中的TXT代码示例：

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LAParams

from pdfminer.pdfparser import PDFParser, PDFDocument

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf

from urllib.request import urlopen

fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象

#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器

parser = PDFParser(fp)

#PDF文档的对象

doc = PDFDocument()

#连接解释器和文档对象

parser.set_document(doc)

doc.set_parser(parser)

#初始化文档,当前文档没有密码，设为空字符串

doc.initialize("")

#创建PDF资源管理器

resource = PDFResourceManager()

#参数分析器

laparam = LAParams()

#创建一个聚合器

device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器

interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合

for page in doc.get_pages():

# 使用页面解释器读取

interpreter.process_page(page)

# 使用聚合器来获得内容

layout = device.get_result()

for out in layout:

if hasattr(out, "get_text"):

print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子相关推荐

python写word下标_Python用python-docx读写word文档
备注: doc是微软的专有的文件格式,docx是Microsoft Office2007之后版本使用,其基于Office Open XML标准的压缩文件格式,比 doc文件所占用空间更小.docx格式 ...
python怎么读取pdf文件_Python解析并读取PDF文件内容的方法
本文实例讲述了Python解析并读取PDF文件内容的方法.分享给大家供大家参考,具体如下: 一.问题描述利用python,去读取pdf文本内容. 二.效果三.运行环境 python2.7 四.需要 ...
python处理pdf实例_python使用pdfminer解析pdf文件的方法示例
最近要做个从 pdf 文件中抽取文本内容的工具,大概查了一下 python 里可以使用 pdfminer 来实现.下面就看看怎样使用吧. PDFMiner是一个可以从PDF文档中提取信息的工具.与其他 ...
python打印机打印图片_python连接打印机实现打印文档、图片、pdf文件等功能
引言 python连接打印机进行打印,可能根据需求的不同,使用不同的函数模块. 如果你只是简单的想打印文档,比如office文档,你可以使用ShellExecute方法,对于微软office的文档.p ...
如何利用python自动化办公项目_python办公自动化:自动进行word文档处理和排版
上节python办公自动化:自动打开word文档我们一起学会了在python里打开并保存一个word文档.这节我们将会学会如何利用python进行文本处理和将其在word里进行排版等技巧. pytho ...
python打开电脑文件_python办公自动化:自动打开word文档-docx文件怎样打开
上节python办公自动化:python自动化word快速入门,对python自动化word的操作做了快速入门,从本小节开始,逐步细致的分解讲解每一个关键步骤. python自动化word 使用文档 ...
python处理pdf实例_Python程序图片和pdf上文字识别实例
实例一:先减少背景杂音,再做图片文字识别为了提高识别率,先用opencv-python对扫描的图片做预处理(减少背景杂音),然后调用pytesseract识别图片上的文字.处理方式就是: 学习Pyt ...
python 合并word内容_python如何合并两个文档内容
1.两个文档合并之前 2.合并两个文件的代码:file1 = open("name,tel.txt", "rb") file2 = open("nam ...
读取SolidWorks文档中的属性，生成PDF（工具开发）
工作中,三维模型中的属性需要填写,其他地方也又需要填写,比如,我们公司买外购件需要填写外购卡. 比较懒,所以弄个小工具,直接从三维模型中提取属性数据,填写到响应的条目,根据物料编号,生成PDF. 读取 ...

python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子

python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子相关推荐

最新文章

热门文章