1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LAParams

from pdfminer.pdfparser import PDFParser, PDFDocument

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf

from urllib.request import urlopen

fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象

#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器

parser = PDFParser(fp)

#PDF文档的对象

doc = PDFDocument()

#连接解释器和文档对象

parser.set_document(doc)

doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串

doc.initialize("")

#创建PDF资源管理器

resource = PDFResourceManager()

#参数分析器

laparam = LAParams()

#创建一个聚合器

device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器

interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合

for page in doc.get_pages():

# 使用页面解释器读取

interpreter.process_page(page)

# 使用聚合器来获得内容

layout = device.get_result()

for out in layout:

if hasattr(out, "get_text"):

print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子相关推荐

  1. python写word下标_Python用python-docx读写word文档

    备注: doc是微软的专有的文件格式,docx是Microsoft Office2007之后版本使用,其基于Office Open XML标准的压缩文件格式,比 doc文件所占用空间更小.docx格式 ...

  2. python怎么读取pdf文件_Python解析并读取PDF文件内容的方法

    本文实例讲述了Python解析并读取PDF文件内容的方法.分享给大家供大家参考,具体如下: 一.问题描述 利用python,去读取pdf文本内容. 二.效果 三.运行环境 python2.7 四.需要 ...

  3. python处理pdf实例_python使用pdfminer解析pdf文件的方法示例

    最近要做个从 pdf 文件中抽取文本内容的工具,大概查了一下 python 里可以使用 pdfminer 来实现.下面就看看怎样使用吧. PDFMiner是一个可以从PDF文档中提取信息的工具.与其他 ...

  4. python打印机打印图片_python连接打印机实现打印文档、图片、pdf文件等功能

    引言 python连接打印机进行打印,可能根据需求的不同,使用不同的函数模块. 如果你只是简单的想打印文档,比如office文档,你可以使用ShellExecute方法,对于微软office的文档.p ...

  5. 如何利用python自动化办公项目_python办公自动化:自动进行word文档处理和排版

    上节python办公自动化:自动打开word文档我们一起学会了在python里打开并保存一个word文档.这节我们将会学会如何利用python进行文本处理和将其在word里进行排版等技巧. pytho ...

  6. python打开电脑文件_python办公自动化:自动打开word文档-docx文件怎样打开

    上节python办公自动化:python自动化word快速入门,对python自动化word的操作做了快速入门,从本小节开始,逐步细致的分解讲解每一个关键步骤. python自动化word 使用文档 ...

  7. python处理pdf实例_Python程序图片和pdf上文字识别实例

    实例一:先减少背景杂音,再做图片文字识别 为了提高识别率,先用opencv-python对扫描的图片做预处理(减少背景杂音),然后调用pytesseract识别图片上的文字.处理方式就是: 学习Pyt ...

  8. python 合并word内容_python如何合并两个文档内容

    1.两个文档合并之前 2.合并两个文件的代码:file1 = open("name,tel.txt", "rb") file2 = open("nam ...

  9. 读取SolidWorks文档中的属性,生成PDF(工具开发)

    工作中,三维模型中的属性需要填写,其他地方也又需要填写,比如,我们公司买外购件需要填写外购卡. 比较懒,所以弄个小工具,直接从三维模型中提取属性数据,填写到响应的条目,根据物料编号,生成PDF. 读取 ...

最新文章

  1. whoosh学习(1)
  2. vsftp 550,227 报错解决
  3. MIT算法导论(一)——算法分析和引论
  4. 从运维角度浅谈MySQL数据库优化,中小企业DBA必会
  5. 三星Galaxy S22全系售价曝光:标准版起步或超5000元
  6. ip tcp udp mpeg4头结构的定义
  7. 在Js中创建对象的几种方式
  8. linux下的web安全机制,linux http服务器web网页的不同安全机制
  9. ALT+回车键 是强制换行的快捷键
  10. 图片怎么改成jpg格式
  11. 对彩色花图像进行分类-基于R语言的Keras实现
  12. 这个世界,没有传奇(一)——挺住,就是一切
  13. 公务员考试行测资料分析技巧
  14. 中华英才网爬虫程序(3)-queue和threading模块的结合使用
  15. G-SHOCK时间校准
  16. 简单解释“DNA动了”是什么意思?
  17. Spring和EJB3的技术对比
  18. 中科院、腾讯、深圳明源研发团队管理经验分享
  19. 针对B端产品引发的设计思考
  20. 软件测试的培训机构靠谱吗

热门文章

  1. Matlab神经网络十讲(7): Adaptive Filter and Adaptive Training
  2. 计算机网络各层代表设备
  3. 减少if else的使用
  4. 程序员面试系列——合并排序(递归实现)
  5. 独立式环境与宿主式环境————《标准C语言指南》读书笔记01
  6. Java I/O模型从BIO到NIO和Reactor模式
  7. 日常生活小技巧 -- “Error: Encountered an improper argument”的解决方法
  8. zcmu-1184(矩阵乘法)
  9. Android开源框架源码鉴赏:VirtualAPK
  10. PWN2OWN 2017 Linux 内核提权漏洞分析