1、安装 pdfminer3k

通过pip安装:  pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)#PDF文档的对象
doc = PDFDocument()#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")#创建PDF资源管理器
resource = PDFResourceManager()#参数分析器
laparam = LAParams()#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)#使用文档对象得到页面的集合
for page in doc.get_pages():# 使用页面解释器读取
    interpreter.process_page(page)# 使用聚合器来获得内容
    layout = device.get_result()for out in layout:if hasattr(out, "get_text"):print(out.get_text())

python 使用pdfminer3k 读取PDF文档相关推荐

  1. python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子

    1.安装 pdfminer3k 通过pip安装: pip install pdfminer3k 下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/# ...

  2. Python读取PDF文档(或TXT)

    字符串在Python内部的表示是Unicode编码,首先我们来认识Python中encode()和decode()的作用与区别: 在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的 ...

  3. 数据导入与预处理-第4章-数据获取python读取pdf文档

    数据导入与预处理-第4章-数据获取Python读取PDF文档 1 PDF简介 1.1 pdf是什么 2 Python操作PDF 2.1 pdfplumber库 2.2 pdfplumber基本操作 2 ...

  4. PyPDF2--如何使用python操作你的PDF文档

    PyPDF2–如何使用python操作你的PDF文档 前言 大家好!最近想操作一下PDF文档,总是收费,于是浅尝辄止地了解了一下python当中的PyPDF2这个库.借助本篇博客总结了一下个人所学到的 ...

  5. python处理word或者pdf文件_利用python程序生成word和PDF文档的方法

    一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...

  6. Python自动化办公:读取pdf文档

    在后台回复[阅读书籍] 即可获取python相关电子书~ Hi,我是山月. 上次给大家介绍了pypdf2的使用方法,但它主要用于文档的处理,比如合并.提取页面等. 但是对于pdf文档来说,如何读取它的 ...

  7. python读取pdf文档书签 bookmark_用Python为PDF文件批量添加书签

    平时看一些大部头的技术书籍,大多数都是PDF版的,而且有一些书籍是影印扫描版的,几百上千页的书,没有任何书签,想要找到一个章节的位置非常费劲.那么就想,能不能搞一个工具,来自动地为这些大部头的PDF书 ...

  8. 极速系列05—python批量拆分/合并PDF文档

    1 python按照页数拆分PDF文档 目的: 将一个PDF文档按照指定的页数拆份额为多个文档 思路: 使用PyPDF库中的PdfFileReader, PdfFileWriter类,这两个类是PyP ...

  9. Python自动化办公:pdf文档操作

    在后台回复[阅读书籍] 即可获取python相关电子书~ Hi,我是山月. 之前给大家介绍了python处理excel.word.ppt的相关教程,不知道大家学的怎么样? 在后台回复[自动化办公]即可 ...

最新文章

  1. python从1到n出现了多少个1-【算法21】从1到n的正数中1的出现次数
  2. 使用github管理Eclipse分布式项目开发
  3. Android Handler.removeCallbacksAndMessages(null)的作用
  4. android复杂列表滑动卡顿,Android 列表滑动性能优化总结
  5. Linus 发文宣布Linux Kernel 5.0 正式发布
  6. JWT Token在线编码生成
  7. 图解欧洲足球五大联赛 | R爬虫可视化第五季
  8. matlab 拟合excel中的数据,Matlab分析拟合Excel中的数据(1)---数据的导入
  9. OpenEmbedded 中文手册
  10. 调用新浪接口查询IP地址
  11. 微信号名称乱码什么情况_2020最火微信号,微信号改成什么比较好?
  12. android模拟点击系统打开apk按钮,Android开发系列: 电脑端Android模拟器安装使用教程...
  13. 算法设计 - 二分法和三分法,洛谷P3382
  14. oracle internal_function,Oracle Internal Research内部原理研究
  15. .ipynb 和 .py 文件
  16. (一)航空发动机强度与振动复习纲要
  17. 【php毕业设计】基于php+mysql+mvc的网上留言管理系统设计与实现(毕业论文+程序源码)——网上留言管理系统
  18. 银联电子支付ChinaPay支付回调验证问题
  19. MacOS Big Sur 系统 【您没有权限来打开应用程序“xf-adesk19”】
  20. Verilog描述有限状态机(一段式、二段式、三段式)

热门文章

  1. 川大博士生被华为以200万年薪录用!分享以下科研及论文写作经验
  2. 游戏日常运营数据:DAU分解及留存
  3. 防止PayPal帐号冻结和解冻的经验
  4. 华纬科技冲刺深交所:拟募资4亿 二代接班金雷,控制65%股权
  5. 如何用计算机将图片整成手绘画,【新手教程】如何将手绘作品转变成电子档,并让其更像“作品”?...
  6. 哪个主板可供选择?ATX,Micro-ATX还是Mini-ITX?
  7. 2023 《电脑PC游戏》 红警3:起义时刻
  8. 【Java习题程序】将int整数转化为int数组,不用转String。
  9. msvcr120.dll丢失怎样修复?msvcr120.dll文件修复方法
  10. rabbitmq消息发送与接收stomp通道测试