安装依赖:

pip install pdfminer3k

# -*- coding:utf-8
import sys
import importlib
importlib.reload(sys)
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed'''解析pdf 文本,保存到txt文件中
'''
path = r'python标准库.pdf'
def parse():fp = open(path, 'rb') # 以二进制读模式打开#用文件对象来创建一个pdf文档分析器praser = PDFParser(fp)# 创建一个PDF文档doc = PDFDocument()# 连接分析器 与文档对象praser.set_document(doc)doc.set_parser(praser)# 提供初始化密码# 如果没有密码 就创建一个空的字符串doc.initialize()# 检测文档是否提供txt转换,不提供就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:# 创建PDf 资源管理器 来管理共享资源rsrcmgr = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()device = PDFPageAggregator(rsrcmgr, laparams=laparams)# 创建一个PDF解释器对象interpreter = PDFPageInterpreter(rsrcmgr, device)# 循环遍历列表,每次处理一个page的内容for page in doc.get_pages(): # doc.get_pages() 获取page列表interpreter.process_page(page)# 接受该页面的LTPage对象layout = device.get_result()# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性,for x in layout:if (isinstance(x, LTTextBoxHorizontal)):with open(r'1.txt', 'a', encoding='utf-8') as f:results = x.get_text()f.write(results + '\n')if __name__ == '__main__':parse()

Python实现PDF转文字.相关推荐

  1. python:pdf转文字(在线和本地文档)

    在线文档: #encoding=utf-8 from urllib.request import urlopen from pdfminer.pdfinterp import PDFResourceM ...

  2. c++代码整洁之道pdf_别再问如何用python提取PDF内容了

    作者:陈熹 来源:早起Python 大家好,在之前的办公自动化系列文章中我们已经详细介绍了如何使用python批量处理PDF文件,包括合并.拆分.水印.加密等操作. 今天我们再次回到PDF,详细讲解如 ...

  3. 别再问如何用 Python 提取 PDF 内容了!

    作者 | 陈熹 头图 | CSDN 下载自东方 IC 来源 | 早起Python(ID:zaoqi-python) 导读 大家好,在之前的办公自动化系列文章中我们已经详细介绍了如何使用Python批量 ...

  4. 怎么在python提取别的数据了_别再问如何用python提取PDF内容了!

    作者:陈熹 来源:早起Python 大家好,在之前的办公自动化系列文章中我们已经详细介绍了如何使用python批量处理PDF文件,包括合并.拆分.水印.加密等操作. 今天我们再次回到PDF,详细讲解如 ...

  5. 别再问如何用Python提取PDF内容了!

    公众号后台回复"图书",了解更多号主新书内容 作者:陈熹 来源:早起Python 导读 大家好,在之前的办公自动化系列文章中我们已经详细介绍了????如何使用Python批量处理P ...

  6. pdf exe如何提取pdf文件_python应用:如何用python提取pdf文件中的文字

    从pdf中提取文字,相信很多人都干过这事,怎么在python中实现呢,今天带大家看看. 第一步导入库 import PyPDF2 第二步导入pdf文件 pdf_file =open('dataset/ ...

  7. python 生成pdf 文字和图片_Python系列—PDF文本与图片抽取

    PDF是人们日常使用最多的跨平台文档.其是一种用独立于应用程序.硬件.操作系统的方式呈现文档的文件格式.每个PDF文件包含固定布局的平面文档的完整描述,包括文本.字形.图形及其他需要显示的信息.具有良 ...

  8. python解析pdf,读取文字,可识别两栏pdf等

    python解析pdf,读取文字,可识别两栏pdf等 一.解析我们的pdf文件,首先第一步是解析普通类别的pdf(只有一栏) 代码中包含注释(不懂得可以留言) 二.处理拥有两栏等类型的pdf 为什么要 ...

  9. 【Python】python实现jpg图片文字转成pdf格式

    python实现jpg图片文字转成pdf格式 [代码][Python]代码 #!/usr/bin/env pythonimport os import sys from reportlab.lib.p ...

最新文章

  1. 北大智能学院成立!AI视觉泰斗朱松纯教授任院长
  2. Laravel Scheduling Package
  3. endnote参考文献排版_Endnote参考文献管理软件文献插入排版
  4. 《深入理解LINUX网络技术内幕》小记1
  5. 虚拟机linux命令界面转,虚拟机-linux系统中图形界面和命令行界面切换
  6. 深入理解CSS六种颜色模式
  7. 软件构架实践_阅读笔记01(1-3)
  8. 基础学习总结(一)--工程结构与打包过程
  9. 关于Bitmapimage图片保存(png格式)
  10. 一个java程序员自学IOS开发之路(五)
  11. antd tab右键菜单renderTabBar
  12. 虚拟现实下的手势识别综述
  13. 一张图说明白数据安全管理体系的规划
  14. pytorch保存模型pth_详解Pytorch中的网络构造,模型save和load,.pth权重文件解析
  15. gulp打包Replace Autoprefixer browsers option to Browserslist config. Use browserslis
  16. php laravel 增删查改,通过 Laravel Eloquent 模型实现简单增删改查操作
  17. 3.15 study 简单移动动画js实现
  18. java捕鱼设计_JAVA毕业设计教程:用swing实现捕鱼达人代码教程
  19. 12.10中兴通讯科技园研发大楼发生42岁工程师跳楼事件
  20. 幽默段子~整理(我们是大自然的搬运工)

热门文章

  1. c语言实现七巧板积木拼图大全,七巧板拼图积木的制作方法
  2. zookeeper自问自答
  3. 什么东西能帮助睡眠?曾经五年睡不好觉的朋友在用几个东西
  4. 滴水逆向三期和中级和高期教程
  5. 云原生时代一站式DevOps平台--阿里云效
  6. 开源移动设备管理(MDM)解决方案的利与弊
  7. peewee mysql_peewee基本使用
  8. 最全的web前端自学教程视频,免费分享
  9. 【翻译】Paparazzi: Surface Editing by way of Multi-View Image Processing
  10. 回文素数(杭电OJ,不喜欢这个题)