安装pdfminer 库

windows 下安装pdfminer3k

pip install pdfminer3k

Liunx 下安装pdfminer

pip install pdfminer

代码

from pdfminer.pdfparser import PDFParser, PDFDocument

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LAParams, LTTextBoxHorizontal

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed, PDFResourceManager, PDFPageInterpreter

def pdfParse(path):

"""

pdf文字提取

:param path:文件路径

:return: 每页结果列表

"""

fp = open(path, 'rb') # 以二进制读模式打开

# 用文件对象来创建一个pdf文档分析器

praser = PDFParser(fp)

# 创建一个PDF文档

doc = PDFDocument()

# 连接分析器 与文档对象

praser.set_document(doc)

doc.set_parser(praser)

# 提供初始化密码

# 如果没有密码 就创建一个空的字符串

doc.initialize()

# 检测文档是否提供txt转换,不提供就忽略

if not doc.is_extractable:

raise PDFTextExtractionNotAllowed

else:

# 创建PDf 资源管理器 来管理共享资源

rsrcmgr = PDFResourceManager()

# 创建一个PDF设备对象

laparams = LAParams()

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

# 创建一个PDF解释器对象

interpreter = PDFPageInterpreter(rsrcmgr, device)

#每页文字内容

results = []

# 循环遍历列表,每次处理一个page的内容

for page in doc.get_pages(): # doc.get_pages() 获取page列表

interpreter.process_page(page)

# 接受该页面的LTPage对象

layout = device.get_result()

# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性,

for x in layout:

if isinstance(x, LTTextBoxHorizontal):

results.append(x.get_text())

return results

该库是根据 迭代pdf每一页 进行文字提取, 也可以识别判断页码的功能

另外还有一个pypdf2 库也可以识别但是感觉不如这个准确

标签:提取,get,python,doc,pdfminer,pdf,import,page,layout

来源: https://www.cnblogs.com/jokerBi/p/10791828.html

python提取pdf文字,python 提取pdf文字相关推荐

  1. pdf exe如何提取pdf文件_python应用:如何用python提取pdf文件中的文字

    从pdf中提取文字,相信很多人都干过这事,怎么在python中实现呢,今天带大家看看. 第一步导入库 import PyPDF2 第二步导入pdf文件 pdf_file =open('dataset/ ...

  2. python自动办公pdf_[Python] 自动化办公 PDF提取文字、表格、图片

    转载请注明:陈熹 chenx6542@foxmail.com (简书号:半为花间酒) 若公众号内转载请联系公众号:早起Python 本例可以学到的知识点: 使用 pdfplumber 提取 PDF 中 ...

  3. Python PDF转Word,以及提取Word中图片里的文字

    PDF转Word,以及提取Word中图片里的文字 PS: 也是从网上各个帖子中学习的Python,因此代码的格式以及内容有粘贴网上其他大神的代码,如有侵权请告知删除 软件截图: #!/usr/bin/ ...

  4. python pdf库_3个Python PDF库,提取信息、转换格式、分割剪裁有它就够了!

    Python无处不在,似乎支持从主要网站到桌面实用程序到企业软件的所有功能.Python已经被用来编写流行的软件项目,如dnf/yum.OpenStack.OpenShot.Blender.Calib ...

  5. 【Python例】利用 python 进行图片文字信息的提取 --- OCR-EasyOCR

    [Python例]利用 python 进行图片文字信息的提取 - OCR-EasyOCR 本文主要用于记录,并使用 python 脚本进行图片文字信息的生成. 什么是 OCR? OCR OCR(Opt ...

  6. python提取ppt文本_提取PPT中的文字(包括图片中的文字)

    python是一门很强大的语言,因为有着丰富的第三方库,所以可以说Python是无所不能的. 很多人都知道,Python可以操作Excel,PDF·还有PPT,这篇文章就围绕Python提取PPT中的 ...

  7. python处理pdf提取指定数据_python从PDF中提取数据的示例

    01 前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都 ...

  8. python 替换array中的值_利用Python提取视频中的字幕(文字识别)

    我的CSDN博客id:qq_39783601,昵称是糖潮丽子~辣丽 从今天开始我会陆续将数据分析师相关的知识点分享在这里,包括Python.机器学习.数据库等等. 今天来分享一个Python小项目! ...

  9. gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据

    前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...

最新文章

  1. lab_2 Selenium
  2. 80热敏打印机打印TxPrnMod.dll
  3. 藏在标定板身后的秘密
  4. 我在大学毕业后学习Linux、python的一些经验
  5. 一起来造一个RxJava,揭秘RxJava的实现原理
  6. VMware 创建开启虚拟机时候报错的解决方式
  7. Address already in use:JVM_Bind:8080
  8. Spark源码分析之Master注册机制原理
  9. DBUtils结果集处理
  10. linux怎样进入src目录,Linux配置目录
  11. 解决js跨域使用nginx配置问题
  12. php 查字符串,PHP查询字符串技巧分享
  13. zepto在整个屏幕中左滑动右滑动
  14. 外挂制作--------NP认识
  15. python 3 中文URL编码转换问题
  16. 番外4. Python OpenCV 中鼠标事件相关处理与常见问题解决方案
  17. error An unexpected error occurred: “EPERM: operation not permitted, unlink ‘C:\\Users
  18. c#超火表白小程序(含代码教程)
  19. 关于淘宝网评论数据的抓取
  20. 20210428# 咕泡RabbitMQ文档

热门文章

  1. 什么是MTU值,如何设置最快最好?
  2. 扒一扒能加速互联网的QUIC协议
  3. 项目管理知识体系九大知识领域简介
  4. 安卓手机上有适合学生的日程app?
  5. 高斯投影法正反算代码MATLAB版本
  6. 全网最新小白API查Q绑定带反查SGK+带接口
  7. srt转vtt——在线转换工具
  8. 测试中的Right-BICEP
  9. HTMLCSS 笔记(三)
  10. 钽电容黑色和黄色的区别