安装pdfminer 库

windows 下安装pdfminer3k

pip install pdfminer3k

Liunx 下安装pdfminer

pip install pdfminer

代码

from pdfminer.pdfparser import PDFParser, PDFDocument

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LAParams, LTTextBoxHorizontal

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed, PDFResourceManager, PDFPageInterpreter

def pdfParse(path):

"""

pdf文字提取

:param path:文件路径

:return: 每页结果列表

"""

fp = open(path, 'rb') # 以二进制读模式打开

# 用文件对象来创建一个pdf文档分析器

praser = PDFParser(fp)

# 创建一个PDF文档

doc = PDFDocument()

# 连接分析器 与文档对象

praser.set_document(doc)

doc.set_parser(praser)

# 提供初始化密码

# 如果没有密码 就创建一个空的字符串

doc.initialize()

# 检测文档是否提供txt转换,不提供就忽略

if not doc.is_extractable:

raise PDFTextExtractionNotAllowed

else:

# 创建PDf 资源管理器 来管理共享资源

rsrcmgr = PDFResourceManager()

# 创建一个PDF设备对象

laparams = LAParams()

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

# 创建一个PDF解释器对象

interpreter = PDFPageInterpreter(rsrcmgr, device)

#每页文字内容

results = []

# 循环遍历列表,每次处理一个page的内容

for page in doc.get_pages(): # doc.get_pages() 获取page列表

interpreter.process_page(page)

# 接受该页面的LTPage对象

layout = device.get_result()

# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性,

for x in layout:

if isinstance(x, LTTextBoxHorizontal):

results.append(x.get_text())

return results

该库是根据 迭代pdf每一页 进行文字提取, 也可以识别判断页码的功能

另外还有一个pypdf2 库也可以识别但是感觉不如这个准确

pythonpdf识别文字_python 提取pdf文字相关推荐

  1. python提取pdf文字,python 提取pdf文字

    安装pdfminer 库 windows 下安装pdfminer3k pip install pdfminer3k Liunx 下安装pdfminer pip install pdfminer 代码 ...

  2. python提取pdf文字_python基于pdfminer库提取pdf文字代码实例

    安装pdfminer 库 windows 下安装pdfminer3k pip install pdfminer3k Liunx 下安装pdfminer pip install pdfminer 代码 ...

  3. python自动化系列之提取pdf文字和图片

    在python中有许多开源的库可以处理Pdf文档,最常用的Pypdf2库可以读取文档,合并,分割pdf文档,但是也有局限性: 无法提取文档中的文字 提取PDF文字需要使用另外的库,如pdfplumbe ...

  4. 【python自动化办公(10)】python利用pdfplumber库提取PDF文字以及表格内容(复杂表格字段数据的处理)

    利用pdfplumber提取文字 pdfplumber.open(pdf路径)/pdf.pages[页数]/page.extract_text() import os os.chdir('D:\\py ...

  5. java提取PDF文字坐标

    常用java操作PDF的库有PDFbox和itext,下面我会介绍如何使用PDFbox和itext来提取PDF的文字坐标. 一.itext提取文字坐标 itext版本:5.5.6,低版本的可能没有提供 ...

  6. java 视频字幕_javaCV文字识别之2:视频文字识别和视频提取字幕文字字符

    前言 上一章我们实现了图片的文字识别和提取,本章基于javacv中的tesserac 和ffmpeg实现视频文字识别和提取 javacv中包含ffmpeg和tesserac两个库以及tesserac的 ...

  7. 怎么在python中添加文字_Python在图片中添加文字的两种方法

    本文主要介绍的是利用Python在图片中添加文字的两种方法,下面分享处理供大家参考学习,下来要看看吧 一.使用OpenCV 在图片中添加文字看上去很简单,但是如果是利用OpenCV来做却很麻烦.Ope ...

  8. python如何在图片上添加文字_Python在图片中添加文字的两种方法

    本文主要介绍的是利用Python在图片中添加文字的两种方法,下面分享处理供大家参考学习,下来要看看吧 一.使用OpenCV 在图片中添加文字看上去很简单,但是如果是利用OpenCV来做却很麻烦.Ope ...

  9. 怎样在python的turtle中输入文字_Python在图片中添加文字的两种方法

    本文主要介绍的是利用Python在图片中添加文字的两种方法,下面分享处理供大家参考学习,下来要看看吧 一.使用OpenCV 在图片中添加文字看上去很简单,但是如果是利用OpenCV来做却很麻烦.Ope ...

  10. python如何在图片上添加文字_python在图片中添加文字学习文档

    一开始出现错误如下: 原因为0000.JPG前应该是\而不是.修改后,运行以下代码,报错: 查阅资料后,加上了字体文件的路径 运行以下代码后,仍有相同的报错 from PIL import Image ...

最新文章

  1. 管理人员要求写日报、周报,项目进度汇报真有用吗?
  2. python自带的shell是什么-python shell是什么东西
  3. 数据库基础知识——视图
  4. 2020 年,云游戏将爆发?各大科技公司云游戏布局大曝光!
  5. 计算重叠最长子串问题
  6. 菊子曰获取模板的草稿{29C28FD771BA4B0D8693}
  7. 操作系统原理,多道程序设计,并发环境与并发任务,进程定义,进程控制块PCB,PCB维护的进程数据
  8. QQ群发消息c语言编程,简单写一个实现QQ群发功能的软件
  9. 从小就对生意耳濡目染的小伙,长大后创业资产过亿
  10. photoshop做立体字完整的图文版教程
  11. r720支持多少频率的内存吗_二维码门禁你知道支持多少种识别方式吗?
  12. Teams通话质量仪表盘进阶使用
  13. 也曾青春年少,小虎队
  14. 【题解】【蓝桥杯】回文日期
  15. 激活数字经济澎湃动能
  16. 工具教程第三十一讲:电报的使用(二)
  17. 概率论 —— 随机事件与概率
  18. 电赛硬件电路设计抗干扰措施
  19. 网络编程培训之一 编程实现IP/TCP/UDP报文
  20. Python Scrapy 爬虫 - 爬取多级别的页面

热门文章

  1. 【项目实战】别出心裁的小程序简历,让面试官耳目一新(第一个自己独立完成的小程序)
  2. 刻录linux-iso至u盘工具,ISO USB刻录工具ISO to USB burning tool V1.5 完美版
  3. 计算机金山打字基础,金山打字通电脑版
  4. SQL server2008下载安装
  5. RS485总线典型电路介绍
  6. linux如何监控网络流量,linux 下网络流量监控
  7. Python 利用GDAL对图像进行几何校正
  8. 电视家3.0怎么安装到电视上?常用三种方法介绍
  9. 工作总结,关于浏览器不兼容的问题。
  10. sort函数(c语言排序)