pdfminer识别pdf无法识别问题

python -V 3.7

安装pip3 install pdfminer3k

程序代码：

# pip3 install pdfminer3kfrom pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed'''解析pdf 文本
'''# path = r'D:/JBK/2c.pdf'  # 这是多列的论文格式
# path = r'D:/JBK/55.pdf'  # 这是有页眉和表格和可见超链接的
path = r'D:/JBK/1234.pdf'  # 这是有不可见超链接的
# path = r'D:/JBK/120.pdf'  # 这是有\def parse():fp = open(path, 'rb') # 以二进制读模式打开#用文件对象来创建一个pdf文档分析器praser = PDFParser(fp)# 创建一个PDF文档doc = PDFDocument()# 连接分析器 与文档对象praser.set_document(doc)doc.set_parser(praser)# 提供初始化密码# 如果没有密码 就创建一个空的字符串doc.initialize()# 检测文档是否提供txt转换，不提供就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:# 创建PDf 资源管理器 来管理共享资源rsrcmgr = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()device = PDFPageAggregator(rsrcmgr, laparams=laparams)# 创建一个PDF解释器对象interpreter = PDFPageInterpreter(rsrcmgr, device)# 循环遍历列表，每次处理一个page的内容for page in doc.get_pages(): # doc.get_pages() 获取page列表interpreter.process_page(page)# 接受该页面的LTPage对象layout = device.get_result()# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性，for x in layout:# if (isinstance(x, LTTextBoxHorizontal)):# print(x)if (isinstance(x, LTTextBoxHorizontal )):results = x.get_text()print(results)if __name__ == '__main__':parse()

如果文档中存在\，那么\后面的内容就不会识别。这时候可以用pymupdf，下一个文章讲一下它。

pdfminer识别pdf无法识别问题相关推荐

用软件如何识别pdf文字
用软件如何识别pdf文字近来得到一个好东西是可以辨认图画文字的软件--捷速ocr图画辨认软件,我也是一次偶然的时机遇上该软件.公司的电脑慢的跟驴相同,所以计划来个大扫除,将一些不需求的东西悉数删掉, ...
C# pdf 转图片 and 创建百度AI文字识别应用（识别图片中的文字和数字）
/// <summary>/// pdf 转图片/// </summary>public static void Turnpicture(){string str = &quo ...
Cisdem PDF Converter OCR for Mac(PDF文字识别转换工具)
Cisdem PDF Converter OCR Mac特别版是Mac平台上一款功能非常强大的PDF文字识别转换工具,用户可以通过Cisdem PDF Converter OCR for Mac将任何 ...
电子发票（PDF）识别信息提取（JAVA）电子专票（OFD）在线预览
网上也有资料,有的只有jar包没有源码,整理好网上的资源,把源码开放出来. https://gitee.com/kanen/invoice 欢迎使用和交流. 内容介绍电子发票(PDF)识别与验真 1 ...
PHP PDF内容识别抓取信息方法
PHP PDF内容识别抓取信息方法 PDF Parser 使用 PDF Parser 参考:http://www.pdfparser.org/ (注意:composer.json 更新 pdfpa ...
matlab获取图片上的字,基于MATLAB图片中文字提取及识别.pdf
基于MATLAB图片中文字提取及识别.pdf 数字图象处理 DigitalImageProgressing 基于MATLAB的图片中文字的提取及识别邹浩,余龙,邹勇博,刘宇童,和振乔,李少梅 (西安 ...
教你手动编辑图像，提高ABBYY FineReader PDF 15识别准确性
ABBYY FineReader PDF 15是一款智能程度相当高的OCR文字识别软件,不仅能识别PDF文档,而且还能识别难度更高的图像文件. 说到图像文件,虽然使用扫描仪可以让我们获取到精确度更高的 ...
OCR识别PDF文件
1现有解析pdf的方法使用org.apache.pdfbox读取pdf,只能读取pdf中的文字,有些纸件扫描成的pdf文字会错乱,有些字还是图片的方式显示的,导致读取的内容不全,常常会获取不到想要的 ...
PDF怎么识别提取文字？这个方法轻松提取
随着信息技术的发展,很多小伙伴已经不满足于对PDF文档的简单浏览和阅读.相反,很多时候我们需要将一些PDF文档中的内容提取出来,但是由于PDF不像Word文档这样开放,不能随意编辑提取内容.那么小伙伴 ...
武汉大学计算机学院曹瑀,利用人体部位特征重要性进行行人再识别.pdf
利用人体部位特征重要性进行行人再识别.pdf (7页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 14.90 积分第42卷第1期2017年1月武汉 ...

pdfminer识别pdf无法识别问题

pdfminer识别pdf无法识别问题相关推荐

最新文章

热门文章