python之pdf转txt的两种方法—

需要将pdf转成txt，先后尝试使用python库pdfminer与pyocr(tesseract)。

1. pdfminer:

没研究原理，识别效果还可以。但识别效果是按照各个区域块去识别文字，而不是按行识别，所以格式混乱时不太推荐。当文字在pdf上无法选中时，pdfminer也无法识别该文字。好像还可以用来识别表格之类的，没试过。代码如下：

先装库：pip install pdfminer3k

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LTTextBoxHorizontal, LAParamsdef pdf2txt_miner(f_from, f_to):# 按块识别, 可选中的文字print(f'start: {f_from}')fp = open(f_from, 'rb')# 用文件对象来创建一个pdf文档分析器praser = PDFParser(fp)# 创建一个PDF文档doc = PDFDocument()# 连接分析器 与文档对象praser.set_document(doc)doc.set_parser(praser)# 提供初始化密码# 如果没有密码 就创建一个空的字符串doc.initialize()# 检测文档是否提供txt转换，不提供就忽略if not doc.is_extractable:pass# raise PDFTextExtractionNotAllowedelse:# 创建PDf 资源管理器 来管理共享资源rsrcmgr = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()device = PDFPageAggregator(rsrcmgr, laparams=laparams)# 创建一个PDF解释器对象interpreter = PDFPageInterpreter(rsrcmgr, device)with open(f_to, 'w') as f:# 循环遍历列表，每次处理一个page的内容for page in doc.get_pages():  # doc.get_pages() 获取page列表interpreter.process_page(page)# 接受该页面的LTPage对象layout = device.get_result()# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性，for x in layout:if (isinstance(x, LTTextBoxHorizontal)):results = x.get_text()for gar in garbage_text:if results.startswith(gar):breakelse:print(results)f.write(results.replace('\n', ' '))fp.close()

2. pyocr：

效果还可以，在本次的需求上效果比pdfminer要好。我安装了windows和centos的两个系统，但很遗憾具体步骤我都记不清了.....虽然还是上周的事情..........

简单描述一下吧。

(1) windows: 需要装PIL、tesseract、pyocr、imagemagic。

(2) centos: https://github.com/tesseract-ocr/tesseract/wiki#centos-fedora-scientificlinux-opensuse-rhel-packages

注意：tesseract在两个系统中都需要配置环境变量的。

代码如下：

from wand.image import Image
from PIL import Image as PI
import pyocr
import pyocr.buildersdef pdf_ocr(f_from, f_to):print(pyocr.get_available_tools())# 默认三个tools，分别为tesseract,libtesseract,cuneiform,我使用的是tesseract。tool = pyocr.get_available_tools()[0]print(tool.get_available_languages())# 语言选择英语lang = tool.get_available_languages()[0]req_image = []total_txt = ''final_list = []pkl_path = f_from.rsplit('.')[0]+'___txt.pkl'with open(f_to, 'w', encoding='utf-8') as f_to:if os.path.exists(pkl_path):total_txt = pickle.load(open(pkl_path, 'rb'))else:# pdf先转成图片，resolution可以调分辨率。image_pdf = Image(filename=f_from, resolution=300)# image_pdf = Image(filename=f_from)image_jpeg = image_pdf.convert('jpeg')for img in image_jpeg.sequence:print(img)img_page = Image(image=img)req_image.append(img_page.make_blob('jpeg'))# 对图片进行ocr识别for idx, img in enumerate(req_image):print(idx)txt = tool.image_to_string(PI.open(io.BytesIO(img)),lang=lang,builder=pyocr.builders.TextBuilder())total_txt = total_txt + txtpickle.dump(total_txt, open(pkl_path, 'wb'))

python之pdf转txt的两种方法——pdfminer与ocr相关推荐

python requirements.txt_python生成requirements.txt的两种方法
这篇文章主要介绍了python生成requirements.txt的两种方法,每种方法给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下 python项目如何在另一个环境上重新构建项目 ...
Python数据分析：异常值检验的两种方法 -- Z 分数上下分位点（放入自写库，一行代码快速实现）
本文已在公众号 " 数据分析与商业实践 " 首发.关注一下~,更多商业数据分析案例源码等你来撩.后台回复 "异常值" ,即可获取本文的案例示范与包含详细注释的源 ...
CAD图纸怎么转换成PDF格式？这两种方法快速转换
怎么把CAD图纸转换成PDF格式呢?大家在使用CAD绘图工具制作CAD图纸的时候,在将图纸绘制好后为了能够方便发送和浏览,会选择把图纸转换成PDF文件格式来保存发送,这样就不会出现文件打不开的现象.但 ...
python hist直方图拟合曲线_详解用Python为直方图绘制拟合曲线的两种方法
直方图是用于展示数据的分组分布状态的一种图形,用矩形的宽度和高度表示频数分布,通过直方图,用户可以很直观的看出数据分布的形状.中心位置以及数据的离散程度等. 在python中一般采用matplotli ...
Java调用打印机打印PDF文档的两种方法
最近,由于项目需求,需要增加系统调用打印机打印PDF文档功能.以前在Asp.Net项目中做过套打,但是现在的需求直接文档打印,下面是实现代码调用打印机的两种方法. 1.Java Print Servi ...
OFD文件怎么转换成PDF格式？这两种方法轻松实现转换
怎么把OFD文件转换成PDF格式呢?OFD文件大家可能不太熟悉,使用的也不多,它其实也是一种归档保存的一种文件格式,在很多方面与PDF文件有些相似,但是打开它需要使用到相关的OFD阅读器,这个就会让很 ...
如何把图片转换成PDF格式？这两种方法不要错过
怎么把图片转换成PDF文件格式呢?PDF文件一直以来都是我们传输文件的好帮手,它的显著效果不仅可以体现在文件上,也可以在图片中拥有良好的体验感.我们将图片转换成PDF格式来发送或者是打印,就不会出现排 ...
python直方图拟合曲线_用Python为直方图绘制拟合曲线的两种方法
直方图是用于展示数据的分组分布状态的一种图形,用矩形的宽度和高度表示频数分布,通过直方图,用户可以很直观的看出数据分布的形状.中心位置以及数据的离散程度等. 在python中一般采用matplotli ...
Python 项目依赖包第三方库生成requirements.txt的两种方法
python项目如何在另一个环境上重新构建项目所需要的运行环境依赖包? 使用的时候边记载是个很麻烦的事情,总会出现遗漏的包的问题,这个时候手动安装也很麻烦,不能确定代码报错的需要安装的包是什么版本.这 ...

python之pdf转txt的两种方法——pdfminer与ocr

python之pdf转txt的两种方法——pdfminer与ocr相关推荐

最新文章

热门文章