用pdfminer把PDF文件转化为文本文件

安装pdfminer

python3安装pdfminer3k, python2安装pdfminer2k

具体实现

def extract_layout_by_page(pdf_path):# 提取页面布局# 　创建pdf设备对象laparams = LAParams()fp = open(pdf_path, 'rb')  # 以二進制的模式打開# 用文件对象来创建一个pdf文档分析器parser = PDFParser(fp)# 创建一个pdf文档document = PDFDocument(parser)# 连接分析器 与文档对象parser.set_document(document)document.set_parser(parser)document.initialize()# 检查文档是否提供txt装换，不提供就忽略if not document.is_extractable:raise PDFTextExtractionNotAllowed# 创建PDF资源管理器　来共享资源rsrcmgr = PDFResourceManager()device = PDFPageAggregator(rsrcmgr, laparams=laparams)# 创建一个pdf解释器对象interpreter = PDFPageInterpreter(rsrcmgr, device)layouts = []# 循环遍历列表，每次处理page的内容for page in document.get_pages():interpreter.process_page(page)layouts.append(device.get_result())return layoutsdef pdf_to_txt(pdf_path, newname1):page_layouts = extract_layout_by_page(pdf_path)with open(newname1, 'w', encoding='utf-8') as f:for current_page in page_layouts:# 获取文本for x in current_page:if hasattr(x, "get_text"):# result.append(x.get_text())results = x.get_text()# print(type(results))if results == ' \n':continue# results=list(results)# with open(newname1, 'a', encoding='utf-8') as f:f.write(results)# f.close()# 恢复文本原来换行with open(newname1, 'r', encoding='UTF-8-sig') as f:content = f.readlines()print(content)pattern = re.compile(r'\s{1,2}\n')newcontent = []for i in content:if bool(re.search(pattern, i)) is False:j = i.replace('\n', '').replace(' \n', '')newcontent.append(j)else:newcontent.append(i)f.close()print(newcontent)with open(newname1, 'w', encoding='UTF-8') as f:for i in newcontent:f.write(i)f.close()return newname1

用pdfminer把PDF文件转化为文本文件相关推荐

python 读取pdf cid_python使用pdfminer解析pdf文件的方法示例
最近要做个从 pdf 文件中抽取文本内容的工具,大概查了一下 python 里可以使用 pdfminer 来实现.下面就看看怎样使用吧. PDFMiner是一个可以从PDF文档中提取信息的工具.与其他 ...
windows下用Python把pdf文件转化为图片(png高清)
windows下python3实现PDF转png图片,高清!!!希望可以帮到大家 windows下用Python将pdf文件转化为图片(png高清) 不扯没用的,直接上代码 1.环境:windows( ...
python处理pdf实例_python使用pdfminer解析pdf文件的方法示例
最近要做个从 pdf 文件中抽取文本内容的工具,大概查了一下 python 里可以使用 pdfminer 来实现.下面就看看怎样使用吧. PDFMiner是一个可以从PDF文档中提取信息的工具.与其他 ...
使用 pdfminer 读取 pdf 文件
Python 语言读取 pdf 文件是一个令人头疼的事情,本文将使用的代码包 pdfminer 的文档中就曾评价 "PDF is evil". 本文提供使用该代码包读取 pdf 文 ...
windows下用Python把pdf文件转化为图片
windows下用Python把png图片转化为pdf文件:https://blog.csdn.net/apollo_miracle/article/details/111915070 不扯没用的,直 ...
业务问题：用java将加密的pdf文件转化为图片问题，支持png，jpg，pdf互转
项目业务描述: 内部的一些pdf文件是加密的,要把pdf解密并进行转图片操作,并且像素不能受影响. 看了一些网页上好像没有太好的方法,一般都用spire这种第三方的库,超过10页还要收费.决定自己实现 ...
python pdfminer解析pdf文件的每一行，得到每一行的坐标与每个字符的坐标
pdfminer的基本用法请参考:https://blog.csdn.net/weixin_35757704/article/details/121621559 一句话(用变量line表示)相对于页面 ...
Python 3.6 中使用pdfminer解析pdf文件
所使用python环境为最新的3.6版本一.安装pdfminer模块安装anaconda后,直接可以通过pip安装 pip install pdfminer3k 如上图所示安装成功. 二.在IDE ...
python pdfminer读取pdf表格_使用Python中的PDFMiner从PDF文件提取文本？
富国沪深 DuckPuncher的出色回答,对于Python3,请确保您安装pdfminer2并执行以下操作:import iofrom pdfminer.pdfinterp import PDFRe ...

用pdfminer把PDF文件转化为文本文件

安装pdfminer

具体实现

用pdfminer把PDF文件转化为文本文件相关推荐

最新文章

热门文章