用pdfminer把PDF文件转化为文本文件
安装pdfminer
python3安装pdfminer3k, python2安装pdfminer2k
具体实现
def extract_layout_by_page(pdf_path):# 提取页面布局# 创建pdf设备对象laparams = LAParams()fp = open(pdf_path, 'rb') # 以二進制的模式打開# 用文件对象来创建一个pdf文档分析器parser = PDFParser(fp)# 创建一个pdf文档document = PDFDocument(parser)# 连接分析器 与文档对象parser.set_document(document)document.set_parser(parser)document.initialize()# 检查文档是否提供txt装换,不提供就忽略if not document.is_extractable:raise PDFTextExtractionNotAllowed# 创建PDF资源管理器 来共享资源rsrcmgr = PDFResourceManager()device = PDFPageAggregator(rsrcmgr, laparams=laparams)# 创建一个pdf解释器对象interpreter = PDFPageInterpreter(rsrcmgr, device)layouts = []# 循环遍历列表,每次处理page的内容for page in document.get_pages():interpreter.process_page(page)layouts.append(device.get_result())return layoutsdef pdf_to_txt(pdf_path, newname1):page_layouts = extract_layout_by_page(pdf_path)with open(newname1, 'w', encoding='utf-8') as f:for current_page in page_layouts:# 获取文本for x in current_page:if hasattr(x, "get_text"):# result.append(x.get_text())results = x.get_text()# print(type(results))if results == ' \n':continue# results=list(results)# with open(newname1, 'a', encoding='utf-8') as f:f.write(results)# f.close()# 恢复文本原来换行with open(newname1, 'r', encoding='UTF-8-sig') as f:content = f.readlines()print(content)pattern = re.compile(r'\s{1,2}\n')newcontent = []for i in content:if bool(re.search(pattern, i)) is False:j = i.replace('\n', '').replace(' \n', '')newcontent.append(j)else:newcontent.append(i)f.close()print(newcontent)with open(newname1, 'w', encoding='UTF-8') as f:for i in newcontent:f.write(i)f.close()return newname1
用pdfminer把PDF文件转化为文本文件相关推荐
- python 读取pdf cid_python使用pdfminer解析pdf文件的方法示例
最近要做个从 pdf 文件中抽取文本内容的工具,大概查了一下 python 里可以使用 pdfminer 来实现.下面就看看怎样使用吧. PDFMiner是一个可以从PDF文档中提取信息的工具.与其他 ...
- windows下用Python把pdf文件转化为图片(png高清)
windows下python3实现PDF转png图片,高清!!!希望可以帮到大家 windows下用Python将pdf文件转化为图片(png高清) 不扯没用的,直接上代码 1.环境:windows( ...
- python处理pdf实例_python使用pdfminer解析pdf文件的方法示例
最近要做个从 pdf 文件中抽取文本内容的工具,大概查了一下 python 里可以使用 pdfminer 来实现.下面就看看怎样使用吧. PDFMiner是一个可以从PDF文档中提取信息的工具.与其他 ...
- 使用 pdfminer 读取 pdf 文件
Python 语言读取 pdf 文件是一个令人头疼的事情,本文将使用的代码包 pdfminer 的文档中就曾评价 "PDF is evil". 本文提供使用该代码包读取 pdf 文 ...
- windows下用Python把pdf文件转化为图片
windows下用Python把png图片转化为pdf文件:https://blog.csdn.net/apollo_miracle/article/details/111915070 不扯没用的,直 ...
- 业务问题:用java将加密的pdf文件转化为图片问题,支持png,jpg,pdf互转
项目业务描述: 内部的一些pdf文件是加密的,要把pdf解密并进行转图片操作,并且像素不能受影响. 看了一些网页上好像没有太好的方法,一般都用spire这种第三方的库,超过10页还要收费.决定自己实现 ...
- python pdfminer解析pdf文件的每一行,得到每一行的坐标与每个字符的坐标
pdfminer的基本用法请参考:https://blog.csdn.net/weixin_35757704/article/details/121621559 一句话(用变量line表示)相对于页面 ...
- Python 3.6 中使用pdfminer解析pdf文件
所使用python环境为最新的3.6版本 一.安装pdfminer模块 安装anaconda后,直接可以通过pip安装 pip install pdfminer3k 如上图所示安装成功. 二.在IDE ...
- python pdfminer读取pdf表格_使用Python中的PDFMiner从PDF文件提取文本?
富国沪深 DuckPuncher的出色回答,对于Python3,请确保您安装pdfminer2并执行以下操作:import iofrom pdfminer.pdfinterp import PDFRe ...
最新文章
- 局部特征(local feature)
- NoSQL还是SQL?这一篇讲清楚
- 自学Java编程要做好哪些准备?
- netfilter que_QUE的完整形式是什么?
- java 好和不好的形容词 英语怎么说_java必会的英语单词
- plsql修改表名称_Excel教程:常见的工作表技巧(内有冻结拆分窗格)Excel神技巧...
- Java基础---File类,就是这么简单
- 百度推广为什么出现在右侧
- 微信:进一步规范财经类自媒体帐号内容发布
- python保存模型与参数_Pytorch - 模型和参数的保存与恢复
- java list 遍历查找_Java用list储存,遍历,查询指定信息过程详解
- maya 替换名称_maya替换对象,MAYA
- 【智能优化算法】基于黑寡妇优化算法求解单目标优化问题含Matlab源码
- matlab频谱分析中振幅的物理意义,频谱图分析的意义,频谱图的物理意义是什么呢,频率的振幅能够反映什么物理意义呢?(例如下图)请哪位大师指点,不胜感激!...
- 金士顿固态硬盘不认盘修复_上海金士顿固态硬盘维修 上海台电固态硬盘不识别数据恢复中心...
- PHP网站打开太慢,如何解决!
- 从 0-1 构建指标体系
- TDK 小型冗余模拟 TMR 角度传感器。
- Java高效开发框架Nutz:是SSH的轮子?还是新神器?
- 【python练习题 03】高矮个子排队