python读pdf/双层pdf
python读pdf/双层pdf
#_*_coding:utf-8_*_
import pyocr
import importlib
import sys
import timeimportlib.reload(sys)
time1 = time.time()
# print("初始时间为:",time1)import os.path
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowedtext_path = r'D009-2009-090-0710_OCR.pdf'def parse():'''解析PDF文本,并保存到TXT文件中'''fp = open(text_path, 'rb')# 用文件对象创建一个PDF文档分析器parser = PDFParser(fp)# 创建一个PDF文档doc = PDFDocument()# 连接分析器,与文档对象parser.set_document(doc)doc.set_parser(parser)# 提供初始化密码,如果没有密码,就创建一个空的字符串doc.initialize()# 检测文档是否提供txt转换,不提供就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:# 创建PDF,资源管理器,来共享资源rsrcmgr = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()device = PDFPageAggregator(rsrcmgr, laparams=laparams)# 创建一个PDF解释其对象interpreter = PDFPageInterpreter(rsrcmgr, device)# 循环遍历列表,每次处理一个page内容# doc.get_pages() 获取page列表for page in doc.get_pages():interpreter.process_page(page)# 接受该页面的LTPage对象layout = device.get_result()# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象# 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等# 想要获取文本就获得对象的text属性,for x in layout:if (isinstance(x, LTTextBoxHorizontal)):with open(r'2.txt', 'a') as f:results = x.get_text()print(results)f.write(results + "\n")if __name__ == '__main__':parse()time2 = time.time()print("总共消耗时间为:", time2 - time1)
python读pdf/双层pdf相关推荐
- Python 读pdf数据写入Excel表中
活动地址:CSDN21天学习挑战赛 目录 一.Python操作PDF的库有很多 二.pdflumber作为案例讲解使用 2.安装配置 2.加载PDF 3.读取pdf文档信息 1)读取pdf文档 ...
- python 通过文本4对坐标生成双层pdf
图形? 你可以使用 Matplotlib 库来生成图形.你可以使用它的 plot() 方法来绘制坐标图,然后使用 savefig() 方法将图形保存为 PDF 文件. 如果你需要生成双层 PDF 图形 ...
- python不可以处理pdf文件_使用 Python 处理 pdf
使用 Python 处理 pdf 背景 最近老婆工作中碰到一些困难,总是跟我抱怨工作好烦,不开心. 主要是是因为要处理一些报告,这些 pdf 格式的样本报告比较多,基本都是人工操作比较容易出错,也比较 ...
- python使用fpdf创建pdf文件包含:页眉、页脚并嵌入logo图片、设置使用中文字体
python使用fpdf创建pdf文件包含:页眉.页脚并嵌入logo图片.设置使用中文字体 #python使用fpdf创建页眉.页脚并嵌入logo图片.设置使用中文字体 from fpdf impor ...
- python使用fpdf生成pdf文件章节(chapter),包含:页眉、页脚、章节主题、数据排版等;
python使用fpdf生成pdf文件章节(chapter),包含:页眉.页脚.章节主题.数据排版等: #仿真数据 The year 1866 was marked by a bizarre deve ...
- python使用fpdf生成pdf章节(chapter)文件包含:页眉、页脚、章节主体、章节内容等;
python使用fpdf生成pdf章节(chapter)文件包含:页眉.页脚.章节主体.章节内容等: 目录
- python使用fpdf生成pdf文件:配置多种语言字体写入多种文字
python使用fpdf生成pdf文件:配置多种语言字体写入多种文字 目录
- python使用fpdf创建pdf并写入hello world
python使用fpdf创建pdf并写入hello world from fpdf import FPDF # 创建pdf并写入hello world文本内容: from fpdf import FP ...
- python处理pdf文件_好玩的Python 篇一:用Python显示和处理PDF文件
好玩的Python 篇一:用Python显示和处理PDF文件 2020-05-25 00:20:30 0点赞 0收藏 0评论 pdf是电子书,文档经常会用的格式,除了下载各种阅读器以外,我们也可以用P ...
- python 读取文件读出来是什么格式-深入学习python解析并读取PDF文件内容的方法...
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
最新文章
- jQuery的Prettydate插件
- 朱林北京大学计算机学院,北大、清华状元谈英语学习经验-20210411145045.docx-原创力文档...
- war包部署-打包测试
- java类的定义的实例_《Java基础知识》Java类的定义及其实例化
- 求你了,别再说Java对象都是在堆内存上分配空间的了!
- 一个软件网络连接异常_你的电脑运转正常吗?这 10 款系统监控软件能告诉你答案...
- postman发送HTTP请求自动生成MD5签名
- xftp5安装注册教程
- php cookie防伪造,技术分享:Cookie 防伪造 防修改
- 人群与网络:新事物在网络中的扩散
- linux 检验md5命令,linux命令行校验工具md5sum
- 计算机设备管理器驱动,设备管理器安装驱动程序的详细教程
- ppt模板怎样用到html中,教你如何自己制作PPT模板及使用模板方法图文介绍
- 电信 网通 铁通 DNS服务器IP地址
- MySQL varchar类型可以存储多少个汉字
- 链栈的数据结构以及链栈的实现
- java判断值是枚举类型?
- STM32中断分配——抢占优先级与响应优先级
- socket是什么?套接字是什么?
- 蓝桥杯模拟题.花园灌溉(bfs)
热门文章
- 最值得收藏的 算法分析与设计 全部知识点思维导图整理(北大慕课课程)
- 迈信EP100伺服驱动器量产型修改bug全套C源代码和硬件
- Typecho单栏式Major主题模板V1.8
- 基于python flask的网上商城源码 mysql数据库
- 爬虫实战(二)之登录百度云盘
- 小米浏览器导出html,小米浏览器离线视频如何导出 小米浏览器离线视频导出教程...
- c语言城市交通灯优化,城市智能交通灯系毕业设计论文.doc
- 5%和1%精度的贴片电阻标称阻值表
- TCP 和 UDP 区别
- 计算机中文无敌版,与电脑下象棋无敌版