python读pdf/双层pdf

#_*_coding:utf-8_*_
import pyocr
import importlib
import sys
import timeimportlib.reload(sys)
time1 = time.time()
# print("初始时间为:",time1)import os.path
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowedtext_path = r'D009-2009-090-0710_OCR.pdf'def parse():'''解析PDF文本,并保存到TXT文件中'''fp = open(text_path, 'rb')# 用文件对象创建一个PDF文档分析器parser = PDFParser(fp)# 创建一个PDF文档doc = PDFDocument()# 连接分析器,与文档对象parser.set_document(doc)doc.set_parser(parser)# 提供初始化密码,如果没有密码,就创建一个空的字符串doc.initialize()# 检测文档是否提供txt转换,不提供就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:# 创建PDF,资源管理器,来共享资源rsrcmgr = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()device = PDFPageAggregator(rsrcmgr, laparams=laparams)# 创建一个PDF解释其对象interpreter = PDFPageInterpreter(rsrcmgr, device)# 循环遍历列表,每次处理一个page内容# doc.get_pages() 获取page列表for page in doc.get_pages():interpreter.process_page(page)# 接受该页面的LTPage对象layout = device.get_result()# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象# 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等# 想要获取文本就获得对象的text属性,for x in layout:if (isinstance(x, LTTextBoxHorizontal)):with open(r'2.txt', 'a') as f:results = x.get_text()print(results)f.write(results + "\n")if __name__ == '__main__':parse()time2 = time.time()print("总共消耗时间为:", time2 - time1)

python读pdf/双层pdf相关推荐

  1. Python 读pdf数据写入Excel表中

    ​ ​ 活动地址:CSDN21天学习挑战赛 目录 一.Python操作PDF的库有很多 二.pdflumber作为案例讲解使用 2.安装配置 2.加载PDF 3.读取pdf文档信息 1)读取pdf文档 ...

  2. python 通过文本4对坐标生成双层pdf

    图形? 你可以使用 Matplotlib 库来生成图形.你可以使用它的 plot() 方法来绘制坐标图,然后使用 savefig() 方法将图形保存为 PDF 文件. 如果你需要生成双层 PDF 图形 ...

  3. python不可以处理pdf文件_使用 Python 处理 pdf

    使用 Python 处理 pdf 背景 最近老婆工作中碰到一些困难,总是跟我抱怨工作好烦,不开心. 主要是是因为要处理一些报告,这些 pdf 格式的样本报告比较多,基本都是人工操作比较容易出错,也比较 ...

  4. python使用fpdf创建pdf文件包含:页眉、页脚并嵌入logo图片、设置使用中文字体

    python使用fpdf创建pdf文件包含:页眉.页脚并嵌入logo图片.设置使用中文字体 #python使用fpdf创建页眉.页脚并嵌入logo图片.设置使用中文字体 from fpdf impor ...

  5. python使用fpdf生成pdf文件章节(chapter),包含:页眉、页脚、章节主题、数据排版等;

    python使用fpdf生成pdf文件章节(chapter),包含:页眉.页脚.章节主题.数据排版等: #仿真数据 The year 1866 was marked by a bizarre deve ...

  6. python使用fpdf生成pdf章节(chapter)文件包含:页眉、页脚、章节主体、章节内容等;

    python使用fpdf生成pdf章节(chapter)文件包含:页眉.页脚.章节主体.章节内容等: 目录

  7. python使用fpdf生成pdf文件:配置多种语言字体写入多种文字

    python使用fpdf生成pdf文件:配置多种语言字体写入多种文字 目录

  8. python使用fpdf创建pdf并写入hello world

    python使用fpdf创建pdf并写入hello world from fpdf import FPDF # 创建pdf并写入hello world文本内容: from fpdf import FP ...

  9. python处理pdf文件_好玩的Python 篇一:用Python显示和处理PDF文件

    好玩的Python 篇一:用Python显示和处理PDF文件 2020-05-25 00:20:30 0点赞 0收藏 0评论 pdf是电子书,文档经常会用的格式,除了下载各种阅读器以外,我们也可以用P ...

  10. python 读取文件读出来是什么格式-深入学习python解析并读取PDF文件内容的方法...

    这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

最新文章

  1. jQuery的Prettydate插件
  2. 朱林北京大学计算机学院,北大、清华状元谈英语学习经验-20210411145045.docx-原创力文档...
  3. war包部署-打包测试
  4. java类的定义的实例_《Java基础知识》Java类的定义及其实例化
  5. 求你了,别再说Java对象都是在堆内存上分配空间的了!
  6. 一个软件网络连接异常_你的电脑运转正常吗?这 10 款系统监控软件能告诉你答案...
  7. postman发送HTTP请求自动生成MD5签名
  8. xftp5安装注册教程
  9. php cookie防伪造,技术分享:Cookie 防伪造 防修改
  10. 人群与网络:新事物在网络中的扩散
  11. linux 检验md5命令,linux命令行校验工具md5sum
  12. 计算机设备管理器驱动,设备管理器安装驱动程序的详细教程
  13. ppt模板怎样用到html中,教你如何自己制作PPT模板及使用模板方法图文介绍
  14. 电信 网通 铁通 DNS服务器IP地址
  15. MySQL varchar类型可以存储多少个汉字
  16. 链栈的数据结构以及链栈的实现
  17. java判断值是枚举类型?
  18. STM32中断分配——抢占优先级与响应优先级
  19. socket是什么?套接字是什么?
  20. 蓝桥杯模拟题.花园灌溉(bfs)

热门文章

  1. 最值得收藏的 算法分析与设计 全部知识点思维导图整理(北大慕课课程)
  2. 迈信EP100伺服驱动器量产型修改bug全套C源代码和硬件
  3. Typecho单栏式Major主题模板V1.8
  4. 基于python flask的网上商城源码 mysql数据库
  5. 爬虫实战(二)之登录百度云盘
  6. 小米浏览器导出html,小米浏览器离线视频如何导出 小米浏览器离线视频导出教程...
  7. c语言城市交通灯优化,城市智能交通灯系毕业设计论文.doc
  8. 5%和1%精度的贴片电阻标称阻值表
  9. TCP 和 UDP 区别
  10. 计算机中文无敌版,与电脑下象棋无敌版