python PDF 转 图片 fitz库

代码

import fitz
import time
import re
import os
def pdf2image(pdf_path):   '''# 从pdf中提取图片:param path: pdf的路径:param pic_path: 图片保存的路径:return:'''# 生成图片初始时间t0 = time.clock()# 使用正则表达式来查找图片checkXO = r"/Type(?= */XObject)" checkIM = r"/Subtype(?= */Image)"  # 打开pdfdoc = fitz.open(pdf_path)# 图片计数imgcount = 0lenXREF = doc._getXrefLength()# 打印PDF的信息print("pdf路径:{}, 页数: {}, 对象: {}".format(pdf_path, len(doc), lenXREF - 1))# 遍历每一个对象for i in range(1, lenXREF):# 定义对象字符串text = doc._getXrefString(i)isXObject = re.search(checkXO, text)# 使用正则表达式查看是否是图片isImage = re.search(checkIM, text)# 如果不是对象也不是图片,则continueif not isXObject or not isImage:continueimgcount += 1# 根据索引生成图像pix = fitz.Pixmap(doc, i)# 根据pdf的路径生成图片的名称#     new_name = path.replace('\\', '-') + "_img{}.png".format(imgcount)png_path = pdf_path.replace("pdf","png")print("图片路径:",png_path)# 如果pix.n<5,可以直接存为PNGif pix.n < 5:pix.writePNG(png_path)# 否则先转换CMYKelse:pix0 = fitz.Pixmap(fitz.csRGB, pix)pix0.writePNG(png_path)pix0 = None# 释放资源pix = Nonet1 = time.clock()print("运行时间:{}s".format(t1 - t0))print("提取了{}张图片".format(imgcount))return png_pathif __name__ == '__main__':# pdf_path:pdf文件路径pdf_path = r"C:\Users\xiahuadong\Desktop\PDF文字矫正代码\20200310c国发\20200310c国发0007.pdf"pdf2image(pdf_path)

python PDF 转 图片相关推荐

  1. python pdf 转 图片、pdf 转 word、 word 转 pdf

    python pdf 转 图片.pdf 转 word. word 转 pdf 文章目录 python pdf 转 图片.pdf 转 word. word 转 pdf 前言 一.环境 二.api文档 三 ...

  2. python pdf删除图片_【原创】python批量删除pdf图片水印(Xobject)的一种方法

    1.说明: 下载到的pdf总会有一些水印,pdf文件水印添加方式除了acrobat adobe自带的以外,还有很多,所以去除水印方法也很多,这里介绍的也只是一种适用python批量删除图片水印Xobj ...

  3. python pdf与图片互转

    背景 PDF转图片网上免费的只能转三次,多次的要么下载安装,要么收费.故自己写代码转换. 环境 1.安装python 2. 安装工具包 pip install PyMuPDF pip install ...

  4. python pdf和图片互转

    1.安装两个包 pip install PyMuPDF==1.18.17 PySimpleGUI==4.47.0 2.pdf转图片 import fitzdef pdf2img(pdf_path, i ...

  5. python pdf处理 图片_python PDF文件合并、图片处理

    一.合并多个PDF文件 实例: #导入模块import codecs import os import PyPDF2 as PyPDF2 #建立一个装pdf文件的数组 files = list()#遍 ...

  6. python pdf转图片 poppler_Python将PDF转成图片—PyMuPDF和pdf2image

    前言:在最近的测试中遇到一个与PDF相关的测试需求,其中有一个过程是将PDF转换成图片,然后对图片进行测试. 粗略的试了好几种方式,其中语言尝试了Python和Java,总体而言所找到的Python方 ...

  7. python pdf处理 图片_Python 将pdf转换成txt(不处理图片)

    上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要.查找了很多资料,在linux下要将d ...

  8. python pdf处理 图片_在Python中从PDF提取图像而无需重新采样?

    在带有用于CCITTFaxDecode过滤器的PyPDF2的Python中: import PyPDF2 import struct """ Links: PDF for ...

  9. python pdf删除图片_使用PyMuPdf提取、删除及替换PDF中的图片文件

    有时候想把PDF中的图片文件提取出来,身为程序员的我当然是自己写段代码来实现,先看看了网上的方法,都是逐行遍历,正则匹配来提取什么的,其实没有那么复杂,PyMuPdf官方文档里自带就有提取图片文件的方 ...

最新文章

  1. 建立名称server
  2. 《梦醒黄金城》主创暨明星见面会举办 预计2019年完成拍摄
  3. Android线程池封装库
  4. PLSQL9.0下载及配置oracle,PLSQL登录时常见问题解决
  5. centos7设置成文件服务器,CentOS7服务器架设ftp过程
  6. 8位可控加减法电路设计_高级工程师:相同的地线GND,却有不同的电路设计含义...
  7. python生成指定长度的列表_如何在python中创建固定大小列表?
  8. [Java]Socket和ServerSocket学习笔记
  9. oracle 9i/10g/11g(11.2.0.3)安装包和PATCH下载地址汇总
  10. [ Linux ] 连接FTP及FTP常用配置
  11. 利用Python生成钢琴音色
  12. xhr的get和post请求的简单实现
  13. 「硬见小百科」很全的二极管干货
  14. python爬取起点中文网_Python3爬取起点中文网阅读量信息,解决文字反爬~~~附源代码...
  15. Mac系统升级后开发者证书不被信任,报错/usr/bin/codesign --force --sign
  16. nyoj54小明的存钱计划
  17. 对视图有时为什么使用select top 100 percent * 而不使用 select * 呢?
  18. 联盟平台开屏广告收入大减,APP开发者应如何应对?
  19. Spring Cloud深入浅出
  20. “云脉文档管理”微信小程序提供高效的办公体验

热门文章

  1. OpenCV java 图像基本处理-模糊 (8)
  2. 前端页面如何引入公用的页面header和footer
  3. java Character类的一些简单的方法
  4. 3D视觉原理之深度暗示(即立体感)
  5. windows系统下的Qt安装
  6. NLP(1) | 词向量one hot编码词向量编码思想
  7. 基于概率论的生成式建模新模式
  8. java 挂钩子_挂钩组件
  9. NBT:主流高通量测序仪在人/细菌/宏基因组测序评测结果发布,华大智造表现优异...
  10. ISME:沈农栾军波组揭示水平转移基因的功能