python PDF 转图片 fitz库

代码

import fitz
import time
import re
import os
def pdf2image(pdf_path):   '''# 从pdf中提取图片:param path: pdf的路径:param pic_path: 图片保存的路径:return:'''# 生成图片初始时间t0 = time.clock()# 使用正则表达式来查找图片checkXO = r"/Type(?= */XObject)" checkIM = r"/Subtype(?= */Image)"  # 打开pdfdoc = fitz.open(pdf_path)# 图片计数imgcount = 0lenXREF = doc._getXrefLength()# 打印PDF的信息print("pdf路径:{}, 页数: {}, 对象: {}".format(pdf_path, len(doc), lenXREF - 1))# 遍历每一个对象for i in range(1, lenXREF):# 定义对象字符串text = doc._getXrefString(i)isXObject = re.search(checkXO, text)# 使用正则表达式查看是否是图片isImage = re.search(checkIM, text)# 如果不是对象也不是图片，则continueif not isXObject or not isImage:continueimgcount += 1# 根据索引生成图像pix = fitz.Pixmap(doc, i)# 根据pdf的路径生成图片的名称#     new_name = path.replace('\\', '-') + "_img{}.png".format(imgcount)png_path = pdf_path.replace("pdf","png")print("图片路径:",png_path)# 如果pix.n<5,可以直接存为PNGif pix.n < 5:pix.writePNG(png_path)# 否则先转换CMYKelse:pix0 = fitz.Pixmap(fitz.csRGB, pix)pix0.writePNG(png_path)pix0 = None# 释放资源pix = Nonet1 = time.clock()print("运行时间:{}s".format(t1 - t0))print("提取了{}张图片".format(imgcount))return png_pathif __name__ == '__main__':# pdf_path：pdf文件路径pdf_path = r"C:\Users\xiahuadong\Desktop\PDF文字矫正代码\20200310c国发\20200310c国发0007.pdf"pdf2image(pdf_path)

python PDF 转图片相关推荐

python pdf 转图片、pdf 转 word、 word 转 pdf
python pdf 转图片.pdf 转 word. word 转 pdf 文章目录 python pdf 转图片.pdf 转 word. word 转 pdf 前言一.环境二.api文档三 ...
python pdf删除图片_【原创】python批量删除pdf图片水印（Xobject）的一种方法
1.说明: 下载到的pdf总会有一些水印,pdf文件水印添加方式除了acrobat adobe自带的以外,还有很多,所以去除水印方法也很多,这里介绍的也只是一种适用python批量删除图片水印Xobj ...
python pdf与图片互转
背景 PDF转图片网上免费的只能转三次,多次的要么下载安装,要么收费.故自己写代码转换. 环境 1.安装python 2. 安装工具包 pip install PyMuPDF pip install ...
python pdf和图片互转
1.安装两个包 pip install PyMuPDF==1.18.17 PySimpleGUI==4.47.0 2.pdf转图片 import fitzdef pdf2img(pdf_path, i ...
python pdf处理图片_python PDF文件合并、图片处理
一.合并多个PDF文件实例: #导入模块import codecs import os import PyPDF2 as PyPDF2 #建立一个装pdf文件的数组 files = list()#遍 ...
python pdf转图片 poppler_Python将PDF转成图片—PyMuPDF和pdf2image
前言:在最近的测试中遇到一个与PDF相关的测试需求,其中有一个过程是将PDF转换成图片,然后对图片进行测试. 粗略的试了好几种方式,其中语言尝试了Python和Java,总体而言所找到的Python方 ...
python pdf处理图片_Python 将pdf转换成txt（不处理图片）
上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要.查找了很多资料,在linux下要将d ...
python pdf处理图片_在Python中从PDF提取图像而无需重新采样？
在带有用于CCITTFaxDecode过滤器的PyPDF2的Python中: import PyPDF2 import struct """ Links: PDF for ...
python pdf删除图片_使用PyMuPdf提取、删除及替换PDF中的图片文件
有时候想把PDF中的图片文件提取出来,身为程序员的我当然是自己写段代码来实现,先看看了网上的方法,都是逐行遍历,正则匹配来提取什么的,其实没有那么复杂,PyMuPdf官方文档里自带就有提取图片文件的方 ...

python PDF 转图片

python PDF 转图片 fitz库

代码

python PDF 转图片相关推荐

最新文章

热门文章

python PDF 转 图片

python PDF 转 图片 fitz库

代码

python PDF 转 图片相关推荐

最新文章

热门文章

python PDF 转图片

python PDF 转图片 fitz库

python PDF 转图片相关推荐