python PDF 转 图片
python PDF 转 图片 fitz库
代码
import fitz
import time
import re
import os
def pdf2image(pdf_path): '''# 从pdf中提取图片:param path: pdf的路径:param pic_path: 图片保存的路径:return:'''# 生成图片初始时间t0 = time.clock()# 使用正则表达式来查找图片checkXO = r"/Type(?= */XObject)" checkIM = r"/Subtype(?= */Image)" # 打开pdfdoc = fitz.open(pdf_path)# 图片计数imgcount = 0lenXREF = doc._getXrefLength()# 打印PDF的信息print("pdf路径:{}, 页数: {}, 对象: {}".format(pdf_path, len(doc), lenXREF - 1))# 遍历每一个对象for i in range(1, lenXREF):# 定义对象字符串text = doc._getXrefString(i)isXObject = re.search(checkXO, text)# 使用正则表达式查看是否是图片isImage = re.search(checkIM, text)# 如果不是对象也不是图片,则continueif not isXObject or not isImage:continueimgcount += 1# 根据索引生成图像pix = fitz.Pixmap(doc, i)# 根据pdf的路径生成图片的名称# new_name = path.replace('\\', '-') + "_img{}.png".format(imgcount)png_path = pdf_path.replace("pdf","png")print("图片路径:",png_path)# 如果pix.n<5,可以直接存为PNGif pix.n < 5:pix.writePNG(png_path)# 否则先转换CMYKelse:pix0 = fitz.Pixmap(fitz.csRGB, pix)pix0.writePNG(png_path)pix0 = None# 释放资源pix = Nonet1 = time.clock()print("运行时间:{}s".format(t1 - t0))print("提取了{}张图片".format(imgcount))return png_pathif __name__ == '__main__':# pdf_path:pdf文件路径pdf_path = r"C:\Users\xiahuadong\Desktop\PDF文字矫正代码\20200310c国发\20200310c国发0007.pdf"pdf2image(pdf_path)
python PDF 转 图片相关推荐
- python pdf 转 图片、pdf 转 word、 word 转 pdf
python pdf 转 图片.pdf 转 word. word 转 pdf 文章目录 python pdf 转 图片.pdf 转 word. word 转 pdf 前言 一.环境 二.api文档 三 ...
- python pdf删除图片_【原创】python批量删除pdf图片水印(Xobject)的一种方法
1.说明: 下载到的pdf总会有一些水印,pdf文件水印添加方式除了acrobat adobe自带的以外,还有很多,所以去除水印方法也很多,这里介绍的也只是一种适用python批量删除图片水印Xobj ...
- python pdf与图片互转
背景 PDF转图片网上免费的只能转三次,多次的要么下载安装,要么收费.故自己写代码转换. 环境 1.安装python 2. 安装工具包 pip install PyMuPDF pip install ...
- python pdf和图片互转
1.安装两个包 pip install PyMuPDF==1.18.17 PySimpleGUI==4.47.0 2.pdf转图片 import fitzdef pdf2img(pdf_path, i ...
- python pdf处理 图片_python PDF文件合并、图片处理
一.合并多个PDF文件 实例: #导入模块import codecs import os import PyPDF2 as PyPDF2 #建立一个装pdf文件的数组 files = list()#遍 ...
- python pdf转图片 poppler_Python将PDF转成图片—PyMuPDF和pdf2image
前言:在最近的测试中遇到一个与PDF相关的测试需求,其中有一个过程是将PDF转换成图片,然后对图片进行测试. 粗略的试了好几种方式,其中语言尝试了Python和Java,总体而言所找到的Python方 ...
- python pdf处理 图片_Python 将pdf转换成txt(不处理图片)
上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要.查找了很多资料,在linux下要将d ...
- python pdf处理 图片_在Python中从PDF提取图像而无需重新采样?
在带有用于CCITTFaxDecode过滤器的PyPDF2的Python中: import PyPDF2 import struct """ Links: PDF for ...
- python pdf删除图片_使用PyMuPdf提取、删除及替换PDF中的图片文件
有时候想把PDF中的图片文件提取出来,身为程序员的我当然是自己写段代码来实现,先看看了网上的方法,都是逐行遍历,正则匹配来提取什么的,其实没有那么复杂,PyMuPdf官方文档里自带就有提取图片文件的方 ...
最新文章
- 建立名称server
- 《梦醒黄金城》主创暨明星见面会举办 预计2019年完成拍摄
- Android线程池封装库
- PLSQL9.0下载及配置oracle,PLSQL登录时常见问题解决
- centos7设置成文件服务器,CentOS7服务器架设ftp过程
- 8位可控加减法电路设计_高级工程师:相同的地线GND,却有不同的电路设计含义...
- python生成指定长度的列表_如何在python中创建固定大小列表?
- [Java]Socket和ServerSocket学习笔记
- oracle 9i/10g/11g(11.2.0.3)安装包和PATCH下载地址汇总
- [ Linux ] 连接FTP及FTP常用配置
- 利用Python生成钢琴音色
- xhr的get和post请求的简单实现
- 「硬见小百科」很全的二极管干货
- python爬取起点中文网_Python3爬取起点中文网阅读量信息,解决文字反爬~~~附源代码...
- Mac系统升级后开发者证书不被信任,报错/usr/bin/codesign --force --sign
- nyoj54小明的存钱计划
- 对视图有时为什么使用select top 100 percent * 而不使用 select * 呢?
- 联盟平台开屏广告收入大减,APP开发者应如何应对?
- Spring Cloud深入浅出
- “云脉文档管理”微信小程序提供高效的办公体验