文章目录

  • 前言
  • 一、fitz库是什么?
  • 二、安装fitz库
  • 三、查看fitz库版本
  • 四、pymupdf库是什么?
  • 五、安装pymupdf库
  • 六、查看pymupdf库版本
  • 七、fitz和pymupdf是什么关系?
  • 八、提取pdf中的图片
    • 1.引入库
    • 2.定义pdf路径
    • 3.打开PDF文件
    • 4.遍历所有页面
    • 5.获取页面上所有图像
    • 6.遍历所有图像
    • 7.获取图像的XREF编号和图像数据
    • 8.如果图像是RGB颜色空间,则保存为PNG文件
  • 总结
    • pdf
    • 提取图片效果

前言

大家好,我是空空star,本篇给大家分享一下《通过Python的fitz库提取pdf中的图片》

一、fitz库是什么?

Fitz库是一个Python图像处理库,主要用于打开、编辑和保存PDF、TIFF和JPEG格式的图像。它可以帮助用户读取和写入PDF文件,提取PDF页面以及在页面上进行标记和注释。此外,Fitz库还提供了一些图像处理功能,如旋转、裁剪、缩放、调整亮度、对比度和色彩平衡等。这些功能使得Fitz库成为一个非常实用的图像处理工具。

二、安装fitz库

pip install fitz

三、查看fitz库版本

pip show fitz

Name: fitz
Version: 0.0.1.dev2
Summary: Fitz: Workflow Mangement for neuroimaging data.
Home-page: http://github.com/kastman/fitz
Author: Erik Kastman
Author-email: erik.kastman@gmail.com
License: BSD (3-clause)
Requires: configobj, configparser, httplib2, nibabel, nipype, numpy, pandas, pyxnat, scipy
Required-by:

四、pymupdf库是什么?

使用fitz,需要安装pymupdf库。

PyMuPDF 是一个基于 Python 的开源 PDF 处理库,提供了一系列的 PDF 文档处理功能,如读取、编辑、创建、转换等。它是 MuPDF 的 Python 绑定,MuPDF 是一款轻量级的开源 PDF 文档渲染引擎,支持多种平台和多种文件格式。
PyMuPDF 具有快速、高效、简单易用等特点,可以用于 PDF 文档的自动化处理和批量处理,比如提取文本、提取图片、添加或修改书签、添加或修改注释、合并 PDF 文件、切割 PDF 文件、提取 PDF 页面等。同时,它还支持 PDF 渲染成图片,方便快速预览和生成缩略图。
总之,PyMuPDF 是一个非常实用的 Python PDF 处理库,适用于多种场景,如数据处理、文档处理、自动化办公等。

五、安装pymupdf库

pip install pymupdf

六、查看pymupdf库版本

pip show pymupdf

Name: PyMuPDF
Version: 1.22.3
Summary: Python bindings for the PDF toolkit and renderer MuPDF
Home-page: https://github.com/pymupdf/PyMuPDF
Author: Artifex
Author-email: support@artifex.com
License: GNU AFFERO GPL 3.0
Requires:
Required-by:

七、fitz和pymupdf是什么关系?

fitz 是 Pymupdf 库的一个模块,它是 Pymupdf 的主要模块之一,也是最常用的模块。fitz 模块提供了对 PDF 文档的基本操作,如打开、读取、编辑、保存等。

八、提取pdf中的图片

1.引入库

import fitz

2.定义pdf路径

local = '/Users/kkstar/Downloads/'

3.打开PDF文件

pdf_doc = fitz.open(local+'demo_pic.pdf')

4.遍历所有页面

for pg in range(pdf_doc.page_count):page = pdf_doc[pg]

5.获取页面上所有图像

    image_list = page.get_images()

6.遍历所有图像

    for img in image_list:

7.获取图像的XREF编号和图像数据

        xref = img[0]pix = fitz.Pixmap(pdf_doc, xref)

8.如果图像是RGB颜色空间,则保存为PNG文件

        if str(fitz.csRGB) == str(pix.colorspace):img_path = local + f'image{pg+1}_{xref}.png'pix.save(img_path)

总结

pdf

提取图片效果

通过Python的fitz库提取pdf中的图片相关推荐

  1. 通过Python的pdfplumber库提取pdf中表格数据

    文章目录 前言 一.pdfplumber库是什么? 二.安装pdfplumber库 三.查看pdfplumber库版本 四.提取pdf中表格数据 1.引入库 2.定义pdf文件路径 3.打开pdf文件 ...

  2. python自动化系列之提取pdf文字和图片

    在python中有许多开源的库可以处理Pdf文档,最常用的Pypdf2库可以读取文档,合并,分割pdf文档,但是也有局限性: 无法提取文档中的文字 提取PDF文字需要使用另外的库,如pdfplumbe ...

  3. C# Pdf转Png,提取Pdf中的图片

    把Pdf转为图片png格式 命名空间: using Aspose.Pdf; using System.IO; using Aspose.Pdf.Devices; 需要NuGet的包:Aspose.Pd ...

  4. Java 添加、提取PDF中的图片

    Spire.Cloud.SDK for Java提供了PdfImagesApi接口可用于添加图片到PDF文档addImage().提取PDF中的图片extractImages(),具体操作步骤和Jav ...

  5. 三种方法,Python轻松提取PDF中全部图片

    有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定! 今天就跟大家系统分享几种Python提取 PDF ...

  6. python提取pdf中的图片_PDF图片提取

    本文作者:王碧琪 文字编辑:戴 雯 技术总编:张 邯 之前我们使用pymupdf提取了PDF文档中的文本信息,那么对于图片信息,也可以进行一波提取.今天我们一起来试试. 一.简介 待提取PDF文档&q ...

  7. python提取pdf中的图片_提取PDF中内容(表格篇)

    由于(质量优质)PDF较好的阅读性,工作当中难免有文件使用PDF格式保存和流通的.但是由于PDF过于追求视觉的享受,所以在编辑其内容元素上相较微软office系列的确困难.不时会碰到看的到内容却难以直 ...

  8. 【python自动化办公(10)】python利用pdfplumber库提取PDF文字以及表格内容(复杂表格字段数据的处理)

    利用pdfplumber提取文字 pdfplumber.open(pdf路径)/pdf.pages[页数]/page.extract_text() import os os.chdir('D:\\py ...

  9. Python提取PDF中的文字和图片

    一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...

最新文章

  1. C语言 数组(做个笔记)
  2. 【转载】关于幂律分布的一个笔记
  3. 计算机维修工国家职业标准,计算机维修工国家职业标准.pdf
  4. [Java 安全]加密算法
  5. 【JZOJ4964】【GDKOI2017模拟1.21】Rhyme
  6. java web容器_Java Web容器安全
  7. model里使用汉字页面崩掉
  8. ASP.NET Application,Session,Cookie和ViewState等对象用法和区别
  9. android gui工具,搞机助手简约易用的安卓ADB GUI玩机工具箱
  10. Sublime Text 2 - 性感无比的代码编辑器!程序员必备神器!跨平台支持Win/Mac/Linux...
  11. Java中Switch-Case用法小结
  12. 软件工程专业职业规划发展路线
  13. 七夕甜蜜限定,让你心动不止一点点~
  14. Redis 大键值对 Big Key 懒惰删除机制
  15. Kafka集群的安全认证机构 SASL_SCRAM
  16. 也碰到了刷新后再闪烁的问题
  17. pandas网络爬虫(一)
  18. 矩阵思维是什么?百度百科矩阵怎么创建自己看?内含度爷矩阵思维导图模型
  19. 与音乐的计算机职业生涯规划书,音乐专业职业规划书-
  20. 23种设计模式7_代理模式之一静态代理

热门文章

  1. Git绑定Gitee邮箱
  2. git修改本地用户名和邮箱及其他命令使用
  3. Spring Boot + EasyExcel导入导出,简直太好用了!
  4. BUFF80双模蓝牙5.2热插拔PCB
  5. 1007 素数对猜想 (20 分)测试点
  6. 赚钱,要想方设法搞被动收入
  7. 2020 kali linux KDE桌面安装+美化
  8. 【CSP-J近16年历年真题64题】真题训练与解析 第1题之分糖果
  9. prometheus-rate、irate、increase函数使用场景
  10. Linux C/C++编程之(十九)进程组守护进程