Spire.PDF是一个专业的PDF组件,能够独立地创建、编写、编辑、操作和阅读PDF文件,支持 .NET、Java、WPF和Silverlight。

下载Spire.PDF最新试用版

文本和图片是PDF文档的重要组成部分。本文将介绍如何通过编程的方式使用Spire.PDF C#获取PDF文档中的文本和图片并保存到本地路径。

提取PDF文档中的文本

//实例化一个PdfDocument对象
PdfDocument doc = new PdfDocument();//加载PDF文档
doc.LoadFromFile("测试文档.pdf");//实例化一个StringBuilder 对象
StringBuilder content = new StringBuilder();//提取PDF所有页面的文本
foreach (PdfPageBase page in doc.Pages)
{content.Append(page.ExtractText());
}//将提取到的文本写为.txt格式并保存到本地路径
String fileName = "获取文本.txt";
File.WriteAllText(fileName, content.ToString());

提取 PDF 文档中的图片

//加载PDF文档
PdfDocument doc = new PdfDocument();
doc.LoadFromFile("测试文档.pdf");List<Image> ListImage = new List<Image>();for (int i = 0; i < doc.Pages.Count; i++)
{// 实例化一个Spire.Pdf.PdfPageBase对象
PdfPageBase page = doc.Pages[i];// 获取所有pages里面的图片Image[] images = page.ExtractImages();if (images != null && images.Length > 0){ListImage.AddRange(images);}}// 将提取到的图片保存到本地路径
if (ListImage.Count > 0)
{for (int i = 0; i < ListImage.Count; i++){Image image = ListImage[i];image.Save("image" + (i + 1).ToString() + ".png", System.Drawing.Imaging.ImageFormat.Png);}}

效果图:

查看冰蓝更多产品教程,为你推荐:

Spire.Doc系列教程>>

Spire.XLS系列教程>>

【教程】Spire.PDF教程:C# 如何提取 PDF 文档中的文本和图片相关推荐

  1. Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址

    推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...

  2. Word控件Spire.Doc 【文本】教程(5) ;从 Word 文档中的文本框中提取文本

    文本框的目的是允许用户输入程序要使用的文本信息.也可以从文本框中提取现有的文本信息.以下指南重点介绍如何通过Spire.Doc for .NET从 C# 中 Word 文档的文本框中提取文本. Spi ...

  3. Word控件Spire.Doc 【Table】教程(7): 如何在C#中用表格替换word文档中的文本

    Spire.Doc for .NET 是一款专门对 Word 文档进行操作的 .NET 类库.在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建.编辑.转换和打印 Mic ...

  4. Word控件Spire.Doc 【页面背景】教程(9) ;C#/VB.NET:从 Word 文档中删除文本或图像水印

    可以将水印添加到 Word 文档中,以告知其他人文档的所有权或状态.有时,您可能希望删除 Word 文档中的现有水印.本文将演示如何使用Spire.Doc for .NET从 C# 和 VB.NET ...

  5. 使用pymupdf获取pdf文档中的文本下划线信息(全网唯一解决方案)

    1,问题描述 最近,公司需要对一批pdf文档进行解析,获取其中文字,并再展示到前端页面上.如果单纯地提取文字,其实非常容易,但麻烦的在于保存原有文档中的文本格式,例如加粗.斜体.下划线,以及三者的各种 ...

  6. C# 提取Word文档中的图片(用Spire)

    C# 提取Word文档中的图片 图片和文字是word文档中两种最常见的对象,在微软word中,如果我们想要提取出一个文档内的图片,只需要右击图片选择另存为然后命名保存就可以了,今天这篇文章主要是实现使 ...

  7. html5多个图片位置_Python使用标准库zipfile提取docx文档中所有图片

    清华科技大讲堂免费直播课预告: 免费直播课|Python数据可视化与科学计算可视化案例分享,5月28日晚20:00-21:30============ 哔哩哔哩网站免费视频观看地址: 董老师在哔哩哔哩 ...

  8. Python使用标准库zipfile提取docx文档中所有图片

    清华科技大讲堂免费直播课预告: 免费直播课|Python数据可视化与科学计算可视化案例分享,5月28日晚20:00-21:30 ============ 哔哩哔哩网站免费视频观看地址: 董老师在哔哩哔 ...

  9. 办公室小姐姐的福利!用Python批量提取word文档中的表格和图片内容

    点上方"菜鸟学Python",选择"星标" 第491篇原创干货,第一时间送达 最近有许多小伙伴想要一些自动化办公的福利小程序,今天就满足大家的需求.日常的办公过 ...

最新文章

  1. UITableView 局部刷新
  2. c语言习题与实验doc,[教材]C语言程序设计习题与上机实验(全部答案).doc
  3. ado数据处理超时限制
  4. Gartner:容器采用将迅速增长,但不会很快有利可图
  5. linux两个命令一起,paste命令 – 合并两个文件
  6. linux : ulimit 命令使用说明、参数解说
  7. sql获取日期相差天数oracle,找到oracle sql中两个日期之间的经过时间
  8. 2019.7.23整理记录以及四道题
  9. 【转自Mgen】 .NET(C#):谈谈各种结束进程的方法
  10. NSIS:IfFileExists+Goto实现简单跳转
  11. ubuntu安装tomcat7
  12. 2019最新领航Java机器人项目开发之人工智能项目实战(完整)
  13. Alias Piping Solutions系列工厂设计软件
  14. 汉字、图形,Zebra打印机完全解决方案
  15. weka下载安装以及源码运行
  16. snipaste如何滚动截图_试用了20个截图工具,我写下这份超全的软件指南。?
  17. 面试经验之阿里暑期实习
  18. 【音乐】基于matlab演奏《天空之城》【含Matlab源码 1874期】
  19. 摄影曝光基础——光圈、快门、ISO
  20. 唯品会 Dragonfly 日志系统的 Elasticsearch 实践

热门文章

  1. saas系统和php mysql的区别_saas系统和传统erp的区别是什么?
  2. 软件工程——数据流图
  3. 1.5 人工智能迅速发展的技术领域
  4. Maya_to_Unity工作流程
  5. 关于linux python3.7版本 No module named ‘_ssl‘报错
  6. BUUCTF之[Zer0pts2020]Can you guess it? basename函数绕过
  7. Gmail:如何撤回发出的邮件?
  8. 关于BIOS加载BOOT.S的经典解答
  9. 在线客服机器人交互功能开发总结
  10. Sprite Atlas与Sprite Mask详解