【教程】Spire.PDF教程:C# 如何提取 PDF 文档中的文本和图片
Spire.PDF是一个专业的PDF组件,能够独立地创建、编写、编辑、操作和阅读PDF文件,支持 .NET、Java、WPF和Silverlight。
【下载Spire.PDF最新试用版】
文本和图片是PDF文档的重要组成部分。本文将介绍如何通过编程的方式使用Spire.PDF C#获取PDF文档中的文本和图片并保存到本地路径。
提取PDF文档中的文本
//实例化一个PdfDocument对象 PdfDocument doc = new PdfDocument();//加载PDF文档 doc.LoadFromFile("测试文档.pdf");//实例化一个StringBuilder 对象 StringBuilder content = new StringBuilder();//提取PDF所有页面的文本 foreach (PdfPageBase page in doc.Pages) {content.Append(page.ExtractText()); }//将提取到的文本写为.txt格式并保存到本地路径 String fileName = "获取文本.txt"; File.WriteAllText(fileName, content.ToString());
提取 PDF 文档中的图片
//加载PDF文档 PdfDocument doc = new PdfDocument(); doc.LoadFromFile("测试文档.pdf");List<Image> ListImage = new List<Image>();for (int i = 0; i < doc.Pages.Count; i++) {// 实例化一个Spire.Pdf.PdfPageBase对象 PdfPageBase page = doc.Pages[i];// 获取所有pages里面的图片Image[] images = page.ExtractImages();if (images != null && images.Length > 0){ListImage.AddRange(images);}}// 将提取到的图片保存到本地路径 if (ListImage.Count > 0) {for (int i = 0; i < ListImage.Count; i++){Image image = ListImage[i];image.Save("image" + (i + 1).ToString() + ".png", System.Drawing.Imaging.ImageFormat.Png);}}
效果图:
查看冰蓝更多产品教程,为你推荐:
Spire.Doc系列教程>>
Spire.XLS系列教程>>
【教程】Spire.PDF教程:C# 如何提取 PDF 文档中的文本和图片相关推荐
- Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址
推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...
- Word控件Spire.Doc 【文本】教程(5) ;从 Word 文档中的文本框中提取文本
文本框的目的是允许用户输入程序要使用的文本信息.也可以从文本框中提取现有的文本信息.以下指南重点介绍如何通过Spire.Doc for .NET从 C# 中 Word 文档的文本框中提取文本. Spi ...
- Word控件Spire.Doc 【Table】教程(7): 如何在C#中用表格替换word文档中的文本
Spire.Doc for .NET 是一款专门对 Word 文档进行操作的 .NET 类库.在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建.编辑.转换和打印 Mic ...
- Word控件Spire.Doc 【页面背景】教程(9) ;C#/VB.NET:从 Word 文档中删除文本或图像水印
可以将水印添加到 Word 文档中,以告知其他人文档的所有权或状态.有时,您可能希望删除 Word 文档中的现有水印.本文将演示如何使用Spire.Doc for .NET从 C# 和 VB.NET ...
- 使用pymupdf获取pdf文档中的文本下划线信息(全网唯一解决方案)
1,问题描述 最近,公司需要对一批pdf文档进行解析,获取其中文字,并再展示到前端页面上.如果单纯地提取文字,其实非常容易,但麻烦的在于保存原有文档中的文本格式,例如加粗.斜体.下划线,以及三者的各种 ...
- C# 提取Word文档中的图片(用Spire)
C# 提取Word文档中的图片 图片和文字是word文档中两种最常见的对象,在微软word中,如果我们想要提取出一个文档内的图片,只需要右击图片选择另存为然后命名保存就可以了,今天这篇文章主要是实现使 ...
- html5多个图片位置_Python使用标准库zipfile提取docx文档中所有图片
清华科技大讲堂免费直播课预告: 免费直播课|Python数据可视化与科学计算可视化案例分享,5月28日晚20:00-21:30============ 哔哩哔哩网站免费视频观看地址: 董老师在哔哩哔哩 ...
- Python使用标准库zipfile提取docx文档中所有图片
清华科技大讲堂免费直播课预告: 免费直播课|Python数据可视化与科学计算可视化案例分享,5月28日晚20:00-21:30 ============ 哔哩哔哩网站免费视频观看地址: 董老师在哔哩哔 ...
- 办公室小姐姐的福利!用Python批量提取word文档中的表格和图片内容
点上方"菜鸟学Python",选择"星标" 第491篇原创干货,第一时间送达 最近有许多小伙伴想要一些自动化办公的福利小程序,今天就满足大家的需求.日常的办公过 ...
最新文章
- UITableView 局部刷新
- c语言习题与实验doc,[教材]C语言程序设计习题与上机实验(全部答案).doc
- ado数据处理超时限制
- Gartner:容器采用将迅速增长,但不会很快有利可图
- linux两个命令一起,paste命令 – 合并两个文件
- linux : ulimit 命令使用说明、参数解说
- sql获取日期相差天数oracle,找到oracle sql中两个日期之间的经过时间
- 2019.7.23整理记录以及四道题
- 【转自Mgen】 .NET(C#):谈谈各种结束进程的方法
- NSIS:IfFileExists+Goto实现简单跳转
- ubuntu安装tomcat7
- 2019最新领航Java机器人项目开发之人工智能项目实战(完整)
- Alias Piping Solutions系列工厂设计软件
- 汉字、图形,Zebra打印机完全解决方案
- weka下载安装以及源码运行
- snipaste如何滚动截图_试用了20个截图工具,我写下这份超全的软件指南。?
- 面试经验之阿里暑期实习
- 【音乐】基于matlab演奏《天空之城》【含Matlab源码 1874期】
- 摄影曝光基础——光圈、快门、ISO
- 唯品会 Dragonfly 日志系统的 Elasticsearch 实践
热门文章
- saas系统和php mysql的区别_saas系统和传统erp的区别是什么?
- 软件工程——数据流图
- 1.5 人工智能迅速发展的技术领域
- Maya_to_Unity工作流程
- 关于linux python3.7版本 No module named ‘_ssl‘报错
- BUUCTF之[Zer0pts2020]Can you guess it? basename函数绕过
- Gmail:如何撤回发出的邮件?
- 关于BIOS加载BOOT.S的经典解答
- 在线客服机器人交互功能开发总结
- Sprite Atlas与Sprite Mask详解