C# 读取PDF文本和图片
转自:https://zhuanlan.zhihu.com/p/137197267
本文介绍如何通过C#程序来读取PDF文档中的文本好图片。
所需工具:Free Spire.PDF for .NET (免费版)
代码示例(供参考)
【示例 1 】提取文本
using Spire.Pdf;
using System;
using System.IO;
using System.Text;
namespace ExtractText
{
class Program
{
static void Main(string[] args)
{
//加载文档
PdfDocument document = new PdfDocument();
document.LoadFromFile(“测试文档.pdf”);
<span class="c1">//实例化StringBuilder类,获取文本
StringBuilder content = new StringBuilder();
content.Append(document.Pages[0].ExtractText());
<span class="c1">//保存提取后的文本内容到.txt文档
String fileName = “TextFromPDF.txt”;
File.WriteAllText(fileName, content.ToString());
System.Diagnostics.Process.Start(“TextFromPDF.txt”);
}
}
}
文本提取效果:
![](https://pic3.zhimg.com/v2-5c589723480bf3ef7595f0a0e67f0876_b.jpg)
![](https://pic3.zhimg.com/80/v2-5c589723480bf3ef7595f0a0e67f0876_720w.jpg)
【示例 2 】提取图片
using System;
using System.Collections.Generic;
using System.Text;
using System.Drawing;
using Spire.Pdf;
namespace ExtractImagesFromPDF
{
class Program
{
static void Main(string[] args)
{
//实例化PdfDocument类,并加载测试文档
PdfDocument doc = new PdfDocument();
doc.LoadFromFile(“测试文档.pdf”);
<span class="c1">//实例化List类
List<Image> ListImage = new List<Image>();
for (int i = 0; i < doc.Pages.Count; i++)
{
// 获取 Spire.Pdf.PdfPageBase类对象
PdfPageBase page = doc.Pages[i];
// 提取图片
Image[] images = page.ExtractImages();
if (images != null && images.Length > 0)
{
ListImage.AddRange(images);
}
<span class="p">}</span><span class="k">if</span> <span class="p">(</span><span class="n">ListImage</span><span class="p">.</span><span class="n">Count</span> <span class="p">></span> <span class="m">0</span><span class="p">)</span><span class="p">{</span><span class="k">for</span> <span class="p">(</span><span class="kt">int</span> <span class="n">i</span> <span class="p">=</span> <span class="m">0</span><span class="p">;</span> <span class="n">i</span> <span class="p"><</span> <span class="n">ListImage</span><span class="p">.</span><span class="n">Count</span><span class="p">;</span> <span class="n">i</span><span class="p">++)</span><span class="p">{</span><span class="n">Image</span> <span class="n">image</span> <span class="p">=</span> <span class="n">ListImage</span><span class="na">[i]</span><span class="p">;</span><span class="n">image</span><span class="p">.</span><span class="n">Save</span><span class="p">(</span><span class="s">"image"</span> <span class="p">+</span> <span class="p">(</span><span class="n">i</span> <span class="p">+</span> <span class="m">1</span><span class="p">).</span><span class="n">ToString</span><span class="p">()</span> <span class="p">+</span> <span class="s">".png"</span><span class="p">,</span> <span class="n">System</span><span class="p">.</span><span class="n">Drawing</span><span class="p">.</span><span class="n">Imaging</span><span class="p">.</span><span class="n">ImageFormat</span><span class="p">.</span><span class="n">Png</span><span class="p">);</span><span class="p">}</span><span class="n">System</span><span class="p">.</span><span class="n">Diagnostics</span><span class="p">.</span><span class="n">Process</span><span class="p">.</span><span class="n">Start</span><span class="p">(</span><span class="s">"image1.png"</span><span class="p">);</span><span class="p">}</span><span class="p">}</span>
<span class="p">}</span>
}
图片提取效果:
![](https://pic3.zhimg.com/v2-22444b0baf659774a8bd42751fc2fba2_b.jpg)
![](https://pic3.zhimg.com/80/v2-22444b0baf659774a8bd42751fc2fba2_720w.jpg)
(完)
C# 读取PDF文本和图片相关推荐
- delphi使用Foxit Quick PDF Library读写pdf文本和图片
简介: Debenu Quick PDF Library(PDF编程开发工具)提供一套全方位的 PDF API 函数,帮助您快速简便地处理 PDF 文件.从文档属性的基本操作到创建您自己的 PDF 查 ...
- [转].NET下读取PDF文本
本文转自:http://blog.csdn.net/wangqiuyun/article/details/8548779 在.NET下读取PDF文本用到的类库主要有两个:PDFBox和iTextSha ...
- python怎么读取pdf为文本_python怎么读取pdf文本内容
python读取pdf文本内容的方法:首先打开相应的python脚本文件:然后使用PDFMiner工具来读取pdf文本内容:最后通过print输出读取后的内容即可. python读取pdf文本内容 p ...
- java读取pdf文本转换html
java读取pdf文本转换html 完整代码地址 也就两个文件 java读取pdf中的纯文字,这里使用的是pdfbox工具包 maven引入如下配置 <dependency><gro ...
- 初次爬虫:读取PDF转成图片,再提取图片里的文字信息
读取PDF转成图片,再提取图片里的文字信息 三步走 第一步 读取PDF并转换成图片 第二步 调用百度API来识别图片里面的文字信息 第三步 提取自己想要的文字信息 三步走 1 读取PDF,将PDF转换 ...
- java 图片识别提取_老司机帮您Java 提取/读取PDF中的图片
电脑现已成为我们工作.生活和娱乐必不可少的工具了,在使用电脑的过程中,可能会遇到Java 提取/读取PDF中的图片的问题,如果我们遇到了Java 提取/读取PDF中的图片的情况,该怎么处理怎么才能解决 ...
- 如何用PDF编辑器编辑、修改PDF文本和图片?
作为编辑PDF必不可少的软件,PDF编辑器随着PDF应用越来越广泛,被人们逐渐熟悉.使用PDF编辑器修改文字内容属于PDF编辑的一项功能,通常来说需要分两种情况对待,一种是PDF中的文字是文本,另一种 ...
- python 生成pdf 文字和图片_Python系列—PDF文本与图片抽取
PDF是人们日常使用最多的跨平台文档.其是一种用独立于应用程序.硬件.操作系统的方式呈现文档的文件格式.每个PDF文件包含固定布局的平面文档的完整描述,包括文本.字形.图形及其他需要显示的信息.具有良 ...
- java 读取ppt_Java 读取PPT文本和图片
本篇文章将介绍通过Java程序来读取PPT幻灯片中的文本及图片的方法.读取图片时,可读取文档中的所有图片,也可以读取指定幻灯片当中的图片. 工具:Free Spire.Presentation for ...
最新文章
- python之文件读写和异常处理
- div内容设float之后,div的自动高度适应
- 去掉我的电脑中WPS,百度云,360,爱奇艺盘符
- Redis 错误1067:进程意外终止,Redis不能启动,Redis启动不了
- AtomicIntegerFieldUpdater字段原子更新类
- 无线网卡的Master,Managed,ad-hoc,monitor等模式
- iOS全局变量与属性的内存管理
- 一个简单的基于 DirectShow 的播放器 1(封装类)
- C++之导入lib库
- Python数据分析(二): Numpy技巧 (3/4)
- 【故障诊断分析】基于matlab FFT轴承故障诊断【含Matlab源码 1397期】
- IDC 监控技术介绍
- windows mobile/wince 大容量存储驱动实现介绍
- 全志linux视频硬解码,全志V316超清4K视频编解码芯片处理器介绍
- 2021-2027全球与中国硅胶注塑机市场现状及未来发展趋势
- java 假币问题_假币问题-题解(Java代码)
- 跨国面板数据(1960-2020)二:国民核算、经常账户、贸易、fdi、运输旅游、保险金融(stata版)
- SPI配置ADC芯片_明德扬FPGA学习心得
- 马云的蚂蚁金服为何如此看重区块链?如何发挥区块链商业优势?
- 【FPGA入门教程】(六)时序逻辑电路设计