转自:https://zhuanlan.zhihu.com/p/137197267

本文介绍如何通过C#程序来读取PDF文档中的文本好图片。

所需工具:Free Spire.PDF for .NET (免费版)

代码示例(供参考)

【示例 1 】提取文本

using Spire.Pdf;
using System;
using System.IO;
using System.Text;

namespace ExtractText
{
class Program
{
static void Main(string[] args)
{
//加载文档
PdfDocument document = new PdfDocument();
document.LoadFromFile(“测试文档.pdf”);

        <span class="c1">//实例化StringBuilder类,获取文本

StringBuilder content = new StringBuilder();
content.Append(document.Pages[0].ExtractText());

        <span class="c1">//保存提取后的文本内容到.txt文档

String fileName = “TextFromPDF.txt”;
File.WriteAllText(fileName, content.ToString());
System.Diagnostics.Process.Start(“TextFromPDF.txt”);
}
}
}

文本提取效果:


【示例 2 】提取图片

using System;
using System.Collections.Generic;
using System.Text;
using System.Drawing;
using Spire.Pdf;

namespace ExtractImagesFromPDF
{
class Program
{
static void Main(string[] args)
{
//实例化PdfDocument类,并加载测试文档
PdfDocument doc = new PdfDocument();
doc.LoadFromFile(“测试文档.pdf”);

        <span class="c1">//实例化List类

List<Image> ListImage = new List<Image>();
for (int i = 0; i < doc.Pages.Count; i++)
{
// 获取 Spire.Pdf.PdfPageBase类对象
PdfPageBase page = doc.Pages[i];
// 提取图片
Image[] images = page.ExtractImages();
if (images != null && images.Length > 0)
{
ListImage.AddRange(images);
}

        <span class="p">}</span><span class="k">if</span> <span class="p">(</span><span class="n">ListImage</span><span class="p">.</span><span class="n">Count</span> <span class="p">&gt;</span> <span class="m">0</span><span class="p">)</span><span class="p">{</span><span class="k">for</span> <span class="p">(</span><span class="kt">int</span> <span class="n">i</span> <span class="p">=</span> <span class="m">0</span><span class="p">;</span> <span class="n">i</span> <span class="p">&lt;</span> <span class="n">ListImage</span><span class="p">.</span><span class="n">Count</span><span class="p">;</span> <span class="n">i</span><span class="p">++)</span><span class="p">{</span><span class="n">Image</span> <span class="n">image</span> <span class="p">=</span> <span class="n">ListImage</span><span class="na">[i]</span><span class="p">;</span><span class="n">image</span><span class="p">.</span><span class="n">Save</span><span class="p">(</span><span class="s">"image"</span> <span class="p">+</span> <span class="p">(</span><span class="n">i</span> <span class="p">+</span> <span class="m">1</span><span class="p">).</span><span class="n">ToString</span><span class="p">()</span> <span class="p">+</span> <span class="s">".png"</span><span class="p">,</span> <span class="n">System</span><span class="p">.</span><span class="n">Drawing</span><span class="p">.</span><span class="n">Imaging</span><span class="p">.</span><span class="n">ImageFormat</span><span class="p">.</span><span class="n">Png</span><span class="p">);</span><span class="p">}</span><span class="n">System</span><span class="p">.</span><span class="n">Diagnostics</span><span class="p">.</span><span class="n">Process</span><span class="p">.</span><span class="n">Start</span><span class="p">(</span><span class="s">"image1.png"</span><span class="p">);</span><span class="p">}</span><span class="p">}</span>
<span class="p">}</span>

}

图片提取效果:


(完)

C# 读取PDF文本和图片相关推荐

  1. delphi使用Foxit Quick PDF Library读写pdf文本和图片

    简介: Debenu Quick PDF Library(PDF编程开发工具)提供一套全方位的 PDF API 函数,帮助您快速简便地处理 PDF 文件.从文档属性的基本操作到创建您自己的 PDF 查 ...

  2. [转].NET下读取PDF文本

    本文转自:http://blog.csdn.net/wangqiuyun/article/details/8548779 在.NET下读取PDF文本用到的类库主要有两个:PDFBox和iTextSha ...

  3. python怎么读取pdf为文本_python怎么读取pdf文本内容

    python读取pdf文本内容的方法:首先打开相应的python脚本文件:然后使用PDFMiner工具来读取pdf文本内容:最后通过print输出读取后的内容即可. python读取pdf文本内容 p ...

  4. java读取pdf文本转换html

    java读取pdf文本转换html 完整代码地址 也就两个文件 java读取pdf中的纯文字,这里使用的是pdfbox工具包 maven引入如下配置 <dependency><gro ...

  5. 初次爬虫:读取PDF转成图片,再提取图片里的文字信息

    读取PDF转成图片,再提取图片里的文字信息 三步走 第一步 读取PDF并转换成图片 第二步 调用百度API来识别图片里面的文字信息 第三步 提取自己想要的文字信息 三步走 1 读取PDF,将PDF转换 ...

  6. java 图片识别提取_老司机帮您Java 提取/读取PDF中的图片

    电脑现已成为我们工作.生活和娱乐必不可少的工具了,在使用电脑的过程中,可能会遇到Java 提取/读取PDF中的图片的问题,如果我们遇到了Java 提取/读取PDF中的图片的情况,该怎么处理怎么才能解决 ...

  7. 如何用PDF编辑器编辑、修改PDF文本和图片?

    作为编辑PDF必不可少的软件,PDF编辑器随着PDF应用越来越广泛,被人们逐渐熟悉.使用PDF编辑器修改文字内容属于PDF编辑的一项功能,通常来说需要分两种情况对待,一种是PDF中的文字是文本,另一种 ...

  8. python 生成pdf 文字和图片_Python系列—PDF文本与图片抽取

    PDF是人们日常使用最多的跨平台文档.其是一种用独立于应用程序.硬件.操作系统的方式呈现文档的文件格式.每个PDF文件包含固定布局的平面文档的完整描述,包括文本.字形.图形及其他需要显示的信息.具有良 ...

  9. java 读取ppt_Java 读取PPT文本和图片

    本篇文章将介绍通过Java程序来读取PPT幻灯片中的文本及图片的方法.读取图片时,可读取文档中的所有图片,也可以读取指定幻灯片当中的图片. 工具:Free Spire.Presentation for ...

最新文章

  1. python之文件读写和异常处理
  2. div内容设float之后,div的自动高度适应
  3. 去掉我的电脑中WPS,百度云,360,爱奇艺盘符
  4. Redis 错误1067:进程意外终止,Redis不能启动,Redis启动不了
  5. AtomicIntegerFieldUpdater字段原子更新类
  6. 无线网卡的Master,Managed,ad-hoc,monitor等模式
  7. iOS全局变量与属性的内存管理
  8. 一个简单的基于 DirectShow 的播放器 1(封装类)
  9. C++之导入lib库
  10. Python数据分析(二): Numpy技巧 (3/4)
  11. 【故障诊断分析】基于matlab FFT轴承故障诊断【含Matlab源码 1397期】
  12. IDC 监控技术介绍
  13. windows mobile/wince 大容量存储驱动实现介绍
  14. 全志linux视频硬解码,全志V316超清4K视频编解码芯片处理器介绍
  15. 2021-2027全球与中国硅胶注塑机市场现状及未来发展趋势
  16. java 假币问题_假币问题-题解(Java代码)
  17. 跨国面板数据(1960-2020)二:国民核算、经常账户、贸易、fdi、运输旅游、保险金融(stata版)
  18. SPI配置ADC芯片_明德扬FPGA学习心得
  19. 马云的蚂蚁金服为何如此看重区块链?如何发挥区块链商业优势?
  20. 【FPGA入门教程】(六)时序逻辑电路设计

热门文章

  1. 模仿微信朋友圈的一款自嗨小程序
  2. 开源大语言模型(LLM)汇总(持续更新中)
  3. VMware kali网卡的连接
  4. 辞职后五险一金怎么处理
  5. linux工作室桌子,工作室桌子摆放有什么讲究?
  6. Java集合深入剖析【韩顺平老师版】
  7. android版cmd命令,android开发中的cmd命令
  8. java jsonresult_java web中统一结果返回封装类JsonResult
  9. linux pmap 进程信息,Linux pmap命令
  10. 11.5NOIP模拟赛