本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。

使用工具:Free Spire.PDF for Java(免费版)

Jar文件获取导入:

方法1:通过官网

方法2: 可通过

Java代码示例

【示例1】读取PDF中的文本

import com.spire.pdf.*;

import java.io.FileWriter;

import java.io.IOException;

public class ExtractText {

public static void main(String[]args) throws Exception {

//加载测试文档

PdfDocument pdf = new PdfDocument("sample.pdf");

//实例化StringBuilder类

StringBuilder sb = new StringBuilder();

//定义一个int型变量

int index = 0;

//遍历PDF文档中每页

PdfPageBase page;

for (int i= 0; i

page = pdf.getPages().get(i);

//调用extractText()方法提取文本

sb.append(page.extractText(true));

FileWriter writer;

try {

//将StringBuilder对象中的文本写入到txt

writer = new FileWriter("ExtractText.txt");

writer.write(sb.toString());

writer.flush();

} catch (IOException e) {

e.printStackTrace();

}

}

pdf.close();

}

}

文本读取效果:

【示例2】读取PDF中的图片

import com.spire.pdf.*;

import javax.imageio.ImageIO;

import java.awt.image.BufferedImage;

import java.io.File;

public class ExtractImg {

public static void main(String[] args) throws Exception{

//加载测试文档

PdfDocument pdf = new PdfDocument();

pdf.loadFromFile("test.pdf");

//定义一个int型变量

int index = 0;

//遍历PDF每一页

for (int i= 0;i< pdf.getPages().getCount(); i ++){

//获取PDF页面

PdfPageBase page = pdf.getPages().get(i);

//使用extractImages方法获取页面上图片

for (BufferedImage image : page.extractImages()) {

//指定输出图片名称

File output = new File( String.format("Image_%d.png", index++));

//将图片保存为PNG格式文件

ImageIO.write(image, "PNG", output);

}

}

}

}

图片读取结果:

(本文完)

java解析pdf 图片文字_Java 读取PDF中的文本和图片相关推荐

  1. java提取word中的文字_Java 提取Word中的文本和图片

    本文将介绍通过Java来提取或读取Word文档中文本和图片的方法.这里提取文本和图片包括同时提取文档正文当中以及页眉.页脚中的的文本和图片. 使用工具:Free Spire.Doc for Java ...

  2. java 按钮不显示文字_java – 使JButton中的文本不可见

    你说: EDIT: I can't use .setText(" ") because I have to compare the value within it. 废话.正如我在 ...

  3. java解析xml生成表格_JAVA读取XML文件并解析 以及 JAVA生成文本文件输出

    废话不多说,直接上代码及说明吧! package Dao; import java.io.File; import java.util.ArrayList; import java.util.List ...

  4. Java 读取Word表格中的文本和图片

    本文通过Java程序来展示如何读取Word表格,包括读取表格中的文本和图片.下面是具体实现的步骤和方法. 1. 程序环境准备 代码编译工具:IntelliJ IDEA Jdk版本:1.8.0 测试文档 ...

  5. java读取pdf_Java 读取PDF中的文本和图片的方法

    本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Java ...

  6. Java 读取PDF中的文本和图片

    本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Java ...

  7. 【Python】python实现jpg图片文字转成pdf格式

    python实现jpg图片文字转成pdf格式 [代码][Python]代码 #!/usr/bin/env pythonimport os import sys from reportlab.lib.p ...

  8. java word文本框_Java 读取Word文本框中的文本、图片、表格

    Word可插入文本框,文本框中可嵌入文本.图片.表格等内容.对文档中的已有文本框,也可以读取其中的内容.本文以Java程序代码来展示如何读取文本框,包括读取文本框中的文本.图片以及表格等. [程序环境 ...

  9. 【教程】Spire.PDF教程:C# 如何提取 PDF 文档中的文本和图片

    Spire.PDF是一个专业的PDF组件,能够独立地创建.编写.编辑.操作和阅读PDF文件,支持 .NET.Java.WPF和Silverlight. [下载Spire.PDF最新试用版] 文本和图片 ...

最新文章

  1. 强化学习教程来啦!贡献者来自中科院、清华、北大3位男神!
  2. Akka(32): Http:High-Level-Api,Route exception handling
  3. 一道数组求连续子集最大值的题目。
  4. pin controller driver代码分析
  5. 35岁遭遇互联网公司无情裁员,面试屡屡碰壁,原因竟是……
  6. Netty工作笔记0012---Channel应用案例3
  7. 新代数控系统编程说明书_数控加工中心编程快速入门教程
  8. 本博客体系系列篇(一)
  9. Java 序列化与主流编解码技术框架介绍
  10. 汇编语言王爽第四版 第六章内容解读(附实验五答案解析)
  11. c语言算无限小数,随机算式的除法如果答案是无限循环小数,怎么加精度?
  12. NTC热敏电阻应用-测温
  13. 论游戏电脑CPU和GPU之搭配
  14. 7-2 单位年会聚餐时的座次C位
  15. [2021首届“陇剑杯”网络安全大赛 决赛]内存取证writeup
  16. 碧育服务器维护公告,Ubisoft+
  17. 本周总结:为图片标签<img>加上 alt属性的好处
  18. uni-app报错 cid unmatched at view.umd.min.js:1解决方案
  19. 使用PS(Adobe Photoshop CC)设计Banner
  20. 使用离线语音识别实现对设备经纬度参数的设置

热门文章

  1. MCU 8080规格LCD屏斜线问题——Tear功能
  2. Maven 设置项目编码
  3. Android浮窗实现(WindowManager)
  4. 高仿微信拍照,视频录制-----JCameraView
  5. 您有一份OFFER请查收!
  6. 小程序用户协议页面实现
  7. 计算机考研院校录取人数,2010年计算机考研34所自主划线院校复试成绩及录取人数等详细情况汇总...
  8. java斜体_设置标签字体用粗体和斜体
  9. 大数据与传统数据对比
  10. 【ArcGIS小技巧视频教程】(1):GIS数据来源下载攻略