本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。

使用工具:Free Spire.PDF for Java(免费版)

Jar文件获取导入:

方法1:通过官网下载jar文件包。下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入java程序。导入后如下图:

方法2: 可通过maven仓库安装导入。

Java代码示例

import com.spire.pdf.*;

import javax.imageio.ImageIO;

import java.awt.image.BufferedImage;

import java.io.File;

import java.io.FileWriter;

import java.io.IOException;

public class ExtractText {

public static void main(String[]args) throws Exception {

//加载测试文档

PdfDocument pdf = new PdfDocument("sample.pdf");

//实例化StringBuilder类

StringBuilder sb = new StringBuilder();

//定义一个int型变量

int index = 0;

//遍历PDF文档中每页

PdfPageBase page;

for (int i= 0; i

page = pdf.getPages().get(i);

//调用extractText()方法提取文本

sb.append(page.extractText(true));

FileWriter writer;

try {

//将StringBuilder对象中的文本写入到txt

writer = new FileWriter("ExtractText.txt");

writer.write(sb.toString());

writer.flush();

} catch (IOException e) {

e.printStackTrace();

}

//调用extractImages方法获取图片

for (BufferedImage image : page.extractImages()) {

//指定输出图片名,指定图片格式

File output = new File(String.format("Image_%d.png", index++));

ImageIO.write(image, "PNG", output);

}

}

pdf.close();

}

}

文本和图片读取效果:

总结

以上所述是小编给大家介绍的Java 读取PDF中的文本和图片的方法,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!

如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

java读取pdf_Java 读取PDF中的文本和图片的方法相关推荐

  1. java解析pdf 图片文字_Java 读取PDF中的文本和图片

    本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Java ...

  2. Java 读取PDF中的文本和图片

    本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Java ...

  3. Python 获得pdf中的文字、图片文字方法

    Python 获得pdf中的文字.图片文字方法 下载word版文件 OCR,全称Optical character recognition,中文译名叫做光学文字识别.它把图像中的字符,转换为机器编码的 ...

  4. Acrobat Pro DC 教程:如何编辑 PDF 文件中的文本和图片?

    欢迎观看 Acrobat Pro DC 教程,小编带大家学习 Acrobat Pro DC 的基本工具和使用技巧,了解如何使用 Acrobat Pro DC 轻松快捷地编辑PDF 文档中的文本和图片. ...

  5. java 修改pdf_Java 操作PDF书签详解 - 添加、修改、读取和删除

    目录前言 Free Spire.PDF for Java库概述和安装 给PDF文档添加书签 修改现有书签 设置PDF文档打开时展开或折叠书签 读取书签标题 从PDF文档中删除书签 前言 书签在一些PD ...

  6. java word文本框_Java 读取Word文本框中的文本、图片、表格

    Word可插入文本框,文本框中可嵌入文本.图片.表格等内容.对文档中的已有文本框,也可以读取其中的内容.本文以Java程序代码来展示如何读取文本框,包括读取文本框中的文本.图片以及表格等. [程序环境 ...

  7. Java 读取Word表格中的文本和图片

    本文通过Java程序来展示如何读取Word表格,包括读取表格中的文本和图片.下面是具体实现的步骤和方法. 1. 程序环境准备 代码编译工具:IntelliJ IDEA Jdk版本:1.8.0 测试文档 ...

  8. Java 读取Word文本框中的文本、图片、表格

    Word可插入文本框,文本框中可嵌入文本.图片.表格等内容.对文档中的已有文本框,也可以读取其中的内容.本文以Java程序代码来展示如何读取文本框,包括读取文本框中的文本.图片以及表格等. [程序环境 ...

  9. Java 读取Word批注中的文本和图片

    本文将介绍读取Word批注的方法,包括读取Word批注中的文本及图片.下面将通过Java代码来演示如何读取批注. **工具使用:**Word类库(Free Spire.Doc for Java 免费版 ...

最新文章

  1. 【Python之路】第二篇--初识Python
  2. linux grep 快速,51CTO博客-专业IT技术博客创作平台-技术成就梦想
  3. jquery问题,如何调用带this的函数?
  4. POJ - 2201 Cartesian Tree(笛卡尔树-单调栈/暴跳父亲)
  5. 信心满满的去面算法工程师,竟然凉了...
  6. 【动态规划】【递归】取数字问题 (ssl 1644)
  7. nagios 整合 ganglia 设置邮件、短信报警
  8. maven + grunt + tomcat + cmd + sublime
  9. iOS底层探索之多线程(十六)——锁分析(NSLock、NSCondtion、NSRecursiveLock、NSCondition)
  10. 二十三种设计模式[4] - 原型模式(Prototype Pattern)
  11. java argument parse_snmp4j 之 ArgumentParser
  12. hive xmlserde_各种数据格式的Hive建表语句
  13. kali linux的使用教程
  14. 【python--爬虫】守望先锋英雄介绍视频爬虫
  15. 每日英语听力 Mac
  16. KVM虚拟机扩容硬盘
  17. 联想小新padpro和华为matepad10.4哪个好有什么区别 详细性能配置对比
  18. 逻辑运算符以及逻辑表达式
  19. 质量管理与过程改进-质量管理方案
  20. 【虚拟机】配置外网访问NAS黑群晖6.17

热门文章

  1. 重装华为服务器系统软件,服务器系统重装软件
  2. 2021年回顾与展望
  3. 前端有啥好用的手机模拟软件吗_隐藏应用,软件双开,一个APP就解决了
  4. xampp配置xdebug
  5. mysql多实例安装配置_MySQL多实例安装配置
  6. python序列化和反序列化_python反序列化免杀
  7. eclipse让项目连接服务器失败,eclipse怎么链接服务器
  8. php ios视频文件上传,iOS实现视频和图片的上传思路
  9. android img标签属性_微信小程序 组件叠加效果(如 Android 中的添加蒙层)
  10. php程序内存优化之数组操作优化