java读取pdf_Java 读取PDF中的文本和图片的方法
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。
使用工具:Free Spire.PDF for Java(免费版)
Jar文件获取导入:
方法1:通过官网下载jar文件包。下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入java程序。导入后如下图:
方法2: 可通过maven仓库安装导入。
Java代码示例
import com.spire.pdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractText {
public static void main(String[]args) throws Exception {
//加载测试文档
PdfDocument pdf = new PdfDocument("sample.pdf");
//实例化StringBuilder类
StringBuilder sb = new StringBuilder();
//定义一个int型变量
int index = 0;
//遍历PDF文档中每页
PdfPageBase page;
for (int i= 0; i
page = pdf.getPages().get(i);
//调用extractText()方法提取文本
sb.append(page.extractText(true));
FileWriter writer;
try {
//将StringBuilder对象中的文本写入到txt
writer = new FileWriter("ExtractText.txt");
writer.write(sb.toString());
writer.flush();
} catch (IOException e) {
e.printStackTrace();
}
//调用extractImages方法获取图片
for (BufferedImage image : page.extractImages()) {
//指定输出图片名,指定图片格式
File output = new File(String.format("Image_%d.png", index++));
ImageIO.write(image, "PNG", output);
}
}
pdf.close();
}
}
文本和图片读取效果:
总结
以上所述是小编给大家介绍的Java 读取PDF中的文本和图片的方法,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!
java读取pdf_Java 读取PDF中的文本和图片的方法相关推荐
- java解析pdf 图片文字_Java 读取PDF中的文本和图片
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Java ...
- Java 读取PDF中的文本和图片
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Java ...
- Python 获得pdf中的文字、图片文字方法
Python 获得pdf中的文字.图片文字方法 下载word版文件 OCR,全称Optical character recognition,中文译名叫做光学文字识别.它把图像中的字符,转换为机器编码的 ...
- Acrobat Pro DC 教程:如何编辑 PDF 文件中的文本和图片?
欢迎观看 Acrobat Pro DC 教程,小编带大家学习 Acrobat Pro DC 的基本工具和使用技巧,了解如何使用 Acrobat Pro DC 轻松快捷地编辑PDF 文档中的文本和图片. ...
- java 修改pdf_Java 操作PDF书签详解 - 添加、修改、读取和删除
目录前言 Free Spire.PDF for Java库概述和安装 给PDF文档添加书签 修改现有书签 设置PDF文档打开时展开或折叠书签 读取书签标题 从PDF文档中删除书签 前言 书签在一些PD ...
- java word文本框_Java 读取Word文本框中的文本、图片、表格
Word可插入文本框,文本框中可嵌入文本.图片.表格等内容.对文档中的已有文本框,也可以读取其中的内容.本文以Java程序代码来展示如何读取文本框,包括读取文本框中的文本.图片以及表格等. [程序环境 ...
- Java 读取Word表格中的文本和图片
本文通过Java程序来展示如何读取Word表格,包括读取表格中的文本和图片.下面是具体实现的步骤和方法. 1. 程序环境准备 代码编译工具:IntelliJ IDEA Jdk版本:1.8.0 测试文档 ...
- Java 读取Word文本框中的文本、图片、表格
Word可插入文本框,文本框中可嵌入文本.图片.表格等内容.对文档中的已有文本框,也可以读取其中的内容.本文以Java程序代码来展示如何读取文本框,包括读取文本框中的文本.图片以及表格等. [程序环境 ...
- Java 读取Word批注中的文本和图片
本文将介绍读取Word批注的方法,包括读取Word批注中的文本及图片.下面将通过Java代码来演示如何读取批注. **工具使用:**Word类库(Free Spire.Doc for Java 免费版 ...
最新文章
- 【Python之路】第二篇--初识Python
- linux grep 快速,51CTO博客-专业IT技术博客创作平台-技术成就梦想
- jquery问题,如何调用带this的函数?
- POJ - 2201 Cartesian Tree(笛卡尔树-单调栈/暴跳父亲)
- 信心满满的去面算法工程师,竟然凉了...
- 【动态规划】【递归】取数字问题 (ssl 1644)
- nagios 整合 ganglia 设置邮件、短信报警
- maven + grunt + tomcat + cmd + sublime
- iOS底层探索之多线程(十六)——锁分析(NSLock、NSCondtion、NSRecursiveLock、NSCondition)
- 二十三种设计模式[4] - 原型模式(Prototype Pattern)
- java argument parse_snmp4j 之 ArgumentParser
- hive xmlserde_各种数据格式的Hive建表语句
- kali linux的使用教程
- 【python--爬虫】守望先锋英雄介绍视频爬虫
- 每日英语听力 Mac
- KVM虚拟机扩容硬盘
- 联想小新padpro和华为matepad10.4哪个好有什么区别 详细性能配置对比
- 逻辑运算符以及逻辑表达式
- 质量管理与过程改进-质量管理方案
- 【虚拟机】配置外网访问NAS黑群晖6.17
热门文章
- 重装华为服务器系统软件,服务器系统重装软件
- 2021年回顾与展望
- 前端有啥好用的手机模拟软件吗_隐藏应用,软件双开,一个APP就解决了
- xampp配置xdebug
- mysql多实例安装配置_MySQL多实例安装配置
- python序列化和反序列化_python反序列化免杀
- eclipse让项目连接服务器失败,eclipse怎么链接服务器
- php ios视频文件上传,iOS实现视频和图片的上传思路
- android img标签属性_微信小程序 组件叠加效果(如 Android 中的添加蒙层)
- php程序内存优化之数组操作优化