java解析pdf 图片文字_Java 读取PDF中的文本和图片
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法。分别调用方法extractText()和extractImages()来读取。
使用工具:Free Spire.PDF for Java(免费版)
Jar文件获取导入:
方法1:通过官网
方法2: 可通过
Java代码示例
【示例1】读取PDF中的文本
import com.spire.pdf.*;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractText {
public static void main(String[]args) throws Exception {
//加载测试文档
PdfDocument pdf = new PdfDocument("sample.pdf");
//实例化StringBuilder类
StringBuilder sb = new StringBuilder();
//定义一个int型变量
int index = 0;
//遍历PDF文档中每页
PdfPageBase page;
for (int i= 0; i
page = pdf.getPages().get(i);
//调用extractText()方法提取文本
sb.append(page.extractText(true));
FileWriter writer;
try {
//将StringBuilder对象中的文本写入到txt
writer = new FileWriter("ExtractText.txt");
writer.write(sb.toString());
writer.flush();
} catch (IOException e) {
e.printStackTrace();
}
}
pdf.close();
}
}
文本读取效果:
【示例2】读取PDF中的图片
import com.spire.pdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
public class ExtractImg {
public static void main(String[] args) throws Exception{
//加载测试文档
PdfDocument pdf = new PdfDocument();
pdf.loadFromFile("test.pdf");
//定义一个int型变量
int index = 0;
//遍历PDF每一页
for (int i= 0;i< pdf.getPages().getCount(); i ++){
//获取PDF页面
PdfPageBase page = pdf.getPages().get(i);
//使用extractImages方法获取页面上图片
for (BufferedImage image : page.extractImages()) {
//指定输出图片名称
File output = new File( String.format("Image_%d.png", index++));
//将图片保存为PNG格式文件
ImageIO.write(image, "PNG", output);
}
}
}
}
图片读取结果:
(本文完)
java解析pdf 图片文字_Java 读取PDF中的文本和图片相关推荐
- java提取word中的文字_Java 提取Word中的文本和图片
本文将介绍通过Java来提取或读取Word文档中文本和图片的方法.这里提取文本和图片包括同时提取文档正文当中以及页眉.页脚中的的文本和图片. 使用工具:Free Spire.Doc for Java ...
- java 按钮不显示文字_java – 使JButton中的文本不可见
你说: EDIT: I can't use .setText(" ") because I have to compare the value within it. 废话.正如我在 ...
- java解析xml生成表格_JAVA读取XML文件并解析 以及 JAVA生成文本文件输出
废话不多说,直接上代码及说明吧! package Dao; import java.io.File; import java.util.ArrayList; import java.util.List ...
- Java 读取Word表格中的文本和图片
本文通过Java程序来展示如何读取Word表格,包括读取表格中的文本和图片.下面是具体实现的步骤和方法. 1. 程序环境准备 代码编译工具:IntelliJ IDEA Jdk版本:1.8.0 测试文档 ...
- java读取pdf_Java 读取PDF中的文本和图片的方法
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Java ...
- Java 读取PDF中的文本和图片
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Java ...
- 【Python】python实现jpg图片文字转成pdf格式
python实现jpg图片文字转成pdf格式 [代码][Python]代码 #!/usr/bin/env pythonimport os import sys from reportlab.lib.p ...
- java word文本框_Java 读取Word文本框中的文本、图片、表格
Word可插入文本框,文本框中可嵌入文本.图片.表格等内容.对文档中的已有文本框,也可以读取其中的内容.本文以Java程序代码来展示如何读取文本框,包括读取文本框中的文本.图片以及表格等. [程序环境 ...
- 【教程】Spire.PDF教程:C# 如何提取 PDF 文档中的文本和图片
Spire.PDF是一个专业的PDF组件,能够独立地创建.编写.编辑.操作和阅读PDF文件,支持 .NET.Java.WPF和Silverlight. [下载Spire.PDF最新试用版] 文本和图片 ...
最新文章
- 强化学习教程来啦!贡献者来自中科院、清华、北大3位男神!
- Akka(32): Http:High-Level-Api,Route exception handling
- 一道数组求连续子集最大值的题目。
- pin controller driver代码分析
- 35岁遭遇互联网公司无情裁员,面试屡屡碰壁,原因竟是……
- Netty工作笔记0012---Channel应用案例3
- 新代数控系统编程说明书_数控加工中心编程快速入门教程
- 本博客体系系列篇(一)
- Java 序列化与主流编解码技术框架介绍
- 汇编语言王爽第四版 第六章内容解读(附实验五答案解析)
- c语言算无限小数,随机算式的除法如果答案是无限循环小数,怎么加精度?
- NTC热敏电阻应用-测温
- 论游戏电脑CPU和GPU之搭配
- 7-2 单位年会聚餐时的座次C位
- [2021首届“陇剑杯”网络安全大赛 决赛]内存取证writeup
- 碧育服务器维护公告,Ubisoft+
- 本周总结:为图片标签<img>加上 alt属性的好处
- uni-app报错 cid unmatched at view.umd.min.js:1解决方案
- 使用PS(Adobe Photoshop CC)设计Banner
- 使用离线语音识别实现对设备经纬度参数的设置