java读取pdf文档
使用maven引入pdfbox依赖
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.1</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>fontbox</artifactId><version>2.0.0</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>jempbox</artifactId><version>1.8.11</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>xmpbox</artifactId><version>2.0.0</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>preflight</artifactId><version>2.0.0</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox-tools</artifactId><version>2.0.0</version></dependency>
public static void main(String[] args) {//要读取的pdf文档位置String path = "C:/Users/Administrator/Desktop/123.pdf";//File file = new File(path);try {//XSSFWorkbook workbook = new XSSFWorkbook();//XSSFSheet sheet =workbook.createSheet();//加载pdf文件,创建PDDocument对象PDDocument document = PDDocument.load(file);//创建pdf文本获取对象PDFTextStripper PDFTextStripper pdfStripper = new PDFTextStripper();//获取pdf中所有信息,text中包含的就是当前pdf文档中所有信息String text = pdfStripper.getText(document);//根据自己的业务需求处理text中的信息//String data =text.replaceAll("([\\u4e00-\\u9fa5]|[\\uff0c]|[\\u3001]|[\\u3002])\\s+([\\u4e00-\\u9fa5])","$1$2");//String [] str=data.split("\\n");/**for(int i=0;i< str.length;i++){XSSFRow row=sheet.createRow(i);String string1=str[i].replaceAll(" ","");String[] str2=string1.split(" ");if(str2.length>1){for(int j=0;j<str2.length;j++){if(str2[j].equals(null)||str2[j].equals("")){continue;}XSSFCell cell=row.createCell(j);String data1=str2[j].replaceAll("\\r\\n|\\r|\\n","");cell.setCellValue(data1);}}else {XSSFCell cell=row.createCell(0);cell.setCellValue(string1);}}FileOutputStream fileOutputStream=new FileOutputStream("C:/Users/Administrator/Desktop/ccs.xlsx");workbook.write(fileOutputStream);fileOutputStream.close();*/} catch (Exception e) {}}
注释的内容是将pdf文件中的信息读取到excel表格,实际操作可按照自己业务需求进行
java读取pdf文档相关推荐
- Java 处理PDF文档(一):页眉页脚、水印、背景、附件
前言 本文将介绍通过Java编程来处理PDF文档的一些方法,因为一篇文档的处理可能包括很多内容,比如文档安全性设置(水印.加密/解密).文本/图片/图形操作.注释.附件.域.文档转换(其他文件格式转为 ...
- python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子
1.安装 pdfminer3k 通过pip安装: pip install pdfminer3k 下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/# ...
- Java在PDF文档中添加或删除页面
前言 当你编辑一个PDF文档时,有时需要删除文档中多余的页面或向文档中添加新的页面.本文将向您演示如何使用Spire.PDF for Java在PDF文档中添加或删除页面. 程序环境 安装Spire. ...
- java生成pdf方法_详解Java生成PDF文档方法|chu
最近项目需要实现PDF下载的功能,由于没有这方面的经验,从网上花了很长时间才找到相关的资料.整理之后,发现有如下几个框架可以实现这个功能. 1. 开源框架支持iText,生成PDF文档,还支持将XML ...
- 数据导入与预处理-第4章-数据获取python读取pdf文档
数据导入与预处理-第4章-数据获取Python读取PDF文档 1 PDF简介 1.1 pdf是什么 2 Python操作PDF 2.1 pdfplumber库 2.2 pdfplumber基本操作 2 ...
- Python读取PDF文档(或TXT)
字符串在Python内部的表示是Unicode编码,首先我们来认识Python中encode()和decode()的作用与区别: 在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的 ...
- java jar 打印_三种Java打印PDF文档的实例代码
以下内容归纳了通过Java程序打印PDF文档时的3种情形.即: 1 静默打印 2 显示打印对话框打印 3 打印PDF时自定义纸张大小 使用工具:Spire.PDF for Java Jar文件获取及导 ...
- 【教程】如何使用Java生成PDF文档?
在如今数字化时代,越来越多的人使用PDF文档进行信息传递和共享.而使用Java生成PDF文档也成为了一个非常重要的技能,因为Java作为一种通用的编程语言,可以在不同的操作系统和平台上运行.下面,我们 ...
- Java生成PDF文档(表格)
Java生成PDF文档(表格) package org.jeecg.modules.esi.utils;import com.itextpdf.text.*; import com.itextpdf. ...
- java读取word文档里面的内容(包括doc和docx格式)
java读取word文档里面的内容(包括doc和docx格式) java读取word文档里面的内容(包括doc和docx格式),使用POI架包 使用的POI架包如下 poi-3.16.jar poi- ...
最新文章
- qt中初始化界面的几种方法
- matlab中的分类器使用小结(SVM、KNN、RF、AdaBoost、Naive Bayes、DAC)
- 跟互联力量学Silverlight之十_如何完整安装Silverlight 4中文版
- 雪花算法之唯一ID生成器理解
- mysql字符集设置_mysql字符集设置
- 基于ASP.NET MVC框架开发Web论坛应用程序
- riot.js教程【二】组件撰写准则、预处理器、标签样式和装配方法
- 应用程序虚拟化工具(VMware ThinApp)5.2.1汉化绿色企业版
- 关于ChartControl的绑定数据源使用
- 一篇走心的文章和一个不起眼的引流方法
- python设计迷宫_用Python制作迷宫GIF
- 孟婆汤传说!!!感人至极!
- AndroidPlayPlane战机小游戏
- Tarena - 基础查询
- New Empirical Traceability Analysis of CryptoNote-Style Blockchains
- 大数据笔记10—java基础篇6(集合1-Collection)
- c语言常数-ox6a是什么意思,c语言1-7章课后作业答案
- 基于mschart控件,绘制工控采集类曲线,可对图像进行缩放,拖动滚动条显示放大后的图像
- spaceclaim脚本(内摆线)
- 快上车 全套Python零基础入门教程免费分享 !
热门文章
- hive函数 next_day
- pta mysql训练题集(341-360)
- 让Win7系统屏幕来个大翻转
- 大数据分析师的报考条件是什么?
- Java 使用嵌套 for 循环打印皇冠
- Chromium源码中 media::VideoFrame 的3个属性(coded_size, visible_rect, natual_size)的理解
- 小米路由器AC2100开启IPV6的方法
- Ubuntu16.04+VMware15.0.4系统瘦身
- 听听周报-谷歌发布首款真无线耳机 Pixel Buds|苹果发布全新头戴式耳机 Beats Solo Pro
- 如何查计算机上网找网络协议,怎么查看电脑网络协议