使用maven引入pdfbox依赖

     <dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.1</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>fontbox</artifactId><version>2.0.0</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>jempbox</artifactId><version>1.8.11</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>xmpbox</artifactId><version>2.0.0</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>preflight</artifactId><version>2.0.0</version></dependency><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox-tools</artifactId><version>2.0.0</version></dependency>
public static void main(String[] args) {//要读取的pdf文档位置String path = "C:/Users/Administrator/Desktop/123.pdf";//File file = new File(path);try {//XSSFWorkbook workbook = new XSSFWorkbook();//XSSFSheet sheet =workbook.createSheet();//加载pdf文件,创建PDDocument对象PDDocument document = PDDocument.load(file);//创建pdf文本获取对象PDFTextStripper PDFTextStripper pdfStripper = new PDFTextStripper();//获取pdf中所有信息,text中包含的就是当前pdf文档中所有信息String text = pdfStripper.getText(document);//根据自己的业务需求处理text中的信息//String data =text.replaceAll("([\\u4e00-\\u9fa5]|[\\uff0c]|[\\u3001]|[\\u3002])\\s+([\\u4e00-\\u9fa5])","$1$2");//String [] str=data.split("\\n");/**for(int i=0;i< str.length;i++){XSSFRow row=sheet.createRow(i);String string1=str[i].replaceAll(" ","");String[] str2=string1.split(" ");if(str2.length>1){for(int j=0;j<str2.length;j++){if(str2[j].equals(null)||str2[j].equals("")){continue;}XSSFCell cell=row.createCell(j);String data1=str2[j].replaceAll("\\r\\n|\\r|\\n","");cell.setCellValue(data1);}}else {XSSFCell cell=row.createCell(0);cell.setCellValue(string1);}}FileOutputStream fileOutputStream=new FileOutputStream("C:/Users/Administrator/Desktop/ccs.xlsx");workbook.write(fileOutputStream);fileOutputStream.close();*/} catch (Exception e) {}}

注释的内容是将pdf文件中的信息读取到excel表格,实际操作可按照自己业务需求进行

java读取pdf文档相关推荐

  1. Java 处理PDF文档(一):页眉页脚、水印、背景、附件

    前言 本文将介绍通过Java编程来处理PDF文档的一些方法,因为一篇文档的处理可能包括很多内容,比如文档安全性设置(水印.加密/解密).文本/图片/图形操作.注释.附件.域.文档转换(其他文件格式转为 ...

  2. python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子

    1.安装 pdfminer3k 通过pip安装: pip install pdfminer3k 下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/# ...

  3. Java在PDF文档中添加或删除页面

    前言 当你编辑一个PDF文档时,有时需要删除文档中多余的页面或向文档中添加新的页面.本文将向您演示如何使用Spire.PDF for Java在PDF文档中添加或删除页面. 程序环境 安装Spire. ...

  4. java生成pdf方法_详解Java生成PDF文档方法|chu

    最近项目需要实现PDF下载的功能,由于没有这方面的经验,从网上花了很长时间才找到相关的资料.整理之后,发现有如下几个框架可以实现这个功能. 1. 开源框架支持iText,生成PDF文档,还支持将XML ...

  5. 数据导入与预处理-第4章-数据获取python读取pdf文档

    数据导入与预处理-第4章-数据获取Python读取PDF文档 1 PDF简介 1.1 pdf是什么 2 Python操作PDF 2.1 pdfplumber库 2.2 pdfplumber基本操作 2 ...

  6. Python读取PDF文档(或TXT)

    字符串在Python内部的表示是Unicode编码,首先我们来认识Python中encode()和decode()的作用与区别: 在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的 ...

  7. java jar 打印_三种Java打印PDF文档的实例代码

    以下内容归纳了通过Java程序打印PDF文档时的3种情形.即: 1 静默打印 2 显示打印对话框打印 3 打印PDF时自定义纸张大小 使用工具:Spire.PDF for Java Jar文件获取及导 ...

  8. 【教程】如何使用Java生成PDF文档?

    在如今数字化时代,越来越多的人使用PDF文档进行信息传递和共享.而使用Java生成PDF文档也成为了一个非常重要的技能,因为Java作为一种通用的编程语言,可以在不同的操作系统和平台上运行.下面,我们 ...

  9. Java生成PDF文档(表格)

    Java生成PDF文档(表格) package org.jeecg.modules.esi.utils;import com.itextpdf.text.*; import com.itextpdf. ...

  10. java读取word文档里面的内容(包括doc和docx格式)

    java读取word文档里面的内容(包括doc和docx格式) java读取word文档里面的内容(包括doc和docx格式),使用POI架包 使用的POI架包如下 poi-3.16.jar poi- ...

最新文章

  1. qt中初始化界面的几种方法
  2. matlab中的分类器使用小结(SVM、KNN、RF、AdaBoost、Naive Bayes、DAC)
  3. 跟互联力量学Silverlight之十_如何完整安装Silverlight 4中文版
  4. 雪花算法之唯一ID生成器理解
  5. mysql字符集设置_mysql字符集设置
  6. 基于ASP.NET MVC框架开发Web论坛应用程序
  7. riot.js教程【二】组件撰写准则、预处理器、标签样式和装配方法
  8. 应用程序虚拟化工具(VMware ThinApp)5.2.1汉化绿色企业版
  9. 关于ChartControl的绑定数据源使用
  10. 一篇走心的文章和一个不起眼的引流方法
  11. python设计迷宫_用Python制作迷宫GIF
  12. 孟婆汤传说!!!感人至极!
  13. AndroidPlayPlane战机小游戏
  14. Tarena - 基础查询
  15. New Empirical Traceability Analysis of CryptoNote-Style Blockchains
  16. 大数据笔记10—java基础篇6(集合1-Collection)
  17. c语言常数-ox6a是什么意思,c语言1-7章课后作业答案
  18. 基于mschart控件,绘制工控采集类曲线,可对图像进行缩放,拖动滚动条显示放大后的图像
  19. spaceclaim脚本(内摆线)
  20. 快上车 全套Python零基础入门教程免费分享 !

热门文章

  1. hive函数 next_day
  2. pta mysql训练题集(341-360)
  3. 让Win7系统屏幕来个大翻转
  4. 大数据分析师的报考条件是什么?
  5. Java 使用嵌套 for 循环打印皇冠
  6. Chromium源码中 media::VideoFrame 的3个属性(coded_size, visible_rect, natual_size)的理解
  7. 小米路由器AC2100开启IPV6的方法
  8. Ubuntu16.04+VMware15.0.4系统瘦身
  9. 听听周报-谷歌发布首款真无线耳机 Pixel Buds|苹果发布全新头戴式耳机 Beats Solo Pro
  10. 如何查计算机上网找网络协议,怎么查看电脑网络协议