今天说说java中的pdf读取,实话说,这是一个很恼人的任务。现在网络上的pdf各种各样,分析出来的文本也是千差万别,目前最流行的jar包pdfbox也只能做到把文字分析出来,并无法很好的控制分析的顺序,格式,字体等信息。(也许可以,是我对pdfbox了解还不够,如果是这样的话,大家一定要告诉我~先谢过了哈。)这给后续的工作带来了很大的麻烦。比如我想提取pdf的一些关键词或标题等有用信息,而分析出来的文本大多没有规律可言,甚至不同pdf分析的顺序也不一样,有些分析出来第一行是标题,有些标题要到第十行甚至更靠后,总体说来这个任务远远没有达到我之前的预期。这里介绍一下,一个为了和大家交流一下,更重要的目的在于向各位高手们学习,看看大家是否有更好的办法来处理pdf的信息,而不光单单是读取pdf的字符串。

pdfbox的下载和配置我就不多说了,就跟加别的jar包没有区别。

下面直接上代码。

代码很简单,但是分析出来的内容也让人很抓狂,刚才说过了,什么格式的都有,甚至有些英文pdf分析出来词与词之间没有空格……有些又每个字母之间有空格,这到底是为什么呢?请教各位。

publicvoidget(String pdfPath)throwsException {

InputStream input=null;

File pdfFile=newFile( pdfPath );

PDDocument document=null;try{

input=newFileInputStream( pdfFile );//加载 pdf 文档PDFParser parser=newPDFParser(input);

parser.parse();

document=parser.getPDDocument();//获取内容信息PDFTextStripper pts=newPDFTextStripper();

String content="";try{

content=pts.getText( document );

}catch(Exception e)

{throwe;

}

System.out.println(content);

}catch(Exception e)

{throwe;

}finally{if(null!=input )

input.close();if(null!=document )

document.close();

}

}

java 读取pdf各级标题_Java那些事之pdf读取相关推荐

  1. java pdfbox 提取pdf 标题_java – 使用pdfbox从PDF文件中提取文本

    我试图使用pdfbox从PDF文件中提取文本,但不是作为命令行工具,而是在我的 Java应用程序中.我正在使用jsoup下载pdf. res = Jsoup .connect(host+action) ...

  2. java word转成表格_java将Word/Excel/PDF文件转换成HTML整理

    项目开发过程中,需求涉及到了各种文档转换为HTML或者网页易显示格式,现在将实现方式整理如下: 一.使用Jacob转换Word,Excel为HTML "JACOB一个Java-COM中间件. ...

  3. java测试类读取不到配置文件_java – 如何在单元测试中读取配置文件?

    我有一个标准的maven项目布局. 一些配置文件存储在src / main / conf中. 现在我想在src / test中的单元测试中读取这些文件(例如,从其中一个文件中读取属性). 我怎么能完全 ...

  4. java 取pdf 文本域_java – 使用iText从pdf文件中提取文本列

    我需要使用iText从pdf文件中提取文本. 问题是:一些pdf文件包含2列,当我提取文本时,我得到一个文本文件,其中列被合并为结果(即同一行中两列的文本) 这是代码: public class pd ...

  5. java 设置纸张大小设置_java 用itext设置pdf纸张大小操作

    做快递面单打印模板,快递要求纸张大小100 x 150mm. PageSize.A4=595 x 842 A4尺寸=210mm×297mm 故设置纸张大小: public static final R ...

  6. itext设置pdf的尺寸_java 用itext设置pdf纸张大小操作

    做快递面单打印模板,快递要求纸张大小100 x 150mm. PageSize.A4=595 x 842 A4尺寸=210mm×297mm 故设置纸张大小: public static final R ...

  7. java 生成pdf 插件下载_java(iText)工具包生成PDF

    iText是一个非常著名的能够快速产生PDF文件的Java类库.支持文本,表格,图形的操作,可以方便的跟 Servlet 进行结合 iText的更新变化很大,早期版本在PDF样式上可能会有瑕疵,所有我 ...

  8. java word在线预览_java实现word转pdf在线预览(前端使用PDF.js;后端使用openoffice、aspose)...

    背景 之前一直是用户点击下载word文件到本地,然后使用office或者wps打开.需求优化,要实现可以直接在线预览,无需下载到本地然后再打开. 随后开始上网找资料,网上资料一大堆,方案也各有不同,大 ...

  9. java文件的相对路径_java中使用相对路径读取文件的写法总结 ,以及getResourceAsStream() (转)...

    https://blog.csdn.net/my__sun_/article/details/74450241 读取文件的写法,相对路径 在当前的目录结构中读取test.txt的有四种写法 简单粗暴的 ...

最新文章

  1. rviz学习笔记(一)——Markers: Sending Basic Shapes (C++) 发送基础形状
  2. CTFshow php特性 web126
  3. [摘]Spring 3之MVC Security简单整合开发
  4. 吴恩达 coursera ML 第十六课总结+作业答案
  5. C++学习之路 | PTA乙级—— 1029 旧键盘 (20 分)(精简)
  6. python重复输出五句话_如何用python3输出重复的数据?
  7. 河北体检系统诚信企业推荐_应用多的隔膜计量泵价格诚信企业推荐
  8. gnss观测质量检查软件下载_【速查】你可能下载了个假“北斗”!
  9. go get如何删除_Go语言HTTP请求(req库)
  10. 文件系统挂载、卸载及相关的工具 ⑨
  11. SQL注入攻击原理与几种防御方式
  12. html居中代码怎么写?
  13. android+action +actionform上传文件,ActionForm之文件上传
  14. 为什么程序员喜欢用dark mode深色模式
  15. python图像拼接_python实现两张图片拼接为一张图片并保存
  16. 创业公司路演PPT模板
  17. Win11远程桌面连接怎么打开?Win11远程桌面连接的五种方法
  18. 百度音乐api+c语言,百度音乐接口api - osc_d87glhzv的个人空间 - OSCHINA - 中文开源技术交流社区...
  19. 2015 百度 移动软件开发 一二面
  20. 边缘设备、系统及计算杂谈(8)——dapr学习之一

热门文章

  1. nsq命令行参数解析
  2. 编程题走迷宫_编程题迷宫求解
  3. 古董电脑清灰+双系统安装 part3
  4. 计算机输入法知识讲解,26、认识输入法--电脑基础知识
  5. 五大PS图层使用技巧,图层还可以这样玩?
  6. 【小波变换基础知识+实战应用】Matlab中小波、小波包函数的分解,重构及区别等(持续更新)
  7. Android之制作App的图标
  8. 用户统一密码管理校验服务说明
  9. 计算机信息化办公知识,A013信息化办公
  10. windows比cmd更强大的 WMIC命令使用详解