最近在公司实习,由于公司的项目,公司要求我们做解析文档的部分任务,首先我做的是PDF文档的解析,主管也说了,这是最简单的,用开源的JAVA库PDFbox就能解决,不过,pdfbox还不支持新的PDF1.7版本。我在网上搜索,终于找到了能支持PDF1.7版本的开源库了。The Big Faceless PDF Library可以到一下网站下载PDF包:里面有较详细的文档说明。 http://big.faceless.org/products/pdf/

发现比PDFbox还简单。

下面是我的代码:

import java.io.*;
import org.faceless.pdf2.*;
public class PrintPDF {
 public static void main(String[] args) throws IOException {
  //PDF文档路径
  String filepath = "d://userguide.pdf";
  //PDFReader对象建立
  PDFReader reader = new PDFReader(new File(filepath));
  //建立PDF文档对象
  PDF pdf = new PDF(reader);
  //建立文档解析对象
  PDFParser parser = new PDFParser(pdf);
  for (int i = 0; i < pdf.getNumberOfPages(); i++) {
   PageExtractor extractor = parser.getPageExtractor(i);
    System.out.println(extractor.getTextAsStringBuffer());
    }
 }
}

PDF文档解析java Big Faceless相关推荐

  1. pdf文档解析相关工具包

    pdf文档解析相关工具包 pdf生成 fdfgen: 能够自动创建pdf文档,并填写信息 pdf表格解析 pdftabextract: 用于OCR识别后的表格信息解析,很强大 tabula-py: 直 ...

  2. PDF文档解析,公司公告信息抽取(附数据集)

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 目前,PDF已成为电子文档发行和数字化信息传播的一个标准,其广泛应用于学术界的交流以及各类公告 ...

  3. PDF 文档操作Java类库Spire.PDF for Java v2.7.6发布上线!| 附下载

    Spire.PDF for Java是一款专门对 PDF 文档进行操作的 Java 类库.该类库的主要功能在于帮助开发人员在 Java 应用程序(J2SE和J2EE)中生成 PDF 文档和操作现有 P ...

  4. 【Java】基于Pdfbox解析PDF文档中指定位置的文字和图片

    1.1 PDFBOX介绍 Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换. 我们可以使用PDFBox开发可以创建,转换和操作PDF文档的Java程序.PDFBox的主要功能 ...

  5. java 加密word_Java 加密和解密PDF文档

    前言 在日常办公时,为了保护文档不被他人篡改,我们可为文档设置打开口令,即加密.同时,因需要我们也可对加密文档进行解密,以便能够查看和编辑文档.本文将通过Java程序来演示如何对PDF文档进行加密和解 ...

  6. java加密解密 pdf_Java 加密和解密PDF文档

    前言 在日常办公时,为了保护文档不被他人篡改,我们可为文档设置打开口令,即加密.同时,因需要我们也可对加密文档进行解密,以便能够查看和编辑文档.本文将通过Java程序来演示如何对PDF文档进行加密和解 ...

  7. 如何使用Java对pdf文档进行操作?

    Apache PDFBox Apache PDFBox是一个开源 Java 库,支持 PDF 文档的开发和转换.使用这个库,您可以开发创建.转换和操作 PDF 文档的 Java 程序. Split & ...

  8. 处理PDF文档比较强大的库

    [C++库] PDF类库 PoDoFo  http://podofo.sourceforge.net/ PoDoFo 是一个用来操作 PDF 文件格式的 C++ 类库.它还包含一些小工具用来解析.修改 ...

  9. IText实现对PDF文档属性的基本设置

    一.Itext简介 iText是著名的开放源码的站点sourceforge一个项目,是用于生成PDF文档的一个java类库.通过iText不仅可以生成PDF或rtf的文档,而且可以将XML.Html文 ...

最新文章

  1. 【关注】3000多警力围剿“毒村”!现实比影视剧更惊险
  2. 深入浅出剖析 OpenCV 视觉处理
  3. mysql的命令行安装,忘记密码,密码重置问题
  4. 中断、异常、处理对于操作系统的概念
  5. 争分夺秒:阿里实时大数据技术全力助战双11
  6. 统计测序数据reads数和碱基数的几种方法
  7. 数据结构期末复习之平衡二叉树
  8. TCP/IP协议体系结构简介
  9. Java原始客户端操作Mongodb 增删改查
  10. 高可用Kubernetes集群原理介绍
  11. C语言知识点完美总结
  12. C# 阿拉伯数字转换为中文数字/中文数字转换为阿拉伯数字
  13. 通信领域的宽带信号和窄带信号到底是什么??
  14. 看3D打印技术如何影响未来
  15. 真正的高手,都在自讨苦吃——数显之家快讯之【SHIO世硕心语】
  16. blender2.8 bpy.data.images.new创建的图片返回值撤回操作后丢失
  17. D435i+vins-Fusion+ego-planner+yolo无人机避障实测
  18. 通过封装接口实现淘宝商品详情数据上架京东店铺实现商品搬家上货操作实施代码展示
  19. 联想笔记本电脑闪屏解决方法
  20. 数据库里面date类型时间有时差,时区问题

热门文章

  1. Pulling is not possible because you have unmerged files.
  2. Qt设置编码、样式文件、窗体居中和开机自启等方法
  3. FFmpeg 集成 x265 编译及解码
  4. Win10设置局域网共享打印机,动态切换默认打印机总结
  5. TSCA你了解多少?什么产品需要做TSCA认证
  6. Java求一元二次方程的根
  7. 地图上必须要有指北针吗?
  8. 按键式计算器——人机交互的变革
  9. 那些年,我一个人走过的坑——拆装硬盘、装内存条、装双系统
  10. 线上实时监测推广效果,App投放渠道数据分析