下面给出的程序是用来提取PDF文件内容和元数据。

importjava.io.File;importjava.io.FileInputStream;importjava.io.IOException;importorg.apache.tika.exception.TikaException;importorg.apache.tika.metadata.Metadata;importorg.apache.tika.parser.ParseContext;importorg.apache.tika.parser.pdf.PDFParser;importorg.apache.tika.sax.BodyContentHandler;importorg.xml.sax.SAXException;publicclassPdfParse{publicstaticvoidmain(finalString[]args')throwsIOException,TikaException{BodyContentHandlerhandler=newBodyContentHandler();Metadatametadata=newMetadata();FileInputStreaminputstream=newFileInputStream(newFile("Example.pdf"));ParseContextpcontext=newParseContext();//parsing the document using PDF parserPDFParserpdfparser=newPDFParser();pdfparser.parse(inputstream,handler,metadata,pcontext);//getting the content of the documentSystem.out.println("Contents of the PDF :"+handler.toString());//getting metadata of the documentSystem.out.println("Metadata of the PDF:");String[]metadataNames=metadata.names();for(Stringname:metadataNames){System.out.println(name+" : "+metadata.get(name));}}}

保存上述代码保存为PdfParse.java,并通过使用下面的命令从命令提示编译:

javacPdfParse.java javaPdfParse

下面给出的是Example.pdf文件的快照:

PDF文档具有以下属性:

执行上述程序后,会得到如下的输出

输出:

Contents of the PDF: Apache Tika is a framework for content type detection and content extraction which was designed by Apache software foundation. It detects and extracts metadata and structured text content from different types of documents such as spreadsheets, text documents, images or PDFs including audio or video input formats to certain extent. Metadata of the PDF: dcterms:modified : 2014-09-28T12:31:16Z meta:creation-date : 2014-09-28T12:31:16Z meta:save-date : 2014-09-28T12:31:16Z dc:creator : Krishna Kasyap pdf:PDFVersion : 1.5 Last-Modified : 2014-09-28T12:31:16Z Author : Krishna Kasyap dcterms:created : 2014-09-28T12:31:16Z date : 2014-09-28T12:31:16Z modified : 2014-09-28T12:31:16Z creator : Krishna Kasyap xmpTPg:NPages : 1 Creation-Date : 2014-09-28T12:31:16Z pdf:encrypted : false meta:author : Krishna Kasyap created : Sun Sep 28 05:31:16 PDT 2014 dc:format : application/pdf; version=1.5 producer : Microsoft® Word 2013 Content-Type : application/pdf xmp:CreatorTool : Microsoft® Word 2013 Last-Save-Date : 2014-09-28T12:31:16Z

¥ 我要打赏 纠错/补充 收藏

java tika pdf_TIKA提取PDF相关推荐

  1. java tika pdf_TIKA - 提取PDF

    以下是从PDF中提取内容和元数据的程序. importjava.io.File;importjava.io.FileInputStream;importjava.io.IOException;impo ...

  2. Java 添加、提取PDF中的图片

    Spire.Cloud.SDK for Java提供了PdfImagesApi接口可用于添加图片到PDF文档addImage().提取PDF中的图片extractImages(),具体操作步骤和Jav ...

  3. JAVA PdfBox库提取PDF文件某一页转为图片

    Apache PDFBox 库是一个开源.用于操作 PDF 文档的 Java 工具库.PDFBox 允许创建新的 PDF 文档.操作现有文档,以及从文档中提取内容. 获取 Apache PDFBox ...

  4. java tika 解析pdf,tika提取pdf信息异常,tika提取pdf信息

    tika提取pdf信息异常,tika提取pdf信息org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException: Your ...

  5. java tika 解析pdf,Tika提取PDF文件用法示例

    本文概述 为了从pdf文件中提取内容, Tika使用PDFParser. PDFParser是用于从pdf文件提取内容和元数据的类.此类位于org.apache.tika.parser.pdf包中. ...

  6. java tika pdf_[Java教程]tika提取pdf信息异常

    [Java教程]tika提取pdf信息异常 0 2014-11-08 12:00:26 org.apache.tika.sax.WriteOutContentHandler$WriteLimitRea ...

  7. tika提取pdf信息异常

    tika提取pdf信息异常 参考文章: (1)tika提取pdf信息异常 (2)https://www.cnblogs.com/likehua/p/4082830.html 备忘一下.

  8. Java 提取PDF图片(pdfbox)Extract PDF document images

    依赖pdfbox提取PDF文件图片 import java.awt.image.BufferedImage; import java.io.File; import java.io.IOExcepti ...

  9. java提取PDF文字坐标

    常用java操作PDF的库有PDFbox和itext,下面我会介绍如何使用PDFbox和itext来提取PDF的文字坐标. 一.itext提取文字坐标 itext版本:5.5.6,低版本的可能没有提供 ...

最新文章

  1. js中的arguments
  2. pytorch 笔记:torchsummary
  3. SVM+HOG:用初次训练的.xml分类器在负样本原图上检测生成HardExample样本
  4. python中head_Python pandas.DataFrame.head函数方法的使用
  5. Ubuntu中给eclipse和android studio添加桌面快捷图标
  6. java各层级限流对比,面试官说:来谈谈限流-从概念到实现,一问你就懵逼了?...
  7. 【CLR】解析AppDomain
  8. CodeMeter 软件加密技术
  9. crr树不同步数期权定价 matlab,CRR二叉树模型和例题.doc
  10. 轻量级神经网络架构综述
  11. 网络安全用什么编程语言_网络安全的5种最佳编程语言
  12. Debian 支持蓝牙音响
  13. paillier同态加密算法原理及代码实现
  14. 白痴学日语系列之Last Term附语法一
  15. /var/spool/postfix/maildrop占用空间大量处理
  16. 活灵活现用Git-基础篇
  17. 服务器中病毒要不要重装系统,五种情况必须要给电脑重装系统,这三种不用重做系统,别被骗了...
  18. Eth-Trunk链路聚合理论
  19. 现货白银骗局!!我的经历!!希望大家不要上当...
  20. 显卡显示为Microsoft基本显示适配器,inter显卡驱动安装

热门文章

  1. 四步教你破解隔壁老王的Wi-Fi密码,蹭网没商量!
  2. CA证书原理(转载)
  3. WiFi共享精灵手机版隆重上线:流量“变现”WiFi
  4. 理解UDDI(1):UDDI服务实施的体系架构
  5. QML显示摄像头视频的解决方案
  6. 【AHK】autohotkey 自动登陆战网暗黑2杀进程双开多开
  7. 搞清Δ,梯度, 方向导数,散度,拉普拉斯算子
  8. 漫画 | 如何判断一家公司快不行了?
  9. 数据结构七大排序算法图解——选择排序动图演示
  10. Caused by: java.lang.NoClassDefFoundError: org/apache/curator/framework/CuratorFrameworkFactory