一、快速入门

1、Tika是一个用于文本解释的框架,其本身并不提供任何的库用于解释文本,而是调用各种各样的库,如POI,PDFBox等。

使用Tika,可以提取文件中的作者、标题、创建时间、正文等内容,相比于java.io自带的一些功能(如FileInputStream,FIleReader,Scanner等):

(1)若文档为纯文本,如txt,html,java文件等,则二者对于文件内容的提取基本无差别,都可将内容呈现出来。

(2)若文档为富文本,如office,pdf等,使用java.io直接读取内容会得到一串乱码,而需要通过种种工具去提取正文内容,如PDFBox提取PDF文件,POI提取office文件等。

TIka已将各种工具作了统一封装,形成统一的API,用于提取文本正文。

但注意:解释文本

上述步骤只是将正文内容提取了出来,如将word文档、Html文档等的正文提取出来,但未对文档正文的内容进行解释,此时需要用到其它的工具如:

(1)DOM4J用于提取XML正文中的内容,如某个元素或者属性的值。

(2)HtmlPaser用于提取HTML正文中的内容,也是提取无素或者属性的值,比如提取文中的超链接等。

Tika是否已经完成此功能的封装还不确认,以后再研究。

2、使用GUI界面解释文本

(1)进入Tika所有的目录,运行以下命令:

java -jar "tika-app-1.5 (1).jar" -g

(2)Tika的图形界面被打开,然后找开File-openURL:

(3)点击确认后,即返回解释结果

默认情况下显示的是文本的元信息

(4)可以通过view菜单中的选项,分别查看 metadata, formatted text, plain text, main content, stuctured text等信息。

3、调用API解释文件

package com.ljh.test;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.IOException;

import java.io.InputStream;

import org.apache.tika.exception.TikaException;

import org.apache.tika.metadata.Metadata;

import org.apache.tika.parser.AutoDetectParser;

import org.apache.tika.parser.ParseContext;

import org.apache.tika.parser.Parser;

import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.ContentHandler;

import org.xml.sax.SAXException;

public class TikaBasicUtil {

public String fileToTxt(File f) {

//1、创建一个parser

Parser parser = new AutoDetectParser();

InputStream is = null;

try {

Metadata metadata = new Metadata();

metadata.set(Metadata.RESOURCE_NAME_KEY, f.getName());

is = new FileInputStream(f);

ContentHandler handler = new BodyContentHandler();

ParseContext context = new ParseContext();

context.set(Parser.class,parser);

//2、执行parser的parse()方法。

parser.parse(is,handler, metadata,context);

for(String name:metadata.names()) {

System.out.println(name+":"+metadata.get(name));

}

return handler.toString();

} catch (FileNotFoundException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

} catch (SAXException e) {

e.printStackTrace();

} catch (TikaException e) {

e.printStackTrace();

} finally {

try {

if(is!=null) is.close();

} catch (IOException e) {

e.printStackTrace();

}

}

return null;

}

}

测试程序如下:

package com.ljh.test;

import java.io.File;

import org.junit.Test;

public class TikaBasicUtilTest {

@Test

public void test() {

TikaBasicUtil tbu = new TikaBasicUtil();

System.out.println(tbu.fileToTxt(new File("D:/G组-C罗压哨助攻扳平 葡萄牙2-2美国保晋级希望.docx")));

}

}输出结果如下:

cp:revision:3

meta:last-author:lujinhong

Last-Author:lujinhong

meta:save-date:2014-06-23T04:24:00Z

Application-Name:Microsoft Office Word

dcterms:created:2014-06-23T04:23:00Z

Author:lujinhong

Application-Version:15.0000

Character-Count-With-Spaces:1188

date:2014-06-23T04:24:00Z

Total-Time:1

extended-properties:Template:Normal.dotm

meta:line-count:8

creator:lujinhong

publisher:

Word-Count:177

meta:paragraph-count:2

Creation-Date:2014-06-23T04:23:00Z

extended-properties:AppVersion:15.0000

meta:author:lujinhong

Line-Count:8

extended-properties:Application:Microsoft Office Word

resourceName:G组-C罗压哨助攻扳平 葡萄牙2-2美国保晋级希望.docx

Paragraph-Count:2

Last-Save-Date:2014-06-23T04:24:00Z

Revision-Number:3

meta:creation-date:2014-06-23T04:23:00Z

dcterms:modified:2014-06-23T04:24:00Z

Template:Normal.dotm

Page-Count:1

meta:character-count:1013

dc:creator:lujinhong

meta:word-count:177

Last-Modified:2014-06-23T04:24:00Z

extended-properties:Company:

modified:2014-06-23T04:24:00Z

xmpTPg:NPages:1

extended-properties:TotalTime:1

dc:publisher:

Character Count:1013

meta:page-count:1

meta:character-count-with-spaces:1188

Content-Type:application/vnd.openxmlformats-officedocument.wordprocessingml.document

上半时美国队开球。第5分钟,葡萄牙队率先进球,维罗索左路45度把球吊入禁区,美国后卫卡梅伦解围失误,纳尼在远门柱附近右脚抽射球门上角建功,葡萄牙1-0美国。

第9分钟,邓普西突破被断,无队友接应。第11分钟,美国长传反击,科斯塔头球解围。第12分钟,阿尔维斯铲倒约翰逊,美国队获得禁区前任意球,邓普西主罚大力攻门,球擦着横梁高出。第16分钟,葡萄牙中锋波斯蒂加受伤,被埃德换下。第18分钟,美国右路传中,邓普西禁区左肋抽射打高。

第24分钟,美国队后场断球反击,布拉德利禁区前抽射,球擦着横梁高出。第27分钟,祖西传球,邓普西禁区右肋抽射,科斯塔堵枪眼。1分钟后,布拉德利远射稍偏。第32分钟,美国反击,约翰逊远射打偏。第34分钟,维罗索远射打在后卫身上,C罗拿球被吹越位。

第35分钟,C罗远射被霍华德扑住。第40分钟,琼斯受伤,主裁判吹停比赛,进入喝水时间。第42分钟,葡萄牙反击,C罗分球,纳尼右路远射被扑出。第43分钟,葡萄牙获得禁区前任意球,C罗主罚打高。第45分钟,纳尼远射打中立柱,埃德补射被霍华德用指尖挡出。上半时结束,葡萄牙1-0美国。

下半时易边,葡萄牙队用卡瓦略换下阿尔梅达。第48分钟,卡梅伦解围打在队友被贝斯勒身上,埃德抢射打高。第55分钟,美国队错失良机,约翰逊右路下底传中,布拉德利5码处推射,科斯塔门线堵枪眼。第62分钟,葡萄牙反击,C罗禁区右肋射门打偏。

第64分钟,美国队扳平比分,角球罚出被后卫解围出禁区,琼斯外围拿球横向闪过纳尼,右脚大力抽射,球飞进球门死角,葡萄牙1-1美国。

第66分钟,葡萄牙反击,纳尼右路传中,远端梅雷莱斯抽射被门将扑出。第68分钟,葡萄牙用完第三个换人名额,瓦雷拉换下梅雷莱斯。第74分钟,纳尼突入禁区摔倒,裁判没有吹罚点球。1分钟后,琼斯滑铲放倒穆蒂尼奥,吃到黄牌。第80分钟,纳尼右路禁区前横切远射打高。

第81分钟,美国队反超比分!琼斯中路分球,叶德林右路下底传中,布拉德利12码处推射打在后卫身上,祖西左路拿球传中,邓普西用胸口把球撞进空门,美国2-1葡萄牙。

第86分钟,维罗索直塞,C罗在越位位置完成射门。葡萄牙右路起球,C罗头球攻门顶偏。第93分钟,葡萄牙左路起球,C罗头球顶偏。第95分钟,C罗右路传中,瓦雷拉头冲顶破门,2-2!全场结束,美国2-2葡萄牙。

葡萄牙(433):22-贝托/21-佩雷拉、2-阿尔维斯、13-科斯塔、19-A-阿尔梅达(46'卡瓦略)/8-穆蒂尼奥、4-维罗索、16-梅雷莱斯(68'瓦雷拉)/17-纳尼、23-波斯蒂加(16'埃德)、7-C罗

美国(4231):1-霍华德/7-比斯利、5-贝斯勒、20-卡梅伦、23-F-约翰逊/15-贝克曼、13-琼斯/19-祖西(91'冈萨雷斯)、11-贝多亚(72'叶德林)、4-布拉德利/8-邓普西(87'沃多洛斯基)

java tika pdf_【Tika基础教程之一】Tika基础教程相关推荐

  1. java tika 读取文件_【apache tika】apache tika获取文件内容(与FileUtils的对比)

    Tika支持多种功能: 文档类型检测 内容提取 元数据提取 语言检测 重要特点: 统一解析器接口:Tika封装在一个单一的解析器接口的第三方解析器库.由于这个特征,用户逸出从选择合适的解析器库的负担, ...

  2. java tika 解析pdf,tika提取pdf信息异常,tika提取pdf信息

    tika提取pdf信息异常,tika提取pdf信息org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException: Your ...

  3. java tika pdf转图片_使用tika将pdf转为html

    序 tika是个功能强大的项目,这里展示下如何使用tika来将pdf转为html. maven org.apache.tika tika-core 1.16 org.apache.tika tika- ...

  4. Java基础教程:反射基础

    Java基础教程:反射基础 引入反射 反射是什么 能够动态分析类能力的程序称为反射. 反射是一种很强大且复杂的机制. Class类 在程序运行期间,Java运行时系统始终为所有对象维护一个被称为运行时 ...

  5. Java基础教程:多线程基础(3)——阻塞队列

    Java基础教程:多线程基础(3)--阻塞队列 快速开始 引入问题 生产者消费者问题是线程模型中的经典问题:生产者和消费者在同一时间段内共用同一存储空间,生产者向空间里生产数据,而消费者取走数据. 模 ...

  6. java 反射基础_Java基础教程:反射基础

    Java基础教程:反射基础 引入反射 反射是什么 能够动态分析类能力的程序称为反射.反射是一种很强大且复杂的机制. Class类 在程序运行期间,Java运行时系统始终为所有对象维护一个被称为运行时的 ...

  7. java reactjs_[Java教程]Reactjs 入门基础(一)

    [Java教程]Reactjs 入门基础(一) 0 2016-06-02 17:00:04 实例中我们引入了三个库: react.min.js .react-dom.min.js 和 browser. ...

  8. java基础项目_Java 教程整理:基础、项目全都有

    Java 在编程语言排行榜中一直位列前排,可知 Java 语言的受欢迎程度了. 网上有很多 Java 教程,无论是基础入门还是开发小项目的教程都比比皆是,可是系统的很少,对于Java 学习者来说找到系 ...

  9. [Java 教程 00] 计算机基础

    前言 我想,来到这的朋友肯定是想学习JAVA或者想要进入IT这个行业的.考虑到大家的基础可能不一样,有些人可能还是用着新买的电脑,为了让大家在后续的学习中更加顺畅.在学习一门全新的计算机语言之前,我需 ...

最新文章

  1. php做gui,php7 图形用户界面GUI如何开发
  2. 系统集成项目管理之项目采购管理
  3. 【瞎写代码】系列之redux表面理解
  4. CentOS 7系统启动后怎么从命令行模式切换到图形界面模式
  5. centos下rmp包离线下载
  6. NYOJ 76 超级台阶
  7. Ubuntu kylin 14.04 LTS上安装opencv
  8. Flask-admin 学习及一些笔记
  9. 详解proxy_pass、upstream与resolver
  10. python爱因斯坦的问题_爱因斯坦的思考题.py
  11. 6.4.3树和森林的遍历
  12. 【超全指南】Java 8 中使用 Optional 处理 null 对象
  13. iis ftp服务器文件大小,iis ftp服务器文件大小
  14. 关于网页导出Excel
  15. spring @POSTConstruction注解的作用
  16. J-Flash(SEGGER)、J-link RTT Viewer下载、安装、使用
  17. hdjs-图片 文件上传
  18. VB中函数 str() 和cstr 有什么不同?
  19. EventBus粘性事件
  20. laravel 验证手机号

热门文章

  1. javascript中 $和#符号的意思
  2. 绝望而沉重的爱·《致我们终将逝去的青春》
  3. vim quickfix——最灵活的quickfix
  4. Robbins-Monro 随机逼近算法和序列学习(Sequential Learning)
  5. RealMax携手乐视举办全球AR开发者大赛
  6. Lycn 2013 with SQL AlwaysOn 「一」建立AlwaysOn
  7. NRF905无线通讯小车
  8. 基于STM32的二轮自平衡小车
  9. 道路视频摄像机智能分析功能测试规范
  10. 软件测试工程师面试如何回答购物车怎么进行测试分析?