POI是Apache的一个开源项目,可以到Apache网站下载相应的jar包文件,及其源文件。

POI提供了提取一些非TXT文本中文本内容的API,比如提取Word,Excel等,使用起来非常方便。

为了说明POI提起Word文件的方便和简单,通过提取一个Word文件的文本来,来了解POI API的功能。

假设在本地磁盘中存在一个Word文件

E:\POI\word\JBoss3.0 下配置和部署EJB简介.doc文件是具有格式的,内容如图所示:

下面看看提取它的内容是多么简单。

首先从Apache网站上下载POI的相关jar包。

新建一个测试类:

package org.shirdrn.word;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.IOException;

import org.apache.poi.hwpf.extractor.WordExtractor;

public class MyWordExtractor {

public static void main(String[] args) {

File file = new File("E:\\POI\\word\\JBoss3.0 下配置和部署EJB简介.doc");

try {

FileInputStream fis = new FileInputStream(file);

WordExtractor wordExtractor = new WordExtractor(fis);

System.out.println("【 使用getText()方法提取的Word文件的内容如下所示:】");

System.out.println(wordExtractor.getText());

} catch (FileNotFoundException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

}

}

}

提取Word文件的文本内容,打印到控制台上,如下所示:

使用WordExtractor类的getTextFromPieces()方法提取:

wordExtractor.getTextFromPieces();

结果和上面是一样的。

WordExtractor类还有一个可以提取Word文件的各个段落的方法getParagraphText(),返回一个String[]数组,数组中每个元素为一个段的文本内容。

这里,对Word文件中换行也看成是一个段,测试如下:

package org.shirdrn.word;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.IOException;

import org.apache.poi.hwpf.extractor.WordExtractor;

public class MyWordExtractor {

public static void main(String[] args) {

File file = new File("E:\\POI\\word\\JBoss3.0 下配置和部署EJB简介.doc");

try {

FileInputStream fis = new FileInputStream(file);

WordExtractor wordExtractor = new WordExtractor(fis);

System.out.println("【 使用getText()方法提取的Word文件的内容如下所示:】");

String[] paragraph = wordExtractor.getParagraphText();

System.out.println("该Word文件共有"+paragraph.length+"段。");

for(int i=0;i&ltparagraph.length;i++){

System.out.println("&lt 第 "+(i+1)+" 段的内容为 &gt");

System.out.println(paragraph[i]);

}

} catch (FileNotFoundException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

}

}

}

提取Word文件的文本内容,打印到控制台上,如下所示:

从上面的Word文件

java如何解析word大纲_java解析word文件相关推荐

  1. java如何解析word大纲_java读取word并解析

    java POI3.8处理word模板,文字 图片 表格 将word模板里面的特殊标签换成 文字,图片, 以下是处理的代码 特殊标签最好的复制粘贴到word模板里面 ,因为手动敲入可能有点小的差别都导 ...

  2. java word插件开发_java生成word的几种方案

    1. Jacob是Java-COM Bridge的缩写,它在Java与微软的COM组件之间构建一座桥梁.使用Jacob自带的DLL动态链接库,并通过JNI的方式实现了在Java平台上对COM程序的调用 ...

  3. java word 模板_java通过word模板生成word文档

    public static void main(String[] args) { //模板.文件.图片路径 String workPath=System.getProperty("user. ...

  4. java中domain什么意思_java解析URL中domain、端口和协议的两种方法

    java解析URL中domain.端口和协议的两种方法 Java代码 收藏代码 @Test public void parseDomain() throws IOException { for (in ...

  5. java解压中文乱码_java解压文件中文乱码怎么处理

    上次利用java自动的java.util.zip.ZipEntry和??java.util.zip.ZipFile来解压zip文件,今天发现程序在读取解压文件时居然报了空指针异常,debug程序后发现 ...

  6. java如何解析word大纲_Java POI 解析word文档

    实现步骤: 1.poi实现word转html 2.模型化解析html 3.html转Map数组 Map数组(数组的操作处理不做说明) 1.导jar包. 2.代码实现 package com.web.o ...

  7. java word表格_java操作word的表格

    java操作word的表格 最近项目中需要把提交的页面表单的数据动态写在word模板中,简单的写了个工具类.里面有怎眼操作word 中表格的内容,可以在word中已有的表格后面添加行并且可以增加内容. ...

  8. java 证书缺乏扩展项_java解析证书的例子(包括基本项目、扩展项目)

    package ciso.security.test; /** * Title: Light Weight APIs for crypto * Description: 一个上海CA证书(根证书和用户 ...

  9. java word编辑_java实现word在线编辑及流转

    [实例简介] java开发web办公系统,调用PageOffice组件实现word在线编辑及流转 [实例截图] [核心代码] worddemo ├── worddemo │   ├── css │   ...

最新文章

  1. centos php 局域网访问,CentOS8安装搭建php环境
  2. 【长篇连载】桌面管理演义 第六回 违规言论别乱发 访问控制把你抓
  3. 【三万字!】Dubbo、Zookeeper学习笔记!秒杀面试官!——双非上岸阿里巴巴系列
  4. matlab指定间隔符,在matlab中为.dat文件指定小数分隔符[复制]
  5. 怎樣制作线段动画_OPPO又开发布会!这两个PPT动画太炫了,荣获网友清一色好评...
  6. Qt工作笔记-时QLabel具有点击事件(使用EventFilter)
  7. springboot学习,实现原理技术点汇总
  8. web mysql 报表_由简到难生成数据库报表(一)
  9. Word01-从正文处开始插入页码
  10. HP LaserJet P1008打印机安装
  11. git切换到旧版本_git如何更新到指定版本,然后再更新到最新版本
  12. FPGA实现AXI4总线的读写
  13. ubuntu安装homeassistant
  14. Slave_IO_Running: No 的解决
  15. 从React专利事件看开源软件许可
  16. python 追加写文件_python怎么追加写入文件
  17. Linux电池电量信息读取,linux内核 – 如何在Linux内核模块中获取电池电量?
  18. 华为手机打开图片很慢是怎么回事_华为手机打开应用很慢怎么办
  19. 线性回归分析——高尔顿数据集更正版
  20. 阿里云的这群疯子- 文/史中

热门文章

  1. c 程序设计语言第1 3部分,《C程序设计语言(第2版新版)典藏版》 —1.3 for语句...
  2. sql去除字符串中首尾空格
  3. mysql脚本中如何写判断_mysql中如何写判断语句
  4. 电脑ping服务器显示传输失败,Win10系统ping时出现传输失败常见故障解决办法
  5. 鸿蒙系统速度和ios,鸿蒙系统到底和苹果安卓有什么区别
  6. 胃net的放大内镜_胃淀粉样变性放大内镜表现 | 内镜集锦
  7. java远程执行jmi,java调用matlab 时出现java.lang.NullPointerException错误
  8. 安卓开发仿微信图片拖拽_Android 仿微信朋友圈发表图片拖拽和删除功能
  9. c语言程序设计单项选择题,1.奥鹏南开《C语言程序设计》复习资料单项选择题答案及解析...
  10. java掠夺_Editing Java版指南/村庄与掠夺 (section)