为什么80%的码农都做不了架构师?>>>   

本文永久地址:https://my.oschina.net/bysu/blog/1528130

相关jar下载地址:

http://mirror.bit.edu.cn/apache/poi/dev/bin/poi-bin-3.17-beta1-20170701.tar.gz

import java.io.File;
import java.io.FileInputStream;
import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;public class ReadFromDoc {public static void main(String[] args) {System.out.println(readWord("D:\\workspace\\java\\大学英语.doc"));}public static String readWord(String filePath) {String text = "";File file = new File(filePath);// 2003if (file.getName().endsWith(".doc")) {try {FileInputStream stream = new FileInputStream(file);WordExtractor word = new WordExtractor(stream);text = word.getText();// 去掉word文档中的多个换行text = text.replaceAll("(\\r\\n){2,}", "\r\n");text = text.replaceAll("(\\n){2,}", "\n");stream.close();} catch (Exception e) {e.printStackTrace();}} else if (file.getName().endsWith(".docx")) { // 2007try {OPCPackage oPCPackage = POIXMLDocument.openPackage(filePath);XWPFDocument xwpf = new XWPFDocument(oPCPackage);POIXMLTextExtractor ex = new XWPFWordExtractor(xwpf);text = ex.getText();// 去掉word文档中的多个换行text = text.replaceAll("(\\r\\n){2,}", "\r\n");text = text.replaceAll("(\\n){2,}", "\n");System.out.println("ok");} catch (Exception e) {e.printStackTrace();}}return text;}
}

转载于:https://my.oschina.net/bysu/blog/1528130

java读取doc文档相关推荐

  1. java读取word文档里面的内容(包括doc和docx格式)

    java读取word文档里面的内容(包括doc和docx格式) java读取word文档里面的内容(包括doc和docx格式),使用POI架包 使用的POI架包如下 poi-3.16.jar poi- ...

  2. Python/Django读取doc文档及在IIS8.5上部署所经历的波折及解决过程

    Tips(碰到的主要问题): doc转docx "无效的类的字符串" DCOM组件拒绝访问 NoneType has no attribute SaveAs 简要的业务过程:把Wo ...

  3. java中openoffice_巧用Java读取OpenOffice文档

    由于项目的需要,我们需要在Java程序读取OpenOffice文档,并对数据进行处理.本文介绍了如何使用ODF Toolkit去读取OpenOffice SpreadSheet的内容. 1. Open ...

  4. Java读取word文档里的复杂型表格(任免表)

    使用apache-poi读取word文档里的复杂型表格 这里使用的任免表编辑器产生的word文档. word模板:https://download.csdn.net/download/weixin_4 ...

  5. Java 读取Word文档中的文本内容

    这篇文章将介绍如何使用Free Spire.Doc for Java组件在Java应用程序中读取Word文档的文本内容.Free Spire.Doc for Java提供了两种方法来读取Word文档中 ...

  6. java读取Excel文档 + 存入数据库

    序 在做项目的时候,我们有时想要读取Excel类型的文档,把表格里面的数据进行处理,比如把成绩Excel文档存储到数据库对应的表.而这时却不知道该如何操作,接下来我将讲解这个流程.以下面的数据为例 总 ...

  7. 用Java将doc文档转成pdf格式

    我这里使用的包是aspose-words-15.8.0-jdk16.jar和文件license.xml(用于去水印,放在项目的resources下) license.xml <License&g ...

  8. java读取word文档中的文字和图片,doc和docx兼容版

    也是我东抄抄,西抄抄拿来测试改装的,话不多说,直接上代码 <dependency><groupId>commons-io</groupId><artifact ...

  9. java读取word文档的复杂表格_poi读取word表格 java POI 如何读取word的表格中的表格...

    poi 操作word 2007 (如何删除word中的某一个表格)小编忘了哪年哪月的哪日小编在哪面墙上刻下张脸张微笑着忧伤着凝望小编的脸. public static void changeTable ...

最新文章

  1. mysql数据去重语句_数据库 mysql 语句
  2. 用了 10 年 Windows 后,我最终转向 Linux
  3. ORA-04031 错误
  4. [js高手之路]深入浅出webpack教程系列9-打包图片(file-loader)用法
  5. LeetCode 28_Implement strStr()
  6. 如何让奇异值分解(SVD)变得不“奇异”?
  7. markword用于标记锁的位数
  8. Hyper-V 嵌套虚拟化
  9. 2021.5.23 中国高速列车运维技术讲座
  10. python引入模块教程_python导入模块--案例
  11. python 类的细节
  12. 算法工程师必备技能(Python 优化提速小技巧)
  13. android Settings之辅助功能
  14. 0x00000001java_「十六进制表示」0x00000001是个啥?32位表示、十六进制表示 - seo实验室...
  15. 房屋装修(卫生间/浴室)
  16. Java高级:字节跳动历年校招Java面试真题解析
  17. 中兴手机数据通道打不开_中兴td-lte无线数据终端闪着绿灯 但是上不了网是怎么回事...
  18. mysql读写分离踩坑记
  19. phpcms选择文件无法加载插件怎么办_win7系统下浏览器显示无法加载插件如何解决...
  20. 安卓app测试之流量监控

热门文章

  1. Inline Hook
  2. JS标签的各种事件的举例
  3. XMLHTTP使用具体解释
  4. C#中结构数据类型的使用
  5. POJ3080方法很多(暴力,KMP,后缀数组,DP)
  6. hdu4982 暴搜+剪枝(k个数和是n,k-1个数的和是平方数)
  7. 【ijkplayer】编译 Android 版本的 ijkplayer ① ( Ubuntu 安装 Git 软件 | 下载 ijkplayer 代码 )
  8. 【Android 逆向】整体加固脱壳 ( DexClassLoader 加载 dex 流程分析 | RawDexFile.cpp 分析 | dvmRawDexFileOpen函数读取 DEX 文件 )
  9. 【C 语言】数据类型本质 ( 数据类型 | 数据类型本质 | 数组地址 | 数组首元素地址 )
  10. 【iOS 开发】Objective-C 入门 Xcode 环境详解