这几天在学习java io流的东西,有一个网友看到博客后问了一个问题,就是说他的doc文档为什么用我所说的方法死活就是乱码。

我一开始以为是他方法问题,结果自己试了之后发现和他的结果一样也是乱码。

于是在网上搜寻了一阵之后才发现原来doc文档和excel一样不能用普通的io流的方法来读取,而是也需要用poi,于是进行了一番尝试后,终于以正确的编码格式读取了这个doc文件。

在网上搜索的过程中发现doc和docx的读取方法是不一样的,于是顺带也学了一下docx文件的简单读取。

一、导包:

doc文件的读取,需要导入poi-scratchpad的jar包和相关依赖包:

docx文件读取,需要导入poi-ooxml的jar包和相关依赖包:

我用的是maven构建项目,相关的依赖包会自动导入,maven导包配置如下:

org.apache.poi

poi-ooxml

3.8

org.apache.poi

poi-scratchpad

3.8

二、读取文件的代码:

1、doc文件读取简单示例:

public static void readAndWriterTest3() throws IOException {

File file = new File("C:\Users\tuzongxun123\Desktop\aa.doc");

String str = "";

try {

FileInputStream fis = new FileInputStream(file);

HWPFDocument doc = new HWPFDocument(fis);

String doc1 = doc.getDocumentText();

System.out.println(doc1);

StringBuilder doc2 = doc.getText();

System.out.println(doc2);

Range rang = doc.getRange();

String doc3 = rang.text();

System.out.println(doc3);

fis.close();

} catch (Exception e) {

e.printStackTrace();

}

}

2、docx文件读取简单示例:

public static void readAndWriterTest4() throws IOException {

File file = new File("C:\Users\tuzongxun123\Desktop\aa.docx");

String str = "";

try {

FileInputStream fis = new FileInputStream(file);

XWPFDocument xdoc = new XWPFDocument(fis);

XWPFWordExtractor extractor = new XWPFWordExtractor(xdoc);

String doc1 = extractor.getText();

System.out.println(doc1);

fis.close();

} catch (Exception e) {

e.printStackTrace();

}

}

我并没有在工作中操作过word,这篇博客也只是一时兴起所做,因此写的很简单。

而最近陆续有朋友找我询问相关的问题,其中有好几个都在询问依赖包有哪些,为了避免一再回答这种问题,特将依赖包截图:

到此这篇关于java使用poi读取doc和docx文件的实现示例的文章就介绍到这了,更多相关java poi读取doc和docx内容请搜索云海天教程以前的文章或继续浏览下面的相关文章希望大家以后多多支持云海天教程!

java获取docx_java使用poi读取doc和docx文件的实现示例相关推荐

  1. java 读取 doc_java使用poi读取doc和docx文件的实现示例

    这几天在学习java io流的东西,有一个网友看到博客后问了一个问题,就是说他的doc文档为什么用我所说的方法死活就是乱码. 我一开始以为是他方法问题,结果自己试了之后发现和他的结果一样也是乱码. 于 ...

  2. java读取docx_java使用poi读取doc和docx文件

    maven构建的项目-->pom.xml文件 eclipse提供Dependencies直接添加依赖jar包的工具:直接搜索poi以及poi-ooxml即可,maven会自动依赖需要的jar包: ...

  3. poi获取段落位置_java poi读取.doc和.docx文件时获取图片与段落的对应关系

    .doc文件 代码中的WordParagraph类是自己创建的实体类,用于记录文本信息和图片 file_word对象为前台上传的MultipartFile对象. // doc格式 List wordP ...

  4. java使用poi读取doc和docx文件

    这几天在学习java io流的东西,有一个网友看到博客后问了一个问题,就是说他的doc文档为什么用我所说的方法死活就是乱码. 我一开始以为是他方法问题,结果自己试了之后发现和他的结果一样也是乱码. 于 ...

  5. POI读取doc、docx文件

    1.明确几个概念: Range:它表示一个范围,这个范围可以是整个文档,也可以是里面的某一小节(Section),也可以是某一个段落(Paragraph),还可以是拥有共同属性的一段文本(Charac ...

  6. java 读取doc文件_如何在java中读取Doc或Docx文件?

    我想在 java中读一个word文件 import org.apache.poi.poifs.filesystem.*; import org.apache.poi.hpsf.DocumentSumm ...

  7. POI读取.doc 和.docx的区别

    一:认识POI  Apache POI是一个开源的利用Java读写Excel.WORD等微软OLE2组件文档的项目.最新的3.5版本有很多改进,加入了对采用OOXML格式的Office 2007支持, ...

  8. 【Python】python读取doc、docx文件里的表格内容并存入excel中

    效果 先展示下基本的效果,首先我们只有一个doc文件,与python的代码: 我这里用的是doc的word文档,文档内表格如下: 通过python读取后打印: 我这里没有专门按照表格内往excel中写 ...

  9. java poi生.docx_java – Apache POI或docx4j处理docx文件

    披露:我领导docx4j项目 虽然docx4j也可以处理pptx和xlsx,但它主要用于docx操作.作为例证,在写作时,docx4j forum中有近1000个主题.pptx论坛只有10%的音量. ...

  10. poi 顺序解析word_利用POI读取word、Excel文件的最佳实践教程

    前言 POI是 Apache 旗下一款读写微软家文档声名显赫的类库.应该很多人在做报表的导出,或者创建 word 文档以及读取之类的都是用过 POI.POI 也的确对于这些操作带来很大的便利性.我最近 ...

最新文章

  1. 综述|深度学习在SLAM定位与建图中的应用(近250篇参考文献)
  2. 数据可视化,需要遵循的几条核心原则
  3. 近期发现的一些-20190519
  4. RuoYi-Process多模块activity工作流项目快速搭建
  5. python在数据分析的应用_Python运用于数据分析的简单教程
  6. offline 与 online 事件监听浏览器是否在线
  7. Cognos SDK 入门教程(一) - Hello Cognos
  8. 微信飞机大战游戏开发
  9. Anroid 开发so文件找不到问题-例高德地图SDK提示com.autonavi.amap.mapcore.MapCore.nativeNewInstance问题
  10. DSP复习笔记(2)——TMS320F28335芯片内部结构
  11. 区块链中的哈希到底是什么?
  12. Mac技巧 — QuickTime Player 设置播放速度
  13. 北京:外地社保卡可以在北京19家医院实现住院费用即时结算!
  14. ssm+mysql+安卓app大学生社团信息管理系统-计算机毕业设计源码99953
  15. LIO-SAM:在高斯牛顿法求解过程中用SO3代替欧拉角
  16. 初探Java设计模式2:结构型模式(代理模式,适配器模式等)
  17. 思维启发之意外的收获(发现自己思维局限和掀开二级指针的虎皮)
  18. java word 转html 的两种方法
  19. 基于粒子群优化二维Otsu的肺CT图像分割算法
  20. 你们关心的问题:产品经理面试中的职业规划及项目经历要怎么说?

热门文章

  1. 用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?
  2. 深度数据全方位解析:冰桶挑战---TOMsInsight 2014.08.20
  3. 阿里云OSS线程增长问题分析
  4. 超实用的容器镜像漏洞检测工具 Trivy 入门指南
  5. linux洪水攻击软件,Linux遭受SYN洪水攻击设置
  6. 计算机实现两个数相加的过程,嵌入式FORTH虚拟计算机的实现
  7. 不能显示隐藏文件或文件夹的完整解决方案
  8. pos收银系统 php,POS收银系统
  9. manjaro pacman 使用方法总结
  10. 【新年快乐】2022年跨年钟声即将敲响,2021终将成为历史