java读取word文档里面的内容(包括doc和docx格式)
java读取word文档里面的内容(包括doc和docx格式)
java读取word文档里面的内容(包括doc和docx格式),使用POI架包
使用的POI架包如下
poi-3.16.jar
poi-examples-3.16.jar
poi-excelant-3.16.jar
poi-ooxml-3.16.jar
poi-ooxml-schemas-3.16.jar
poi-scratchpad-3.16.jar
目前POI的最新发布版本是3.10_FINAL.该版本保护的jar包有:
很多人都困惑POI那么多Jar到底应该导入哪一个。
实际上很多时候我们只利用POI来操作Excel。甚至只用xls这一种格式。
那么就没有必要全部都导入了。具体应该使用哪个JAR包请参考以下内容:
当我们只要使用xls格式时、只要导入poi-version-yyyymmdd.jar就可以了。
当我们还要使用xlsx格式、还要导入poi-ooxml-version-yyyymmdd.jar。
至于poi-ooxml-schemas-version-yyyymmdd.jar这个jar基本不太会用到的。
当我们需要操作word、ppt、viso、outlook等时需要用到poi-scratchpad-version-yyyymmdd.jar。
读取word文档中,doc后缀的文件
直接上代码
//读取word文档中,doc后缀的文件public static List<String> searchWordDoc(String fileUrl){List<String> docList = new ArrayList<String>();String content=null;//读取字节流,读取文件路径InputStream input = null;try {input = new FileInputStream(new File(request.getSession().getServletContext().getRealPath(fileUrl)));WordExtractor wex = new WordExtractor(input);content = wex.getText();//System.out.println(content);docList.add(content);} catch (Exception e) {e.printStackTrace();}return docList;}
将文件路径传进来,最后得到的使一个List集合,是一行一行的读取,每一行的内容对应List的下标
读取word文档中,docx后缀的文件
直接上代码
public static List<String> searchWordDocX(String fileUrl){//读取文件路径OPCPackage opcPackage = null;String content = null;List<String> docxList = new ArrayList<String>();try {opcPackage = POIXMLDocument.openPackage(request.getSession().getServletContext().getRealPath(fileUrl));XWPFDocument xwpf = new XWPFDocument(opcPackage);POIXMLTextExtractor poiText = new XWPFWordExtractor(xwpf);content = poiText.getText();docxList.add(content);} catch (IOException e) {e.printStackTrace();}return docxList;}
将文件路径传进来,最后得到的使一个List集合,是一行一行的读取,每一行的内容对应List的下标
最后附上jar包下载位置
百度网盘:https://pan.baidu.com/s/1Y4BLto_mEUkS7Xhx1GJmzA
提取码:vor5
java读取word文档里面的内容(包括doc和docx格式)相关推荐
- c# .net 读取word文档文件,.txt、.doc、.docx、.xls、xlsx
目前市面上的方案 最受欢迎的"NPOI"."Microsoft.Office.Interop"."Spire.Doc",如果有不全的,欢迎指 ...
- Java 读取Word文档中的文本内容
这篇文章将介绍如何使用Free Spire.Doc for Java组件在Java应用程序中读取Word文档的文本内容.Free Spire.Doc for Java提供了两种方法来读取Word文档中 ...
- Java读取word文档里的复杂型表格(任免表)
使用apache-poi读取word文档里的复杂型表格 这里使用的任免表编辑器产生的word文档. word模板:https://download.csdn.net/download/weixin_4 ...
- java读取word文档内容_合并多个Word文档内容,还在复制粘贴就out了,同事五秒轻松搞定...
在我们工作中,我们经常会编写多个Word文档内容,那么怎么将多个单个的Word文档合并到一个文档中,这就会显得有些难度. 如上图所示,我们需要将三个不同的案例,快速的汇总到我们的案例汇总表当中.许多朋 ...
- java读取word文档内容_Python读取PDF信息插入Word文档
Hello,上个周末没能搞事情,被一个代码需求给绊住了:朋友在平时工作中会经常重复性地打开不同PDF文件,选取其中特定的几组信息复制粘贴到不同的Word文档中,完成一份PDF文件平均耗时15分钟,想试 ...
- java读取word文档的复杂表格_poi读取word表格 java POI 如何读取word的表格中的表格...
poi 操作word 2007 (如何删除word中的某一个表格)小编忘了哪年哪月的哪日小编在哪面墙上刻下张脸张微笑着忧伤着凝望小编的脸. public static void changeTable ...
- Java 读取 Word文档的字体、字号、文字颜色、文字背景、文字是否加粗或倾斜、文字下划线、段落等属性
Work库:free spire.doc.jar 3.9.0 由于这个包比较大,maven依赖容易下载失败,故此提供百度云下载地址,下载地址在最下面 可支持读取字体.字号.文字颜色.文 ...
- java读取word文档中的文字和图片,doc和docx兼容版
也是我东抄抄,西抄抄拿来测试改装的,话不多说,直接上代码 <dependency><groupId>commons-io</groupId><artifact ...
- java获取word文档标题和内容
导包: <dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</a ...
最新文章
- php扩展 zval_copy_ctor,zend api扩展的php对象的autoload工具
- Nginx之负载均衡
- Java单层循环实现输出九九乘法表
- 【性能优化】 之AWR 报告分析
- 创校史纪录!26岁女博导发顶刊
- linux下tomcat部署java web项目_求助帖 linux服务器 tomcat部署javaweb项目问题
- Impinj增强ItemSense软件功能,简化RFID方案部署
- 《追风筝的人》卡勒德·胡赛尼著小说成长的故事
- ensp综合组网实验_关于实验室温度控制的那些事
- java.util.list e_java.util 类 StackE - Java 中文参考手册
- bzoj 3609: [Heoi2014]人人尽说江南好(博弈)
- 3.React学习笔记(完)----nodejs命令备份+跨域问题处理
- Prolog入门教程(完整版+专家系统案例)
- 【Python爬虫】你还在纠结选择哪个爬虫库嘛,全都拿来吧你
- 百度地图清除指定覆盖物(Overlay),保留某种覆盖物( disableMassClea),清除保留的覆盖物(enableMassClear)
- Mysql查询表中每行数据大小_计算数据库中各个表的数据量和每行记录所占用空间的脚本-转载来自(博客园 桦仔)...
- 时光不会辜负你一直以来的坚持——读《人生效率手册》
- // 和 \\ 都表示什么意思
- 执行docker命令,出现Cannot connect to the Docker daemon at unix:///var/run/docker.sock.
- JAVA看云判断天气_怎样看云判断天气变化?
热门文章
- 无法启动计算机怎么处理器,今天早上电脑死活开不开机了,是怎么回事
- 小程序 左滑喜欢右滑讨厌的实现
- 读富豪、麻将和社会保障(卢辘轳)
- 关于canvas获取toDataUrl()相关函数的同源策略问题
- 编译原理,C/C++实现C-语言的词法分析器
- 金三银四面试“超全秘籍”
- 计算机可以调环境工程吗,地理学被调剂到环境科学/环境工程专业,值得去么?...
- 嵌入式Linux技术(转)
- csgo服务器linux云崖居,测测你对csgo的理解有多深
- YYModel底层解析- Runtime