背景:最近接到一个解析doc后缀的word文件的需求,结果报错提示是rtf类型文件,无法解析。接下来,我将解析rtf

文件的代码分享出来。

1. 解析正常.doc后缀文件

//解析正常.doc后缀文件
XWPFDocument ex = new XWPFDocument(file.getInputStream());
POIXMLTextExtractor extractor = new XWPFWordExtractor(ex);
String result = extractor.getText();
extractor.close();

2. 航司提供的文件后缀是doc,格式是rtf类型的

//航司提供的文件后缀是doc,格式是rtf类型的
RTFEditorKit rtf = new RTFEditorKit();
DefaultStyledDocument styledDoc = new DefaultStyledDocument();
InputStream inputStream = file.getInputStream();
rtf.read(inputStream, styledDoc, 0);
String text = styledDoc.getText(0, styledDoc.getLength());
String result = StringToRtfUtil.chineseStrTortf(text);

解析rtf格式的文件数据相关推荐

  1. ajax读取文件数据,Ajax 实现读取 properties 格式资源文件数据

    Ajax 的核心是 JavaScript 对象 XmlHttpRequest.该对象在 Internet Explorer 5 中首次引入,它是一种支持异步请求的技术.简而言之,XmlHttpRequ ...

  2. 方正排版只支持rtf格式的文件在线打开的解决方案

    利用wps后台打开的方式 将doc.docx.wps格式的文件隐藏转换为rtf格式 就可以在线打开了 //原始文件路径 var href = platformWpsUploadUrl() + &quo ...

  3. Java 中解析 xml 格式字符串的数据

    解析 xml 格式中的字符串数据 相信有很多小伙伴经历过接口返回的数据是在一段 xml 字符串格式的数据里,那么我们可用什么最快最便捷的方法取到里面的数据勒? 下面这里是一个xml 格式的是实例 这里 ...

  4. [原创]从RTF格式 的文件中提取文本。

    因为需要提高<资料收集库>的查找速度,所以需要从RTF格式的内容中提取所有的文本出来, 注意,是文本,不带格式,也不带图片.实际上只要知道RTF的控制符号可能出现的字符就能搞定了. 贡献给 ...

  5. p12解析流程_OpenSSL 解析P12格式证书文件

    a) openssl dsaparam -out dsaparam 1024 b) openssl gendsa -out dsakey dsaparam 3.2 生成ca待签名证书 openssl ...

  6. 【Python图像特征的音乐序列生成】解析ABC格式的文件(修改版)

    ABC格式,是一个音乐标准,ABC Plus Project最新的标准是2.x. ABC格式的音乐长成这样: 1 X: 2 2 T:Abacus 3 % Nottingham Music Databa ...

  7. DICOM笔记-解析JPEG压缩格式DCM文件

      项目中使用了DICOM文件保存图像,之前经常遇到DICOM内放置的是short类型或者float类型的二维图像,按照之前的代码处理JEPG压缩的DICOM文件,当然会出现问题:从网上查到资料,是由 ...

  8. RTF与RTFD格式的文件

    RTF:Rich Text Format 富文本格式 RTFD:Rich Text Format Document RTF,富文本格式,是由微软公司开发的跨平台文档格式,大多数的文字处理软件都能读取和 ...

  9. java 录音并包装成wav格式的文件方法-与-WAV解析-大小端-寄存器!,提取wav数据音频,一篇讲完!

    简单了解什么是WAV? 它是微软公司为Windows系统开发的一种标准的数字音频可,直接存储声音波形,并且它的波形曲线还原的真实感很好,但是也有缺点:存储磁盘空间大,多用于存储简短的声音片段. 是PC ...

最新文章

  1. c语言中不能表示的整型常量进制,C语言中整型常量的表示方法
  2. 【迁移学习(Transfer L)全面指南】元学习
  3. c语言中volatile关键字
  4. CSS之:active选择器
  5. innobackupex中--slave-info参数的含义和适用场景
  6. TCP/IP学习笔记(四)TCP超时重传及拥塞控制
  7. 深入理解InnoDB(5)-文件系统
  8. java生成8位邀请码,邀请码生成器Java代码
  9. can总线一帧多少字节多少位_一条CAN报文到底有多少位?-汽车电子-与非网
  10. tftp64工具使用
  11. Arcgis使用教程(八)地图文档(.Mxd)的使用方法详解
  12. 基于神经网络的系统辨识,神经网络的种类和特点
  13. 国内 Top2 高校研一在读,为什么感觉深度学习越学越懵?
  14. 基于springboot的4s店车辆管理系统-计算机毕业设计(源码+数据库+Lw文档)
  15. CF-C. Dima and Salad
  16. 焦距換算倍率(Focal length ratio)
  17. php 插件推荐,Typecho实用插件推荐(一)
  18. 用PS做手机计算机,功能与电脑ps相媲美的手机画画软件
  19. Prometheus + Grafana + alertmanager实现Substrate区块链节点实时监控报警系统(上)
  20. 关于微信小程序 Error: errCode: -501001 resource system error | errMsg: Environment not found; 错误解决方案

热门文章

  1. centos部署bbr加速,速度提升1000%~1500%
  2. 【推荐阅读】JavaScript 中的 SOLID 原则(一):“S”代表什么
  3. 医学序列图像定位线绘制基本方法介绍
  4. dronekit 控制飞控 上/下/前/后/左/右 或是 上/下/东/西/南/北
  5. 浙江省信息奥赛c语言,浙江信息学奥赛强势大揭秘!40%的信息学国家队选手来自浙江!...
  6. 中柏ezpadE7装linux,中柏EZpad i7怎么样 中柏EZpad i7详细评测
  7. 1410:最大质因子序列
  8. FPGA读取尼康(Nicon)编码器MAR-M50AH方法(DSP+FPGA)
  9. halcon 焊点检测案例
  10. web服务器的作用!