【学习档案】word文档转为XML格式
------------------------------------------2013.7.26------------------------------------------
近地面大气温度31°C,天气晴。
昨天了解到java有一个jacob开源库可以将word转换为html格式。
【猜想】word中的图表信息会在html中转换为相似的table等标签进行存储。
如果猜想正确的话,便可以分析提取html文档中的有效信息,进一步生成规定格式的xml文档。
【下午的工作】
上午的猜想完全正确。
在浏览了一些关于jacob的资料之后,成功的引用jacob库将包含表格的word文档转化成了html及txt格式。
特别感谢ID=捂汗县长 文章中的资料。
参考资料:jacob 实现Office Word文件格式转换..:http://blog.csdn.net/laoyaotask/article/details/9391435
期间遇到了无法读写源word文档的问题,是由该源文件为只读格式引起的,更改之后问题解决。
【下步计划】
因为转化成的html文档也只是单纯的文本,而不存在标签,所以在比较之后决定直接使用txt格式的文档使用自然语言处理(NLP)对其进行数据的挖掘。
------------------------------------------2013.7.31------------------------------------------
近地面大气温度29°C,天气晴,略有雾霾。
明天就踏上回家的旅程了~略开心,虽然取票的时候遇到了一些小波折。
【想法】希望今天可以把批量转化实现,打算继续使用java来实现,主要是为了方便之前的代码拼合。
【上午的工作】
实现了今天的想法。将指定目录下的所有word文档批量转化为了txt文档。
了解了java中的一些关于文件调用的方法。
//获取当前文件对象的文件名,转为字符串格式并判断是否以.doc结尾
File file.getName().toString().endWith(.doc);//判断该文件对象是否为文件夹
File file.isDirectory();//获取路径下所有的文件和文件夹【.listFile()】
File[] files = path.listFiles(new FileFilter()
参考资料来源:
java遍历目录下所有后缀名为.java的文件:http://zhidao.baidu.com/question/229445883.html
java FileFilter 过滤只保留文件夹和.xls文件:http://zhidao.baidu.com/question/538907121.html
【下步计划】
其实就是26号的【下步计划】,不过转换成xml的方法初期将换为正则表达式。
——————————因为学习计划变更,该项目暂时终止——2014.3.7——————————
【学习档案】word文档转为XML格式相关推荐
- 如何批量将 Word 文档转为 HTML 格式
概要:HTML 的全称为超文本标记语言,是一种标记语言.我们可以将所需要表达的信息按某种规则写成 HTML 文件,这样可以通过专用的软件来识别,比如常用的浏览器.这些软件可以将这些 HTML 文件&q ...
- 如何批量将 Word 文档转为 ePub 格式
概要:ePub 是一个自由的开放标准,属于一种可以"自动重新编排"的内容,也就是文字内容可以根据阅读设备的特性,以最适于阅读的方式显示,所以现在主流的电子书基本都是 ePub 的. ...
- 如何批量将 Doc 格式的 Word 文档转为 Docx 格式
概要:我们都知道 Word 格式有多种.比如常见的有 Doc.Docx,这两种类型是能够相互兼容的,也是能够相互转化的.那今天给大家介绍的是如何将多个 Doc 格式文档批量转为 Docx 格式. 我们 ...
- word文档转为PDF以及多种文档格式转换
word文档转为PDF以及多种文档格式转换 项目地址:https://gitee.com/Jakewabc/word-of-pdf.git 相关案例: https://github.com/aspos ...
- .NET操作WORD文档另存为其他格式的文件
刚在研究研究怎么可以在.NET程序中把WORD文档另存为XPS文件,学习了一些概念和操作,马上记录下来吧,进入正题. 1. 添加与WORD互操作的类库,里面包含着WORD对象模型的.NET表示: 一看 ...
- 导出word文档生成docx格式 添加水印
为了导出docx格式看了等多文档,最后做个总结依赖包用到dom4j和freemarker,最为方便. <!-- https://mvnrepository.com/artifact/freema ...
- Java程序实现Word文档转为pdf以及出现的问题解决
做兽医项目需要用到这种需求,很多程序员都遇到过,有些word文档希望直接在浏览器中打开进行预览,但是浏览器往往不是很配合,直接就提示下载,不像pdf文档,浏览器可以直接进行预览. 1. Word文档转 ...
- 怎么将word文档转为pdf
很多人问我怎么将word文档转为pdf,用程序,这个就是 package com.zms.office2pdf; import jp.ne.so_net.ga2.no_ji.jcom.IDispatc ...
- 【软件操作】Office将Word文档转换为PDF格式
一.问题描述 PDF格式(Portable Document Format)相比于Word文档(.doc/.docx格式)体积更大,但具有更好的文档一致性(减少排版问题),修改更困难(不易被外界篡改) ...
最新文章
- 配置hibernate根据实体类自动建表功能
- matlab 图像旋转补色,旋转互补色光学错觉
- 编号是i的结点所在的层次号是_九章算法 | 微软面试题:二叉树的锯齿形层次遍历...
- codevs 1415 比那名居天子
- 微信回应 WeTool 被封事件;支付宝小程序开放直播功能;Raspberry Pi 4 发布 8GB 版本| 极客头条...
- numpy——zeros(), ones(), empty(), eye()
- 问题五十三:怎么用ray tracing画参数方程表示的曲面(1)
- java 接口 回调_Java接口回调机制详解
- CocoStuff—基于Deeplab训练数据的标定工具【二、用已提供的标注数据跑通项目】...
- VMware虚拟机安装Win10
- 从0开始使用Git:Win10下使用Git配置并关联Gitbub远程仓库全教程与踩坑分析
- 学英语《每日一歌》之brave
- k8s pv与pvc
- 爬虫:获取OLD的Oxford 3000 and 5000
- 计算机学院工作总结报告,计算机学院学生会中期工作总结大会
- 【Linux】用进程控制知识做一个简易版shell
- css样式 向下补白,div+css[3]:css中边框border与补白padding属性设置
- 国产化系统改造实践(未完)
- ie中的html分页控制,IE中HTML打印时实现每页都有的表头和打印分页
- python数据域宽左对齐_Python语言及其运用_第七章_像高手一样玩转数据
热门文章
- kubeadm 常用命令
- iOS视频添加水印两种方式(不用到第三方框架)
- 侦听器watch及其和计算属性、methods方法的总结
- 因果倒置的实验名称是“延迟实验”(Wheeler's delayed choice experiment)
- 温莎大学的计算机科学,温莎大学 University of Windsor
- Ubuntu - 消除登录界面小白点 - 禁用Guest来宾账户
- 华为中标肯尼亚蒙内铁路项目 提供面向未来的运营通信网络
- 10347 忙碌又贪心的泥瓦匠
- Codeforces311D. Interval Cubing 神线段树
- CSS实现鼠标经过div时改变背景图片