------------------------------------------2013.7.26------------------------------------------

近地面大气温度31°C,天气晴。

昨天了解到java有一个jacob开源库可以将word转换为html格式。

【猜想】word中的图表信息会在html中转换为相似的table等标签进行存储。

如果猜想正确的话,便可以分析提取html文档中的有效信息,进一步生成规定格式的xml文档。

【下午的工作】

上午的猜想完全正确。

在浏览了一些关于jacob的资料之后,成功的引用jacob库将包含表格的word文档转化成了html及txt格式。

特别感谢ID=捂汗县长 文章中的资料。

参考资料:jacob 实现Office Word文件格式转换..:http://blog.csdn.net/laoyaotask/article/details/9391435

期间遇到了无法读写源word文档的问题,是由该源文件为只读格式引起的,更改之后问题解决。

【下步计划】

因为转化成的html文档也只是单纯的文本,而不存在标签,所以在比较之后决定直接使用txt格式的文档使用自然语言处理(NLP)对其进行数据的挖掘。

------------------------------------------2013.7.31------------------------------------------

近地面大气温度29°C,天气晴,略有雾霾。

明天就踏上回家的旅程了~略开心,虽然取票的时候遇到了一些小波折。

【想法】希望今天可以把批量转化实现,打算继续使用java来实现,主要是为了方便之前的代码拼合。

【上午的工作】

实现了今天的想法。将指定目录下的所有word文档批量转化为了txt文档。

了解了java中的一些关于文件调用的方法。

//获取当前文件对象的文件名,转为字符串格式并判断是否以.doc结尾
File file.getName().toString().endWith(.doc);//判断该文件对象是否为文件夹
File file.isDirectory();//获取路径下所有的文件和文件夹【.listFile()】
File[] files = path.listFiles(new FileFilter()

参考资料来源:

java遍历目录下所有后缀名为.java的文件:http://zhidao.baidu.com/question/229445883.html

java FileFilter 过滤只保留文件夹和.xls文件:http://zhidao.baidu.com/question/538907121.html

【下步计划】

其实就是26号的【下步计划】,不过转换成xml的方法初期将换为正则表达式。

——————————因为学习计划变更,该项目暂时终止——2014.3.7——————————

【学习档案】word文档转为XML格式相关推荐

  1. 如何批量将 Word 文档转为 HTML 格式

    概要:HTML 的全称为超文本标记语言,是一种标记语言.我们可以将所需要表达的信息按某种规则写成 HTML 文件,这样可以通过专用的软件来识别,比如常用的浏览器.这些软件可以将这些 HTML 文件&q ...

  2. 如何批量将 Word 文档转为 ePub 格式

    概要:ePub 是一个自由的开放标准,属于一种可以"自动重新编排"的内容,也就是文字内容可以根据阅读设备的特性,以最适于阅读的方式显示,所以现在主流的电子书基本都是 ePub 的. ...

  3. 如何批量将 Doc 格式的 Word 文档转为 Docx 格式

    概要:我们都知道 Word 格式有多种.比如常见的有 Doc.Docx,这两种类型是能够相互兼容的,也是能够相互转化的.那今天给大家介绍的是如何将多个 Doc 格式文档批量转为 Docx 格式. 我们 ...

  4. word文档转为PDF以及多种文档格式转换

    word文档转为PDF以及多种文档格式转换 项目地址:https://gitee.com/Jakewabc/word-of-pdf.git 相关案例: https://github.com/aspos ...

  5. .NET操作WORD文档另存为其他格式的文件

    刚在研究研究怎么可以在.NET程序中把WORD文档另存为XPS文件,学习了一些概念和操作,马上记录下来吧,进入正题. 1. 添加与WORD互操作的类库,里面包含着WORD对象模型的.NET表示: 一看 ...

  6. 导出word文档生成docx格式 添加水印

    为了导出docx格式看了等多文档,最后做个总结依赖包用到dom4j和freemarker,最为方便. <!-- https://mvnrepository.com/artifact/freema ...

  7. Java程序实现Word文档转为pdf以及出现的问题解决

    做兽医项目需要用到这种需求,很多程序员都遇到过,有些word文档希望直接在浏览器中打开进行预览,但是浏览器往往不是很配合,直接就提示下载,不像pdf文档,浏览器可以直接进行预览. 1. Word文档转 ...

  8. 怎么将word文档转为pdf

    很多人问我怎么将word文档转为pdf,用程序,这个就是 package com.zms.office2pdf; import jp.ne.so_net.ga2.no_ji.jcom.IDispatc ...

  9. 【软件操作】Office将Word文档转换为PDF格式

    一.问题描述 PDF格式(Portable Document Format)相比于Word文档(.doc/.docx格式)体积更大,但具有更好的文档一致性(减少排版问题),修改更困难(不易被外界篡改) ...

最新文章

  1. 配置hibernate根据实体类自动建表功能
  2. matlab 图像旋转补色,旋转互补色光学错觉
  3. 编号是i的结点所在的层次号是_九章算法 | 微软面试题:二叉树的锯齿形层次遍历...
  4. codevs 1415 比那名居天子
  5. 微信回应 WeTool 被封事件;支付宝小程序开放直播功能;Raspberry Pi 4 发布 8GB 版本| 极客头条...
  6. numpy——zeros(), ones(), empty(), eye()
  7. 问题五十三:怎么用ray tracing画参数方程表示的曲面(1)
  8. java 接口 回调_Java接口回调机制详解
  9. CocoStuff—基于Deeplab训练数据的标定工具【二、用已提供的标注数据跑通项目】...
  10. VMware虚拟机安装Win10
  11. 从0开始使用Git:Win10下使用Git配置并关联Gitbub远程仓库全教程与踩坑分析
  12. 学英语《每日一歌》之brave
  13. k8s pv与pvc
  14. 爬虫:获取OLD的Oxford 3000 and 5000
  15. 计算机学院工作总结报告,计算机学院学生会中期工作总结大会
  16. 【Linux】用进程控制知识做一个简易版shell
  17. css样式 向下补白,div+css[3]:css中边框border与补白padding属性设置
  18. 国产化系统改造实践(未完)
  19. ie中的html分页控制,IE中HTML打印时实现每页都有的表头和打印分页
  20. python数据域宽左对齐_Python语言及其运用_第七章_像高手一样玩转数据

热门文章

  1. kubeadm 常用命令
  2. iOS视频添加水印两种方式(不用到第三方框架)
  3. 侦听器watch及其和计算属性、methods方法的总结
  4. 因果倒置的实验名称是“延迟实验”(Wheeler's delayed choice experiment)
  5. 温莎大学的计算机科学,温莎大学 University of Windsor
  6. Ubuntu - 消除登录界面小白点 - 禁用Guest来宾账户
  7. 华为中标肯尼亚蒙内铁路项目 提供面向未来的运营通信网络
  8. 10347 忙碌又贪心的泥瓦匠
  9. Codeforces311D. Interval Cubing 神线段树
  10. CSS实现鼠标经过div时改变背景图片