Word文档格式的解码分析
文章原创,转载请注明出处
最近发现从网上复制粘贴到一个word文档中的奇特的格式问题:浏览器网页上是正常的,如左图,可是粘贴到word中则成右图那样,行首出现了个奇怪的符号:
,不知何故,而且无论如何清除格式也去不掉:
于是决定看看word文档是怎么编码的。
新建一个word文档,输入内容如下:
保存之后用UitrlEdit以二进制打开保存的一个word文档,居然发现文件首为PK开头,那说明是就一个压缩文件包了,尝试将该word文档的后缀改为.zip,然后用解压缩软件居然果然能够正常解压缩,得到如下图所示的一些文件:
[Content_Types].xml文件中记录这个文件夹下所有文件的清单:
打开docProps文件夹如下图所示:
App.xml文件中的内容:
Core.xml中的信息就是通常我们直接文件右键得到的文件信息了
打开word文件夹就看到该文档的核心内容了:
为了解决自己的问题个人是对document.xml文件感兴趣了,打开之
绿色圆圈中的字符就是自己在该word文档中输入的字符内容了“132132453书写规范采用和”居然被分成了两个部分分别标记和保存了。整个文件是各种标记的集合,包含了每部分字符所用的字体和对应的格式。用户字符在文档正文“w:body”标记之中并且以“w:t”标记分割保存,“w:pgMar”标记记录了字符串的对齐格式吧,应该是以像素单位来定位的,其他还有“w:gutter”分割线信息,“w:cols w:space”文档列信息,“w:rFonts”字体信息等等。
接着将有奇怪字符的字符串保存在一个新建的word文档中,清除所有的格式,如下
保存并以压缩文件包打开分析其内容,发现原来字符串前面那个标记是一个书签符号:<w:bookmarkStartw:id="0" w:name="t1"/><w:bookmarkEndw:id="0"/>
所以要去除那个符号就比较好办了,直接鼠标定位到那个符号处然后通过word的“插入”菜单中的“书签”按钮,得到书签编辑对话框:
然后点击删除按钮就可以去掉那个记号了,结果如下图所示:
看来通过对word文档的分析,了解了其编码和组成对于以后恢复损坏的word文档或者对word文档中的数据进行分析处理也会有帮助的。
Word文档格式的解码分析相关推荐
- python docx修改word文档格式
修改word文档格式,包括修改目录字体字号间距,修改一级标题字体字号间距,二级标题字体字号间距....正文字体字号间距,表格中的文字的字体字号间距,以图或表开头的图名称和表名称的字体字号间距. wor ...
- 写一个可以一键统一调整word文档格式的程序
要写一个可以一键统一调整 Word 文档格式的程序,可以使用 Microsoft Office Word 的 VBA 功能来实现. 步骤如下: 打开 Word 文档,在菜单栏中点击"开发人员 ...
- java填充wordxml格式,java xml转成word文档格式
xml格式如何转换成doc格式文件 通过jodconveter来实现转化(http://www.artofsolving.com/opensource/jodconverter). 这种方式实现起来比 ...
- Word文档格式混乱出错等排版问题的解决方法
编辑文档的时候,很多同学都苦恼于格式混乱.出错.文字过胖或过瘦等问题.这里,小编就教各位几招,学会后就基本可以对付文档啦.(PS:小编使用的是WORD2013,不过各个版本之间的布局一致,不用担心不适 ...
- 电脑pdf怎么转word文档格式?
电脑pdf怎么转word文档格式?不管是在工作中还是生活学习时,我们都需要处理各种电脑文件,其中比较多的就是文件格式转换,这是一项每个人都需要掌握的技能.pdf和word都属于比较常见的电脑文件,很多 ...
- linux创建word文件格式,WORD文档格式要求与linux学习规划
WORD文档格式要求 一.封面 1.活动名称(隶书,小初号字,加粗) 2.主办单位.策划日期(宋体.3号字) 二.目录 1.名章节标题(宋体.4号),其余(宋体.小4号) 三.正文 1.中文题目:(宋 ...
- html图片如何转换成word文档格式,怎么将Word文档里的图片格式改成文字格式?
回答: 使用Word编辑文档的时候,不仅可以保存成Word格式,也可以保存为其它格式.但有的时候需要将大批的已经编辑完成的Word文档转换成文本格式或其他格式文档,怎么办?如果通过"另存为& ...
- python-docxtpl妙用:论文神器,excel习题集自动转换成word文档格式!
python-docxtpl妙用:论文神器,excel习题集自动转换成word文档格式! 第三方库 # pandas数据处理 import pandas as pd# word文档处理库 from d ...
- html保存导入word文档格式,WordPress网站在导入Word文档时如何保持原有格式
WordPress程序后台有文章发布功能,可以添加文字和图片.如果想将自己在排版好的Word 文档导入到WordPress ,作为文章发布,却不是一件容易的事情,如果我们直接复制,Word 文档本身的 ...
- 将百度富文本编辑器(ueditor)中的内容转化为word文档格式
业务场景 需求:根据富文本中的内容生成对应的word文档进行预览和下载功能. 实现: 采用 POIFSFileSystem 类相关实现,能够准确的将文字.格式相关内容转换成功,但是对于在线的网络图片, ...
最新文章
- matlab中窗函数的使用(二)
- Html中框架的使用
- 扩展欧几里得学习笔记
- Python爬虫入门教程 22-100 CSDN学院课程数据抓取
- java调用qq接口_用java代码怎么去请求腾讯接口并返回值
- Java FilterInputStream reset()方法与示例
- java boxplot_java – 具有多个类别的Boxplots的JFreeChart缩放
- 第三届蓝桥杯决赛c++b组
- IIS Express局域网访问配置
- mysql批量执行sql文件
- lg g2刷android8.0,lg g2线刷刷机教程(可救砖)
- 椭圆函数与模函数(2012.10出版)(2013-01-16 09:34:57)
- Git 笔记 - 程序员都要掌握的 Git
- 如何通过网页超链接控制电脑应用程序
- c语言黑底图片,用c语言把bmp格式的彩色图片转换成黑白的
- 超级简单的私有云笔记+私有云网盘
- 初中计算机期末质量分析,信息技术期末质量分析
- 商人过河c语言实验报告,商人过河C语言程序编程
- 【Linux】常见命令总结
- html获得焦点显示边框,input获得焦点时,如何让外边框不变蓝