文章原创,转载请注明出处

最近发现从网上复制粘贴到一个word文档中的奇特的格式问题:浏览器网页上是正常的,如左图,可是粘贴到word中则成右图那样,行首出现了个奇怪的符号:

,不知何故,而且无论如何清除格式也去不掉:

于是决定看看word文档是怎么编码的。

新建一个word文档,输入内容如下:

保存之后用UitrlEdit以二进制打开保存的一个word文档,居然发现文件首为PK开头,那说明是就一个压缩文件包了,尝试将该word文档的后缀改为.zip,然后用解压缩软件居然果然能够正常解压缩,得到如下图所示的一些文件:

[Content_Types].xml文件中记录这个文件夹下所有文件的清单:

打开docProps文件夹如下图所示:

App.xml文件中的内容:

Core.xml中的信息就是通常我们直接文件右键得到的文件信息了

打开word文件夹就看到该文档的核心内容了:

为了解决自己的问题个人是对document.xml文件感兴趣了,打开之

绿色圆圈中的字符就是自己在该word文档中输入的字符内容了“132132453书写规范采用和”居然被分成了两个部分分别标记和保存了。整个文件是各种标记的集合,包含了每部分字符所用的字体和对应的格式。用户字符在文档正文“w:body”标记之中并且以“w:t”标记分割保存,“w:pgMar”标记记录了字符串的对齐格式吧,应该是以像素单位来定位的,其他还有“w:gutter”分割线信息,“w:cols w:space”文档列信息,“w:rFonts”字体信息等等。

接着将有奇怪字符的字符串保存在一个新建的word文档中,清除所有的格式,如下

保存并以压缩文件包打开分析其内容,发现原来字符串前面那个标记是一个书签符号:<w:bookmarkStartw:id="0" w:name="t1"/><w:bookmarkEndw:id="0"/>

所以要去除那个符号就比较好办了,直接鼠标定位到那个符号处然后通过word的“插入”菜单中的“书签”按钮,得到书签编辑对话框:

然后点击删除按钮就可以去掉那个记号了,结果如下图所示:

看来通过对word文档的分析,了解了其编码和组成对于以后恢复损坏的word文档或者对word文档中的数据进行分析处理也会有帮助的。

Word文档格式的解码分析相关推荐

  1. python docx修改word文档格式

    修改word文档格式,包括修改目录字体字号间距,修改一级标题字体字号间距,二级标题字体字号间距....正文字体字号间距,表格中的文字的字体字号间距,以图或表开头的图名称和表名称的字体字号间距. wor ...

  2. 写一个可以一键统一调整word文档格式的程序

    要写一个可以一键统一调整 Word 文档格式的程序,可以使用 Microsoft Office Word 的 VBA 功能来实现. 步骤如下: 打开 Word 文档,在菜单栏中点击"开发人员 ...

  3. java填充wordxml格式,java xml转成word文档格式

    xml格式如何转换成doc格式文件 通过jodconveter来实现转化(http://www.artofsolving.com/opensource/jodconverter). 这种方式实现起来比 ...

  4. Word文档格式混乱出错等排版问题的解决方法

    编辑文档的时候,很多同学都苦恼于格式混乱.出错.文字过胖或过瘦等问题.这里,小编就教各位几招,学会后就基本可以对付文档啦.(PS:小编使用的是WORD2013,不过各个版本之间的布局一致,不用担心不适 ...

  5. 电脑pdf怎么转word文档格式?

    电脑pdf怎么转word文档格式?不管是在工作中还是生活学习时,我们都需要处理各种电脑文件,其中比较多的就是文件格式转换,这是一项每个人都需要掌握的技能.pdf和word都属于比较常见的电脑文件,很多 ...

  6. linux创建word文件格式,WORD文档格式要求与linux学习规划

    WORD文档格式要求 一.封面 1.活动名称(隶书,小初号字,加粗) 2.主办单位.策划日期(宋体.3号字) 二.目录 1.名章节标题(宋体.4号),其余(宋体.小4号) 三.正文 1.中文题目:(宋 ...

  7. html图片如何转换成word文档格式,怎么将Word文档里的图片格式改成文字格式?

    回答: 使用Word编辑文档的时候,不仅可以保存成Word格式,也可以保存为其它格式.但有的时候需要将大批的已经编辑完成的Word文档转换成文本格式或其他格式文档,怎么办?如果通过"另存为& ...

  8. python-docxtpl妙用:论文神器,excel习题集自动转换成word文档格式!

    python-docxtpl妙用:论文神器,excel习题集自动转换成word文档格式! 第三方库 # pandas数据处理 import pandas as pd# word文档处理库 from d ...

  9. html保存导入word文档格式,WordPress网站在导入Word文档时如何保持原有格式

    WordPress程序后台有文章发布功能,可以添加文字和图片.如果想将自己在排版好的Word 文档导入到WordPress ,作为文章发布,却不是一件容易的事情,如果我们直接复制,Word 文档本身的 ...

  10. 将百度富文本编辑器(ueditor)中的内容转化为word文档格式

    业务场景 需求:根据富文本中的内容生成对应的word文档进行预览和下载功能. 实现: 采用 POIFSFileSystem 类相关实现,能够准确的将文字.格式相关内容转换成功,但是对于在线的网络图片, ...

最新文章

  1. matlab中窗函数的使用(二)
  2. Html中框架的使用
  3. 扩展欧几里得学习笔记
  4. Python爬虫入门教程 22-100 CSDN学院课程数据抓取
  5. java调用qq接口_用java代码怎么去请求腾讯接口并返回值
  6. Java FilterInputStream reset()方法与示例
  7. java boxplot_java – 具有多个类别的Boxplots的JFreeChart缩放
  8. 第三届蓝桥杯决赛c++b组
  9. IIS Express局域网访问配置
  10. mysql批量执行sql文件
  11. lg g2刷android8.0,lg g2线刷刷机教程(可救砖)
  12. 椭圆函数与模函数(2012.10出版)(2013-01-16 09:34:57)
  13. Git 笔记 - 程序员都要掌握的 Git
  14. 如何通过网页超链接控制电脑应用程序
  15. c语言黑底图片,用c语言把bmp格式的彩色图片转换成黑白的
  16. 超级简单的私有云笔记+私有云网盘
  17. 初中计算机期末质量分析,信息技术期末质量分析
  18. 商人过河c语言实验报告,商人过河C语言程序编程
  19. 【Linux】常见命令总结
  20. html获得焦点显示边框,input获得焦点时,如何让外边框不变蓝

热门文章

  1. 目标检测中的非极大值抑制(NMS)
  2. opencv-python API 官网文档
  3. windows 一键切换ip dns脚本
  4. Python第三方库大全
  5. C语言中的除法运算符
  6. 烽火吉比特HG261GU获取超级密码教程
  7. DBSCAN密度聚类算法
  8. 通达信指标转python_python转换通达信股票数据
  9. 免校准的电量计量芯片_免校准的高精度计量芯片HLW8032
  10. 数字电路基础知识(四) 加法器-半加器、全加器与超前进位加法器