可以参考一下英文文档的帮助文件
http://www.differencebetween.net/technology/protocols-formats/difference-between-doc-and-docx/comment-page-1/
最近书写论文的时候突然发现,在docx与doc中粘贴图片时,图片的大小不一致,缩放比例也不太一致,因此,从word的结构原理上进行了调查与分析,发现是两者之间有一定的区别,因此搜集了一下相关的知识,以求有所收获。

1. 在doc中,微软还是用二进制存储方式;
2. 在docx中微软开始用xml方式,docx实际上成了一个打包的压缩文件(经众多知友确认,为zip方式压缩)。
下面是解压缩了一个doc文件得到的结果。没有文件夹,都是没有扩展名的文件碎片。
这个则是解压缩docx文件得到的结果。有一个xml和包含其他信息的文件夹。
处理了一下xls和xlsx,结果类似
下面这个是xls的,因为文件启用了宏,所以多了一个Marco的文件夹

xlsx和docx的结果非常类似,要不是xml的文件大小不同,我还以为贴错图了
ppt和pptx也结果类似。
docx(所有带x的新文件格式)优点:
1. 同样文件体积小
2. 对复杂对象处理更好,如公式编辑器,表格样式,甚至可以直接在文件中呈现flash,视频和音频。
3. 更好的支持复杂光影和颜色
4. xlsx里面对复杂公式支持也更好,单元格总数和其内容限制大了很多
5. 所以从***x文档内提取原始图片是很方便的,可以解压出来
6. 优化了加密。加密方式更给力了,举个例子,用知名office密码爆破软件advanced office password recovery破解docx或xlsx这类文档在i7 3770处理器下每秒才100个。密码够强壮的话普通电脑基本解不出来,高级点的gpu设备难度也很大。

新的文件格式使用XML和zip技术,这些技术被大家所熟知,有相关经验的开发人员比较多。解析XML和zip格式的软件也非常多。而且原有的格式是复合文档中的二进制码流,这些格式怎么解析会让开发人员费一番脑筋。而新格式中只需要将zip压缩数据解压出来,解析其中的png图片,XML描述等等就可以了,清晰很多,也更容易让独立的应用程序去对素材做加工处理。原有的格式使用COM体系下的复合文档,而COM专业开发人员比较难找也比较贵,而且解析工具主要是从Windows附带的功能中来,软件资源不如XML和zip这样的技术丰富。举例来说,C#/.NET平台至今仍然没有直接的复合文档支持,需要通过interop调用本地的Windows API来访问复合文档的内容,这意味着甚至对微软来说老格式支持都会造成资源浪费,老格式在需要将文档放到云平台供包括移动平台在内的客户端访问的今天显得不合时宜。

DOC与DOCX的区别相关推荐

  1. doc转docx文件会乱吗_Word文档doc与docx的区别

    Word文档doc与docx的区别,doc与docx都是WORD的默认文档格式,DOC是WORD的早期版本的文档格式,DOCX是WORD 2007之后版本的默认格式. 1.docx是Word2007以 ...

  2. doc跟docx的区别

    doc和docx都是WORDdoc是WORD2003以及之前版本保存的文档docx是word2007.word2010等保存的新型文档本质都是属于文字排版的文件,只是版本不同也就是说docx版本比do ...

  3. docx poi 原理_POI读取.doc 和.docx的区别

    一:认识POI Apache POI是一个开源的利用Java读写Excel.WORD等微软OLE2组件文档的项目.最新的3.5版本有很多改进,加入了对采用OOXML格式的Office 2007支持,如 ...

  4. doc和docx的区别

    问题由来 在研究生的一次考查课的期末考试上,要求每人事先结合自己的方向与这门课做一个ppt来汇报.那个老师脾气比较暴躁,然后同学们出现了不少自己事先做好的ppt却在教室的老电脑上打不开的情况,导致老师 ...

  5. POI读取.doc 和.docx的区别

    一:认识POI  Apache POI是一个开源的利用Java读写Excel.WORD等微软OLE2组件文档的项目.最新的3.5版本有很多改进,加入了对采用OOXML格式的Office 2007支持, ...

  6. doc转docx文件会乱吗_Word中doc和docx,到底有什么区别

    大家好,我是十一. 大家都知道现在office已经更新到365版本了,但对于一般办公来说,基本功能够用就行了,所以现在的版本使用情况基本上是2003到365都有,用WPS的也不在少数.当然,版本越新, ...

  7. Word中doc和docx,到底有什么区别,提取word中的视频或音频的快速方法。

    一.doc和docx的区别 我们先来把后缀名打开:"文件资源管理器"-"查看"-勾选"文件扩展名" 97-2003的旧版本文件名后缀就是.d ...

  8. doc转docx文件会乱吗_利用python将doc文件转换为docx

    需求:最近在研究word文档的抽取,发现python中docx库只能提取以docx结尾的文件,因此需要将doc文件转换为docx. 基础知识了解 1.什么是doc? 汉语:文档(外语全称:Docume ...

  9. 在word中doc与docx的区别是什么(整理)

    在word中doc与docx的区别是什么(整理) docx 是Office2007使用的,是用新的基于XML的压缩文件格式取代了其目前专有的默认文件格式,在传统的文件名扩展名后面添加了字母x(即.do ...

最新文章

  1. LeetCode-198. 打家劫舍
  2. Android OTA在线升级二(升级包编译原理分析) 【转】
  3. 开发的AI程序员“抄”代码,被骂惨的GitHub到底冤不冤?
  4. 非监督异常点检测算法总结——没有想到矩阵分解和编码解码器也是一种思路...
  5. 服务器显示rl112,【RL-TCPnet网络教程】第13章 RL-TCPnet之TCP服务器(下)
  6. jzoj4231-寻找神格【线段树,数学】
  7. VC小技巧(网上搜的)
  8. 小米11真机现身:稳了!
  9. 触发器_触发器第三弹
  10. 清华大学计算机系哪个专业就业前景最好,往年清华大学就业前景最好的专业
  11. 在安卓模拟器(mumu为例)上联调app并且用Charles抓包
  12. 运输计划 洛谷P2680
  13. 辞职时被领导挽留,要不要留下?
  14. asp文件解密 加密
  15. 黑白和彩色CCD摄像机成像原理简介
  16. 软考数据库考试有题库吗_网络工程师真的像大家说的那么容易考吗?
  17. [编程] 2 python 实现埃拉托色尼筛选法
  18. RPA在政企行业的应用
  19. 相逢在栀枝花开的季节
  20. 计算机毕业设计(42)java小程序毕设作品之小说电子书阅读小程序系统

热门文章

  1. 《卓有成效的管理者》第一次心得
  2. 8960综测仪测试小区广播(2G)
  3. 5.3 背景图层和普通图层的转换 [原创Ps教程]
  4. 如何查看主机名和IP地址
  5. 17 Redis 的性能受CPU结构影响
  6. IM群聊头像九宫格实现方式
  7. 谷歌地球不能用了?我敢说大部分人不知道真实原因
  8. pgpool读写分离,配置设置及调研
  9. TreeSet集合如何保证元素唯一
  10. uniapp修改底部导航栏