最近遇到一个问题,Word里有个从Excel直接复制进去的图,但那个Excel已经找不到了,无法通过编辑数据获取到表格的数据。这个其实可以用getdata等软件获取,或者鼠标点在表上的点就可以显示数据,再把数据录下来,不过太麻烦了。下面是我的一个解决办法。

1. word结构说明

Word其实是多个XML文件,这个文件就是写网页或者Markdown格式的文本类似,可以设置不同的节点和属性来定义Word字体的内容颜色大小间距等格式。而office就是一个吧这些xml格式文件显示成我们看到的Word样式。

  1. 首先将Word的后缀名改成zip或rar就可以得到一个压缩包
  2. 解压压缩包得到一个文件夹,里面有一个Word的各部分内容

    这里面包含了Word的主题,标题,格式,脚注等等
    其中document是Word的文本内容
    可以看到每个文本前面都有这句话的一个格式信息,一般这句话的结构也称作一个run,一般用代码提取Word中的信息的时候基本上也是利用这个思路来获取Word的信息。

2. 图片数据获取

这里我们找到charts文件夹,可以看到里面有各个图片的XML文件


打开其中一个,这里面其实定义了图片的各个属性,以及怎么画出来的,具体不在介绍了,我也不懂,但是数据信息可以很容易找到

把数据复制出来,没用的替换删除即可

Word内容解析之图表数据获取相关推荐

  1. java poi无法读取word_poi,word_POI读取word内容的疑问,poi,word,java - phpStudy

    POI读取word内容的疑问 两片内容相同的word,poi分割成XWPFRun集合的时候,发现相同的段落内容有空行. word1打印的段落内容 word2打印的段落内容 代码如下 /** 替换段落中 ...

  2. python替换word内容,文档翻译-使用python替换word文档中的段落内容

    前段时间遇到一个需求,需要将word文档中的内容进行替换,并且需要保证格式不变.在找了一圈资料后,发现没有现成的api供使用:由于本人做过一段时间文档解析,因此打算从word文档的xml入手,通过py ...

  3. 计算机培训考试内容,计算机等级考试的科目和内容解析

    随着计算机网络的快速发展,参加计算机等级考试的人员也随之不断增加,这里为新手详细介绍计算机等级考试的科目和内容,希望能帮助各位考生进一步了解计算机等级考试,做好充分的考试准备,顺利通过考试. 计算机二 ...

  4. python读取word内容复制粘贴,Python读取word文本操作详解

    本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下. 一,docx模块 Python可以利用python-docx模块处理word文档,处理方式是面向对象的.也就 ...

  5. AD9364 测试平台开发——第六篇,SPI配置内容解析

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 AD9364 测试平台开发--第六篇,SPI配置内容解析 以下为个人的一些理解,有一些东西可能不一定理解透彻了,可能有错误,请指正和见 ...

  6. 路漫漫其修远矣 - 关于内容解析 与 存储

    用scrapy框架后,很多访问问题解决了,css解析也非常方便,于是要将之前关注的一个网站爬下来放到mysql里面,然后用tableau接上,这样就可以长期自动监测了.但过程非常坎坷,一直到现在也没有 ...

  7. python粘贴代码到word_Python复制Word内容并使用格式设字体与大小实例代码

    简介 网上流传的部分可以百度关键词"Python"和"word"后查看文章学习,以下内容为个人实践,修正了不能运行出错的情况. 代码示例 import win3 ...

  8. 2020-11-12(内容提供者,内容解析者,内容观察者)

    内容提供者实现步骤 a.写一个类继承ContentProvider 重写onCreat query delete insert getType b.在清单文件中声明对应的provider节点 auth ...

  9. java io读取doc内容_Java word 内容读取-Go语言中文社区

    1.添加依赖关系(网上好多帖子没有写依赖,害我找半天) org.apache.poi poi 4.0.0 org.apache.poi poi-ooxml 4.0.0 org.apache.poi p ...

最新文章

  1. MySQL Xtrabackup备份和恢复
  2. JavaScript中七种函数调用方式及对应 this 的含义
  3. Python 技术篇-httpClient库连接服务器发送请求解析响应实例演示,No module named ‘httplib‘问题解决方法
  4. 基于知识图谱的行业问答系统搭建分几步?
  5. dedecms模版php,dedecms专题模板怎么用
  6. 2020华为软件精英挑战赛-有向图找环
  7. chrome浏览器加载css、js等静态资源文件的坑
  8. bootstrap 快速入门
  9. Qt之FTP上传/下载
  10. hbase安装与配置
  11. python 弹窗炸弹
  12. Linux 加固(centos7)
  13. Python 情人节超强技能 导出微信聊天记录生成词云
  14. 有时间的时候没钱,有钱的时候没时间_天使Emily_一起游博客_一起游_17u.com
  15. [NOIP2012模拟10.25] 剪草 [贪心+dp]
  16. 未成年人勿进 谨以献给1980~1990出生的人(一)
  17. 我们与专家讨论了JavaScript –文字记录
  18. html中img显示图片的两种常用方式
  19. 【Linux学习笔记】27:环境变量中的语系变量
  20. 苹果笔记本电脑运行win系统时温度过高解决办法

热门文章

  1. Adobe pl2021安装教程 v10.0.0.34
  2. ​​​​​​​《MYSQL高级查询与编程》综合机试试卷 - 云南农职美和易思
  3. 自动化测试开发工程师知识图谱
  4. Modern Robotics正运动学(forward kinematics)
  5. STM32CbueMX之利用滴答时钟delay us
  6. mysql utl_file_Oracle之UTL_FILE 包用法详解
  7. vue组件扩展及路由的使用-day05
  8. 微信小程序|基于小程序+C#制作一个考试答题小程序
  9. 单片机C语言数字电子时钟,全功能数字电子钟(C51单片机应用开发)
  10. LATEX的标题排序改为中文