Word内容解析之图表数据获取
最近遇到一个问题,Word里有个从Excel直接复制进去的图,但那个Excel已经找不到了,无法通过编辑数据获取到表格的数据。这个其实可以用getdata等软件获取,或者鼠标点在表上的点就可以显示数据,再把数据录下来,不过太麻烦了。下面是我的一个解决办法。
1. word结构说明
Word其实是多个XML文件,这个文件就是写网页或者Markdown格式的文本类似,可以设置不同的节点和属性来定义Word字体的内容颜色大小间距等格式。而office就是一个吧这些xml格式文件显示成我们看到的Word样式。
- 首先将Word的后缀名改成zip或rar就可以得到一个压缩包
- 解压压缩包得到一个文件夹,里面有一个Word的各部分内容
这里面包含了Word的主题,标题,格式,脚注等等
其中document是Word的文本内容
可以看到每个文本前面都有这句话的一个格式信息,一般这句话的结构也称作一个run,一般用代码提取Word中的信息的时候基本上也是利用这个思路来获取Word的信息。
2. 图片数据获取
这里我们找到charts文件夹,可以看到里面有各个图片的XML文件
打开其中一个,这里面其实定义了图片的各个属性,以及怎么画出来的,具体不在介绍了,我也不懂,但是数据信息可以很容易找到
把数据复制出来,没用的替换删除即可
Word内容解析之图表数据获取相关推荐
- java poi无法读取word_poi,word_POI读取word内容的疑问,poi,word,java - phpStudy
POI读取word内容的疑问 两片内容相同的word,poi分割成XWPFRun集合的时候,发现相同的段落内容有空行. word1打印的段落内容 word2打印的段落内容 代码如下 /** 替换段落中 ...
- python替换word内容,文档翻译-使用python替换word文档中的段落内容
前段时间遇到一个需求,需要将word文档中的内容进行替换,并且需要保证格式不变.在找了一圈资料后,发现没有现成的api供使用:由于本人做过一段时间文档解析,因此打算从word文档的xml入手,通过py ...
- 计算机培训考试内容,计算机等级考试的科目和内容解析
随着计算机网络的快速发展,参加计算机等级考试的人员也随之不断增加,这里为新手详细介绍计算机等级考试的科目和内容,希望能帮助各位考生进一步了解计算机等级考试,做好充分的考试准备,顺利通过考试. 计算机二 ...
- python读取word内容复制粘贴,Python读取word文本操作详解
本文研究的主要问题时Python读取word文本操作,分享了相关概念和实现代码,具体如下. 一,docx模块 Python可以利用python-docx模块处理word文档,处理方式是面向对象的.也就 ...
- AD9364 测试平台开发——第六篇,SPI配置内容解析
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 AD9364 测试平台开发--第六篇,SPI配置内容解析 以下为个人的一些理解,有一些东西可能不一定理解透彻了,可能有错误,请指正和见 ...
- 路漫漫其修远矣 - 关于内容解析 与 存储
用scrapy框架后,很多访问问题解决了,css解析也非常方便,于是要将之前关注的一个网站爬下来放到mysql里面,然后用tableau接上,这样就可以长期自动监测了.但过程非常坎坷,一直到现在也没有 ...
- python粘贴代码到word_Python复制Word内容并使用格式设字体与大小实例代码
简介 网上流传的部分可以百度关键词"Python"和"word"后查看文章学习,以下内容为个人实践,修正了不能运行出错的情况. 代码示例 import win3 ...
- 2020-11-12(内容提供者,内容解析者,内容观察者)
内容提供者实现步骤 a.写一个类继承ContentProvider 重写onCreat query delete insert getType b.在清单文件中声明对应的provider节点 auth ...
- java io读取doc内容_Java word 内容读取-Go语言中文社区
1.添加依赖关系(网上好多帖子没有写依赖,害我找半天) org.apache.poi poi 4.0.0 org.apache.poi poi-ooxml 4.0.0 org.apache.poi p ...
最新文章
- MySQL Xtrabackup备份和恢复
- JavaScript中七种函数调用方式及对应 this 的含义
- Python 技术篇-httpClient库连接服务器发送请求解析响应实例演示,No module named ‘httplib‘问题解决方法
- 基于知识图谱的行业问答系统搭建分几步?
- dedecms模版php,dedecms专题模板怎么用
- 2020华为软件精英挑战赛-有向图找环
- chrome浏览器加载css、js等静态资源文件的坑
- bootstrap 快速入门
- Qt之FTP上传/下载
- hbase安装与配置
- python 弹窗炸弹
- Linux 加固(centos7)
- Python 情人节超强技能 导出微信聊天记录生成词云
- 有时间的时候没钱,有钱的时候没时间_天使Emily_一起游博客_一起游_17u.com
- [NOIP2012模拟10.25] 剪草 [贪心+dp]
- 未成年人勿进 谨以献给1980~1990出生的人(一)
- 我们与专家讨论了JavaScript –文字记录
- html中img显示图片的两种常用方式
- 【Linux学习笔记】27:环境变量中的语系变量
- 苹果笔记本电脑运行win系统时温度过高解决办法
热门文章
- Adobe pl2021安装教程 v10.0.0.34
- ​​​​​​​《MYSQL高级查询与编程》综合机试试卷 - 云南农职美和易思
- 自动化测试开发工程师知识图谱
- Modern Robotics正运动学(forward kinematics)
- STM32CbueMX之利用滴答时钟delay us
- mysql utl_file_Oracle之UTL_FILE 包用法详解
- vue组件扩展及路由的使用-day05
- 微信小程序|基于小程序+C#制作一个考试答题小程序
- 单片机C语言数字电子时钟,全功能数字电子钟(C51单片机应用开发)
- LATEX的标题排序改为中文