java获取word书签表格数据_Python读取word文档里面的表格数据
我们常见的办公数据通常可以分为结构化数据与非结构化数据,比如常见的word, ppt, excel。前两者存储的是非结构化数据,excel存储的是结构化数据。从事数据统计或分析的工作或多或少都会从excel获取结构化数据。让结构化数据变为非结构化数据,较为容易。但是让非结构化数据变为结构化数据相对较难,数据科学其实大部分前期工作都是让非结构化数据变为结构化数据。我们来看看如何将word文档的表格数据转化为excel数据。如有word表格数据
读取word文档,读取所有表格数据
这里获取第8个表格数据
获取变量名
['model', 'TP', 'TN', 'FP', 'FN', 'Accuracy', 'Sensitivity', 'Specificity', 'Precision', 'Kappa', 'MCC', 'F1 score']
获取表格内结构化数据
转化为数据集:
源代码:
# -*- coding: utf-8 -*-"""@author: weineng.zhou"""from docx import Document import numpy as npimport pandas as pdfilename = "D:/mydocx.docx"document = Document(filename) tables = document.tables table = tables[7]# 获取变量名varname = []for i in range(len(table.columns)): varname.append(table.cell(0,i).text)print(varname)# 获取表格数据data = []for i in range(1,len(table.rows)): for j in range(len(table.columns)): data.append(table.cell(i,j).text)# list to 1D arrayarr1 = np.array(data)# 2D arrayarr2 = arr1.reshape(len(table.rows)-1,len(table.columns))# 2D array to 2D datasetdf = pd.DataFrame(arr2)# 给数据集赋予变量名df.columns = varname# 导出数据df.to_excel('D:/myexcel.xlsx', index=False)
运用此种方法,当我们遇到很多word当中的表格数据,难以做统计分析的时候,我们可以运用次种方法变为我们想要的数据结构,然后进行分析。
END
碧茂课堂精彩课程推荐:
1.Cloudera数据分析课;
2.Spark和Hadoop开发员培训;
3.大数据机器学习之推荐系统;
4.Python数据分析与机器学习实战;
详情请关注我们公众号:碧茂大数据-课程产品-碧茂课堂
现在注册互动得海量学币,大量精品课程免费送!
关注最新行业动态,
加群进行技术交流!
java获取word书签表格数据_Python读取word文档里面的表格数据相关推荐
- 解决Spring的java项目打包后执行出现“无法读取方案文档...“、“原因为 1) 无法找到文档; 2) 无法读取文档; 3) 文档的根元素不是...”问题
解决Spring的java项目打包后执行出现"无法读取方案文档..."."原因为 1) 无法找到文档; 2) 无法读取文档; 3) 文档的根元素不是..."问题 ...
- python读取docx中表格 图片_python 解析docx文档的方法,以及提取插入的文本对象和图片...
首先安装docx模块,通过pip install docx或者在docx官方链接上下载安装都可以 下面来看下如何解析docx文档:文档格式如下 有3个部分组成 1 正文:text文档 2 一个表格. ...
- java无法读取方案文档_解决Spring的java项目打包后执行出现“无法读取方案文档...“、“原因为 1) 无法找到文档; 2) 无法读取文档; 3) 文档的根元素不是...”问题...
问题 一个用Spring建的java项目,在Eclipse或idea中运行正常,为什么打包后运行出现如下错误呢? 2019/07/10/19:04:07 WARN [main] org.springf ...
- wps怎么在后面加入表格_如何在WPS文档中插入表格
在办公中经常会用到表格,表格可以将复杂的数据以行或列的形式展现出来,使数据更加直观,更加清晰,下面我们就介绍下如何在文档中插入表格. (1)插入表格.插入表格的方法很多,可以直接单击"插入& ...
- 将excel导入到页面表格_如何将Excel文档导入Google表格
将excel导入到页面表格 Did someone send you an Excel document, but you don't have Excel? Giving up on Microso ...
- 用代码读取配置文档中的指定数据
需求: 在XX游戏根目录中,读取其ini文档,找到游戏的主执行程序,然后运行. 比如我要读取罗马2全面战争的游戏根目录中的ini配置文档.读取到游戏的主程序是"Rome2",然后运 ...
- python读取word表格数据_python读取word表格数据库
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...
- python读取html文件中的表格数据_Python 读取各类文件格式的文本信息 | doc,excel,html,mht...
原标题:Python 读取各类文件格式的文本信息 | doc,excel,html,mht 众所周知,python最强大的地方在于,python社区汇总拥有丰富的第三方库,开源的特性,使得有越来越多的 ...
- java中openoffice_巧用Java读取OpenOffice文档
由于项目的需要,我们需要在Java程序读取OpenOffice文档,并对数据进行处理.本文介绍了如何使用ODF Toolkit去读取OpenOffice SpreadSheet的内容. 1. Open ...
最新文章
- linux 修改mysql root密码_Linux mysql如何更改root密码
- 为什么 sin(x²)+sin(y²)=1 的图像这么复杂?
- boost::spirit模块实现将由某个分隔符分隔的任意键/值对解析为 std::map的测试程序
- Java 8 Stream 流用法及语法
- c语言专属英语单词,C语言 V 编程英语单词.doc
- springboot 前缀_springboot搭配thymeleaf访问html页面的时候,什么时候需要自定义前缀和后缀呢...
- 《浪潮之巅》吴军:特斯拉自动驾驶堪比中甲水平,全球5G看好华为
- Hdoj 1064 Financial Management
- 【2019上海网络赛:D】Counting Sequences I(dfs+多重集合排列)
- 如何查看各类期刊的影响因子
- 怎样缩小图片大小kb?
- excel 根据两点经纬度计算距离
- Python爬虫初学(3)登陆武汉理工大学教务处
- Flutter(十七) 实现国际化
- Linux:帮助命令——help、man、info的简单介绍
- Python脚本刷网页访问量或关键词搜索频率
- 计算机安装win10配置,win11发布了,那么安装win11配置要求是什么?win11配置要求详解...
- OSPF的五类LSA概述
- AR剪辑笔记之视频调色
- MySQL 8.0 OCP(1Z0-908)中文题库解析