更多精彩,请点击上方蓝字关注我们!

我们常见的办公数据通常可以分为结构化数据与非结构化数据,比如常见的word, ppt, excel。前两者存储的是非结构化数据,excel存储的是结构化数据。从事数据统计或分析的工作或多或少都会从excel获取结构化数据。让结构化数据变为非结构化数据,较为容易。但是让非结构化数据变为结构化数据相对较难,数据科学其实大部分前期工作都是让非结构化数据变为结构化数据。我们来看看如何将word文档的表格数据转化为excel数据。如有word表格数据

读取word文档,读取所有表格数据

这里获取第8个表格数据

获取变量名

['model', 'TP', 'TN', 'FP', 'FN', 'Accuracy', 'Sensitivity', 'Specificity', 'Precision', 'Kappa', 'MCC', 'F1 score']

获取表格内结构化数据

转化为数据集:

源代码:

# -*- coding: utf-8 -*-"""@author: weineng.zhou"""from docx import Document import numpy as npimport pandas as pdfilename = "D:/mydocx.docx"document = Document(filename)    tables = document.tables         table = tables[7]# 获取变量名varname = []for i in range(len(table.columns)):     varname.append(table.cell(0,i).text)print(varname)# 获取表格数据data = []for i in range(1,len(table.rows)): for j in range(len(table.columns)):         data.append(table.cell(i,j).text)# list to 1D arrayarr1 = np.array(data)# 2D arrayarr2 = arr1.reshape(len(table.rows)-1,len(table.columns))# 2D array to 2D datasetdf = pd.DataFrame(arr2)# 给数据集赋予变量名df.columns = varname# 导出数据df.to_excel('D:/myexcel.xlsx', index=False)

运用此种方法,当我们遇到很多word当中的表格数据,难以做统计分析的时候,我们可以运用次种方法变为我们想要的数据结构,然后进行分析。

END

碧茂课堂精彩课程推荐:

1.Cloudera数据分析课;

2.Spark和Hadoop开发员培训;

3.大数据机器学习之推荐系统;

4.Python数据分析与机器学习实战;

详情请关注我们公众号:碧茂大数据-课程产品-碧茂课堂

现在注册互动得海量学币,大量精品课程免费送!

关注最新行业动态,

加群进行技术交流!

java获取word书签表格数据_Python读取word文档里面的表格数据相关推荐

  1. 解决Spring的java项目打包后执行出现“无法读取方案文档...“、“原因为 1) 无法找到文档; 2) 无法读取文档; 3) 文档的根元素不是...”问题

    解决Spring的java项目打包后执行出现"无法读取方案文档..."."原因为 1) 无法找到文档; 2) 无法读取文档; 3) 文档的根元素不是..."问题 ...

  2. python读取docx中表格 图片_python 解析docx文档的方法,以及提取插入的文本对象和图片...

    首先安装docx模块,通过pip install docx或者在docx官方链接上下载安装都可以 下面来看下如何解析docx文档:文档格式如下 有3个部分组成 1 正文:text文档 2 一个表格. ...

  3. java无法读取方案文档_解决Spring的java项目打包后执行出现“无法读取方案文档...“、“原因为 1) 无法找到文档; 2) 无法读取文档; 3) 文档的根元素不是...”问题...

    问题 一个用Spring建的java项目,在Eclipse或idea中运行正常,为什么打包后运行出现如下错误呢? 2019/07/10/19:04:07 WARN [main] org.springf ...

  4. wps怎么在后面加入表格_如何在WPS文档中插入表格

    在办公中经常会用到表格,表格可以将复杂的数据以行或列的形式展现出来,使数据更加直观,更加清晰,下面我们就介绍下如何在文档中插入表格. (1)插入表格.插入表格的方法很多,可以直接单击"插入& ...

  5. 将excel导入到页面表格_如何将Excel文档导入Google表格

    将excel导入到页面表格 Did someone send you an Excel document, but you don't have Excel? Giving up on Microso ...

  6. 用代码读取配置文档中的指定数据

    需求: 在XX游戏根目录中,读取其ini文档,找到游戏的主执行程序,然后运行. 比如我要读取罗马2全面战争的游戏根目录中的ini配置文档.读取到游戏的主程序是"Rome2",然后运 ...

  7. python读取word表格数据_python读取word表格数据库

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

  8. python读取html文件中的表格数据_Python 读取各类文件格式的文本信息 | doc,excel,html,mht...

    原标题:Python 读取各类文件格式的文本信息 | doc,excel,html,mht 众所周知,python最强大的地方在于,python社区汇总拥有丰富的第三方库,开源的特性,使得有越来越多的 ...

  9. java中openoffice_巧用Java读取OpenOffice文档

    由于项目的需要,我们需要在Java程序读取OpenOffice文档,并对数据进行处理.本文介绍了如何使用ODF Toolkit去读取OpenOffice SpreadSheet的内容. 1. Open ...

最新文章

  1. linux 修改mysql root密码_Linux mysql如何更改root密码
  2. 为什么 sin(x²)+sin(y²)=1 的图像这么复杂?
  3. boost::spirit模块实现将由某个分隔符分隔的任意键/值对解析为 std::map的测试程序
  4. Java 8 Stream 流用法及语法
  5. c语言专属英语单词,C语言 V 编程英语单词.doc
  6. springboot 前缀_springboot搭配thymeleaf访问html页面的时候,什么时候需要自定义前缀和后缀呢...
  7. 《浪潮之巅》吴军:特斯拉自动驾驶堪比中甲水平,全球5G看好华为
  8. Hdoj 1064 Financial Management
  9. 【2019上海网络赛:D】Counting Sequences I(dfs+多重集合排列)
  10. 如何查看各类期刊的影响因子
  11. 怎样缩小图片大小kb?
  12. excel 根据两点经纬度计算距离
  13. Python爬虫初学(3)登陆武汉理工大学教务处
  14. Flutter(十七) 实现国际化
  15. Linux:帮助命令——help、man、info的简单介绍
  16. Python脚本刷网页访问量或关键词搜索频率
  17. 计算机安装win10配置,win11发布了,那么安装win11配置要求是什么?win11配置要求详解...
  18. OSPF的五类LSA概述
  19. AR剪辑笔记之视频调色
  20. MySQL 8.0 OCP(1Z0-908)中文题库解析

热门文章

  1. Java Bean验证基础
  2. 即将举行的网络研讨会:调试生产中Java的5种最佳实践
  3. 选择的按钮:将ToggleButtons用作单选按钮
  4. WildFly管理控制台已更新–请求反馈
  5. mvc 一般注释_使用带有注释和JQuery的Spring MVC 3的Ajax
  6. 拼图项目的动机和目标
  7. Spring MVC:带有CNVR卷的REST应用程序。 3
  8. Apache CXF – JAX-WS –简单教程
  9. 纯Java JavaFX 2.0菜单
  10. 早期访问中带有NetBeans的Oracle公共云Java服务