我们在做一些数据统计或分析的时候,有时会接触到Execl 格式或者Word 格式的文件。Execl格式的数据提取和解析,我们在之前的文章分享过一些非常好用的Python第三方库,本文中主要介绍如何使用Python python-docx 模块提取Word 文件中的文本信息和表格数据。

python-docx 安装

本文python-docx 安装 在Windows 10系统,Python3 环境中使用pip进行安装。

演示文本

为了方便理解,我们以 python-docx.docx 文件为例,演示如何使用Python 提取其中的文本数据和表格数据,并开发自定义函数以字典的形式提取内容,python-docx.docx文件内容如下:

在使用python-docx 读取word文档中文本之前,我们先了解下python-docx 模块的几个概念。

Document 对象,表示一个Word文档。

Paragraph 对象,表示Word文档中的一个段落。

Paragraph 对象的text属性,表示段落中的文本内容。

提取docx文件中文本信息

使用python-docx 提取docx文件中文本数据,Python实现代码如下:

如上,我们将python-docx.docx 文件中的文本信息,按行提取出来,存储到字典中,字典的Key为行号,Value为文本信息,执行上述代码,输出结果如下:

提取docx文件中表格数据

使用python-docx 提取docx文件中表格数据,Python实现代码如下:

如上,我们将python-docx.docx 文件中的表单信息,按行提取出来,存储到列表中,列表每个元素为一个表格的数据,数据结构为字典,执行上述代码输出结果如下:

写入数据到docx文件中

我们同样可以利用python-docx 模块,实现docx文件的数据写入,如标题、字号、引用、列表、图片插入等等。由于如下代码注释中说明比较详细,此处不做过多介绍,代码如下:

执行上述代码,写入数据保存至testops—docx.docx 文件中,内容如下:

提取包含指定关键字的文本

我们基于上述自定义封装函数 extract_text、extract_form,结合re 模块,就可以实现提取包含关键字的文本内容,代码实现如下:

如上,我们实现了提取docx 文本中包含指定内容的文本信息,并输出该内容所在行,执行上述代码,输出结果为:

【编辑推荐】

【责任编辑:华轩 TEL:(010)68476606】

点赞 0

python读取docx文件_Python 实现docx文件的读写操作相关推荐

  1. python导出数据找不到csv_【记录】使用Python读取/导出(写入)CSV文件

    想要用python处理csv文件. 去查了下,python中本身就自带csv模块. 然后参考在线手册: 去试试. [用python生成csv] 1. 按照手册的例子,试了试:import csv wi ...

  2. python读取大文件目录_Python读取系统文件夹内所有文件并统计数量的方法

    大家先看一下Python os模块中的部分函数 python 路径相关的函数 os.listdir(dirname):列出dirname下的目录和文件 os.getcwd():获得当前工作目录 os. ...

  3. python读取坐标文本文件_Python 实现文件读写、坐标寻址、查找替换功能

    读文件 打开文件(文件需要存在) #打开文件 f = open("data.txt","r") #设置文件对象 print(f)#文件句柄 f.close() ...

  4. python读取mat文件格式_Python读取mat文件,并保存为pickle格式的方法

    这两天在搞Theano,要把mat文件转成pickle格式载入Python. Matlab是把一维数组当做n*1的矩阵的,但Numpy里还是有vector和matrix的区别,Theano也是对二者做 ...

  5. python读取nc数据_python读取nc文件

    nc文件的处理方式比较多,可以用MATLAB.JAVA.C.python或者其他的语言.我这两天折腾用python读取nc文件,查阅很多资料,左拼右凑的终于读出来了. 1.安装Anaconda 1)A ...

  6. python如何创建文件_python中创建文件、读取文件内容

    1.选择文件夹,单击右键,点击New -> Python file 2.命名好之后,如我命的就是创建文件. 3.文件命名好了以后,可以编辑代码 如: nf=open("pi_digit ...

  7. python读取大文件目录_python简单读取大文件的方法

    python简单读取大文件的方法 更新时间:2016年07月01日 10:42:14 作者:holybin 这篇文章主要介绍了python简单读取大文件的方法,通过非常简单的方式实现对GB级别大文件的 ...

  8. python 读取文件夹 增量文件_Python实现目录文件的全量和增量备份

    目标: 1.传入3个参数:源文件路径,目标文件路径,md5文件 2.每周一实现全量备份,其余时间增量备份 1.通过传入的路径,获取该路径下面的所有目录和文件(递归) 方法一:使用os.listdir ...

  9. python 打开word文件_python下载word文件-Python用python-docx读写word文档

    备注: doc是微软的专有的文件格式,docx是Microsoft Office2007之后版本使用,其基于Office Open XML标准的压缩文件格式,比 doc文件所占用空间更小.docx格式 ...

  10. Python读取.edf格式脑电数据文件

    MNE-python读取.edf文件 EDF,全称是 European Data Format,是一种标准文件格式,用于交换和存储医疗时间序列. 该格式文件能够存储多通道的数据,允许每个信号拥有不同的 ...

最新文章

  1. C++实现九九乘法表
  2. MySQL面试题 | 附答案解析(九)
  3. NLP(自然语言处理)详细笔记
  4. android 超链接事件,Android实现捕获TextView超链接的方法
  5. 【struts2+hibernate+spring项目实战】java读写实现代码生成器(ssh)
  6. tl r402路由器设置_家里新安装宽带如何连接路由器 家里新安装宽带连接路由器方法【详解】...
  7. JAVA 获取文件的MD5值大小以及常见的工具类
  8. python 自动上报json信息_python接口自动化5-Json数据处理
  9. 通用职责分配软件原则之3-低耦合原则
  10. c语言程序设计电大作业,2018年最新电大C语言程序设计作业答案.doc
  11. 【目标检测】单阶段算法--YOLOv1详解
  12. “我是技术总监,你为毛总问我技术细节?”
  13. sphinx的php扩展,替php安装sphinx扩展
  14. 中文打字速度测试软件单机版,中文打字速度测试软件
  15. 计算机校本培训措施,2017度信息技术校本培训计划
  16. 鼠标移入或悬浮禁用图标,点击事件不生效
  17. MTK Camera 基础知识
  18. 【技术】基于angularJS的前端自动化测试工具Protractor快速入门
  19. 关于MAC装双系统的一些体会
  20. 如何查看自己电脑的型号

热门文章

  1. ipadpro分屏怎么操作_iPad到手后必备的高效设置技巧(iPad Pro、iPad Air、iPad mini学习生产工具...
  2. 单骑745公里闯关东
  3. Ubuntu的快乐学习1——Ubuntu18.04的ROS平台搭建
  4. 华硕K55VD安装ubuntu 18.04
  5. 【Simulink教程案例12】基于BPSK+costas环载波同步的simulink建模与仿真分析
  6. linux 防火墙 阻止ip_linux iptables防火墙如何禁止指定IP访问
  7. PDF能修改吗,PDF添加标注方法
  8. python照片转素描_python实现图片彩色转化为素描
  9. 推荐几个比较容易中的EI源刊
  10. 小程序使用Painter生成海报