docx是一个包含文档XML的zip文件.您可以打开zip,阅读文档并使用ElementTree解析数据.

这种技术的优点是你不需要安装任何额外的python库.

import zipfile

import xml.etree.ElementTree

WORD_NAMESPACE = '{http://schemas.openxmlformats.org/wordprocessingml/2006/main}'

PARA = WORD_NAMESPACE + 'p'

TEXT = WORD_NAMESPACE + 't'

TABLE = WORD_NAMESPACE + 'tbl'

ROW = WORD_NAMESPACE + 'tr'

CELL = WORD_NAMESPACE + 'tc'

with zipfile.ZipFile('') as docx:

tree = xml.etree.ElementTree.XML(docx.read('word/document.xml'))

for table in tree.iter(TABLE):

for row in table.iter(ROW):

for cell in row.iter(CELL):

print ''.join(node.text for node in cell.iter(TEXT))

python对word提取数据,如何使用Python从doc / docx文件中提取数据相关推荐

  1. python读取xls数据_python_从.mat与.xls类型文件中读取数据

    从.xls类型文件中读取数据 在写机器学习算法的时候从UCI下载了一些数据,但是格式不是csv,而是.txt/.data,可以先用excel打开数据,在excel中将数据进行分列后导入python进行 ...

  2. java pdfbox 提取pdf 标题_java – 使用pdfbox从PDF文件中提取文本

    我试图使用pdfbox从PDF文件中提取文本,但不是作为命令行工具,而是在我的 Java应用程序中.我正在使用jsoup下载pdf. res = Jsoup .connect(host+action) ...

  3. mysql导入数据load data infile用法(将txt文件中的数据导入表中)

    我们常常导入数据!mysql有一个高效导入方法,那就是load data infile 下面来看案例说明 基本语法: load data  [low_priority] [local] infile ...

  4. load导入txt文件到mysql_mysql导入数据load data infile用法(将txt文件中的数据导入表中)...

    我们常常导入数据!mysql有一个高效导入方法,那就是load data infile 下面来看案例说明 基本语法: load data  [low_priority] [local] infile ...

  5. python如何读取word中超链接的文本_如何使用python从docx文件中提取超链接中的url...

    我是Python的初学者,有一项任务是使用Python更改.docx文档中的每个超链接.感谢Kiran的代码,它给了我一些提示,让我做一些猜测,尝试和错误,最后让它工作.这里是我拥有的代码,我想与其他 ...

  6. python下载超链接文件-如何使用python从docx文件中提取超链接中的url

    Tyson 我是Python的初学者,有一项任务是使用Python更改.docx文档中的每个超链接.感谢Kiran的代码,它给了我一些提示,让我做一些猜测,尝试和错误,最后让它工作.这里是我拥有的代码 ...

  7. python提取图片gps坐标_用python从.docx文件中提取GPS坐标

    如果有不同模式的文件,我不知道这是否有效(请注意,我使用的是python 2.7.11):# -*- coding: utf-8 -*- from docx import Document impor ...

  8. 【Python项目实战】提取.docx文件中的图片并保存到指定的文件夹

    文章目录 一.需求分析 二.系统设计 2.1系统业务流程 2.2系统预览 三.系统开发必备 3.1 系统开发环境 3.2文件组织结构 四.主函数设计 1.创建窗口 2.创建按钮 3.创建输入框 五.函 ...

  9. python docx 替换文字_查找并替换.docx文件中的文本 - Python

    我一直在寻找一种方法来查找和替换docx文件中的文本而运气不佳 . 我已经尝试过docx模块而无法使用它 . 最后,我使用zipfile模块计算了下面描述的方法,并替换了docx存档中的documen ...

最新文章

  1. 反射 Class类和Class实例
  2. python 珠玑妙算
  3. 模拟input type=file
  4. Swift5.x使用纯代码创建NavigationTab控制器设置启动图Wb第1部分
  5. ubuntu设置始终亮屏_ubuntu设置关闭屏幕和锁定
  6. 2.9 go mod 之本地仓库搭建
  7. JAVA不同类型数组重载_java学习笔记--java中的方法与数组
  8. 【大讲堂讲师专访】张甦:数据库选型需因地制宜,MongoDB与MySQL绝非替代
  9. IT 已成为最疯狂的加班行业,没有之一
  10. swig: 未找到命令
  11. linux上的pcb设计软件,PCB设计软件(CadSoft Eagle Professional)
  12. 第十五课.K均值算法
  13. 从零开始实现Unity光照模型_02_为Shader添加简单的多光源支持_技术美术基础学习记录
  14. 已知六条边的边长,求四面体体积
  15. 开发,要谋定而后动。
  16. JAVA操作FTP(FTP工具类)
  17. Opencv python 直方图处理
  18. (自学java的第三天)JPI文档、变量、数据类型
  19. linux电脑接电视,Ubuntu下如何给通过HDMI连接电视机的计算机强制设置1920*1080分辨率...
  20. Android关机闹钟实现

热门文章

  1. NgRx Store里的StoreModule.forRoot()
  2. SAP Spartacus PersistFocus Directive是采取怎样的数据结构来存储focus信息的
  3. SAP Spartacus org unit list和unit detail的分屏显示原理
  4. SAP Spartacus里的登录token处理
  5. ngrx Effect学习笔记
  6. git@github.com - Permission denied publickey错误
  7. 一个好用的基于若干静态图片生成gif图片的在线工具
  8. how SAP gateway parse_meta_tags
  9. SAP云平台cf push命令报错误码44的解决方法
  10. SAP Marketing Cloud的动态dynamic customer profile