python对word提取数据,如何使用Python从doc / docx文件中提取数据
docx是一个包含文档XML的zip文件.您可以打开zip,阅读文档并使用ElementTree解析数据.
这种技术的优点是你不需要安装任何额外的python库.
import zipfile
import xml.etree.ElementTree
WORD_NAMESPACE = '{http://schemas.openxmlformats.org/wordprocessingml/2006/main}'
PARA = WORD_NAMESPACE + 'p'
TEXT = WORD_NAMESPACE + 't'
TABLE = WORD_NAMESPACE + 'tbl'
ROW = WORD_NAMESPACE + 'tr'
CELL = WORD_NAMESPACE + 'tc'
with zipfile.ZipFile('') as docx:
tree = xml.etree.ElementTree.XML(docx.read('word/document.xml'))
for table in tree.iter(TABLE):
for row in table.iter(ROW):
for cell in row.iter(CELL):
print ''.join(node.text for node in cell.iter(TEXT))
python对word提取数据,如何使用Python从doc / docx文件中提取数据相关推荐
- python读取xls数据_python_从.mat与.xls类型文件中读取数据
从.xls类型文件中读取数据 在写机器学习算法的时候从UCI下载了一些数据,但是格式不是csv,而是.txt/.data,可以先用excel打开数据,在excel中将数据进行分列后导入python进行 ...
- java pdfbox 提取pdf 标题_java – 使用pdfbox从PDF文件中提取文本
我试图使用pdfbox从PDF文件中提取文本,但不是作为命令行工具,而是在我的 Java应用程序中.我正在使用jsoup下载pdf. res = Jsoup .connect(host+action) ...
- mysql导入数据load data infile用法(将txt文件中的数据导入表中)
我们常常导入数据!mysql有一个高效导入方法,那就是load data infile 下面来看案例说明 基本语法: load data [low_priority] [local] infile ...
- load导入txt文件到mysql_mysql导入数据load data infile用法(将txt文件中的数据导入表中)...
我们常常导入数据!mysql有一个高效导入方法,那就是load data infile 下面来看案例说明 基本语法: load data [low_priority] [local] infile ...
- python如何读取word中超链接的文本_如何使用python从docx文件中提取超链接中的url...
我是Python的初学者,有一项任务是使用Python更改.docx文档中的每个超链接.感谢Kiran的代码,它给了我一些提示,让我做一些猜测,尝试和错误,最后让它工作.这里是我拥有的代码,我想与其他 ...
- python下载超链接文件-如何使用python从docx文件中提取超链接中的url
Tyson 我是Python的初学者,有一项任务是使用Python更改.docx文档中的每个超链接.感谢Kiran的代码,它给了我一些提示,让我做一些猜测,尝试和错误,最后让它工作.这里是我拥有的代码 ...
- python提取图片gps坐标_用python从.docx文件中提取GPS坐标
如果有不同模式的文件,我不知道这是否有效(请注意,我使用的是python 2.7.11):# -*- coding: utf-8 -*- from docx import Document impor ...
- 【Python项目实战】提取.docx文件中的图片并保存到指定的文件夹
文章目录 一.需求分析 二.系统设计 2.1系统业务流程 2.2系统预览 三.系统开发必备 3.1 系统开发环境 3.2文件组织结构 四.主函数设计 1.创建窗口 2.创建按钮 3.创建输入框 五.函 ...
- python docx 替换文字_查找并替换.docx文件中的文本 - Python
我一直在寻找一种方法来查找和替换docx文件中的文本而运气不佳 . 我已经尝试过docx模块而无法使用它 . 最后,我使用zipfile模块计算了下面描述的方法,并替换了docx存档中的documen ...
最新文章
- 反射 Class类和Class实例
- python 珠玑妙算
- 模拟input type=file
- Swift5.x使用纯代码创建NavigationTab控制器设置启动图Wb第1部分
- ubuntu设置始终亮屏_ubuntu设置关闭屏幕和锁定
- 2.9 go mod 之本地仓库搭建
- JAVA不同类型数组重载_java学习笔记--java中的方法与数组
- 【大讲堂讲师专访】张甦:数据库选型需因地制宜,MongoDB与MySQL绝非替代
- IT 已成为最疯狂的加班行业,没有之一
- swig: 未找到命令
- linux上的pcb设计软件,PCB设计软件(CadSoft Eagle Professional)
- 第十五课.K均值算法
- 从零开始实现Unity光照模型_02_为Shader添加简单的多光源支持_技术美术基础学习记录
- 已知六条边的边长,求四面体体积
- 开发,要谋定而后动。
- JAVA操作FTP(FTP工具类)
- Opencv python 直方图处理
- (自学java的第三天)JPI文档、变量、数据类型
- linux电脑接电视,Ubuntu下如何给通过HDMI连接电视机的计算机强制设置1920*1080分辨率...
- Android关机闹钟实现
热门文章
- NgRx Store里的StoreModule.forRoot()
- SAP Spartacus PersistFocus Directive是采取怎样的数据结构来存储focus信息的
- SAP Spartacus org unit list和unit detail的分屏显示原理
- SAP Spartacus里的登录token处理
- ngrx Effect学习笔记
- git@github.com - Permission denied publickey错误
- 一个好用的基于若干静态图片生成gif图片的在线工具
- how SAP gateway parse_meta_tags
- SAP云平台cf push命令报错误码44的解决方法
- SAP Marketing Cloud的动态dynamic customer profile