说说如何使用 python-docx 读取 word 文档
1 基本用法
import docxdoc = docx.Document('示例文档.docx')
print('段落数:')
print(len(doc.paragraphs))print('第一段内容文本=' + doc.paragraphs[0].text)print('第一段内容中的 Run 对象个数:')
print(len(doc.paragraphs[0].runs))print('遍历第一段内容中的 Run 对象:')
for i in range(0, len(doc.paragraphs[0].runs)):print(doc.paragraphs[0].runs[i].text)
运行结果:
段落数:
2
第一段内容文本=概要设计说明书又可称系统设计说明书。
第一段内容中的 Run 对象个数:
3
遍历第一段内容中的 Run 对象:
概要设计说明书又可称
系统设计说明书
。
- 调用 docx.Document() 会加载整个 docx 文档,放入返回的 Document 对象中。
- Document 对象拥有 paragraphs 属性,对其调用 len(),就会返回 docx 中的段落总数。
- 每个 Paragraph 对象都有 text 属性,存放的是段落中的字符串信息,注意: 这里不包括样式。
- 每个 Paragraph 对象也有一个 runs 属性,它是存放 Run 对象的列表。 Run 对象也有 text 属性,这个属性包含其内部的字符串信息。
2 读取整篇文档
我们可以利用上述方法,写一个读取整篇文档的通用方法:
import docxdef get_text(file_path, indent_size=0):''':param file_path: 文件路径:param indent_size: 段落缩进空格宽度:return:获取文档中的所有内容'''doc = docx.Document(file_path)texts = []indent = ''for i in range(0, indent_size):indent = indent + ' 'for paragraph in doc.paragraphs:texts.append(indent + paragraph.text)return '\n'.join(texts)
这样使用它:
from read_docx import get_text
...print('----读取整篇文档内容(纯文本)----')
print(get_text('示例文档.docx'))
print()
print('----加上段落缩进空格宽度-----')
print(get_text('示例文档.docx',4))
运行结果:
----读取整篇文档内容(纯文本)----
概要设计说明书又可称系统设计说明书。概要设计是一个设计师根据用户交互过程和用户需求来形成交互框架和视觉框架的过程,其结果往往以反映交互控件布置、界面元素分组以及界面整体板式的页面框架图的形式来呈现。这是一个在用户研究和设计之间架起桥梁,使用户研究和设计无缝结合,将对用户目标与需求转换成具体界面设计解决方案的重要阶段。----加上段落缩进空格宽度-----概要设计说明书又可称系统设计说明书。概要设计是一个设计师根据用户交互过程和用户需求来形成交互框架和视觉框架的过程,其结果往往以反映交互控件布置、界面元素分组以及界面整体板式的页面框架图的形式来呈现。这是一个在用户研究和设计之间架起桥梁,使用户研究和设计无缝结合,将对用户目标与需求转换成具体界面设计解决方案的重要阶段。
说说如何使用 python-docx 读取 word 文档相关推荐
- python批量提取word指定内容_使用python批量读取word文档并整理关键信息到excel表格的实例...
目标 最近实验室里成立了一个计算机兴趣小组 倡议大家多把自己解决问题的经验记录并分享 就像在CSDN写博客一样 虽然刚刚起步 但考虑到后面此类经验记录的资料会越来越多 所以一开始就要做好模板设计(如下 ...
- python docx修改word文档格式
修改word文档格式,包括修改目录字体字号间距,修改一级标题字体字号间距,二级标题字体字号间距....正文字体字号间距,表格中的文字的字体字号间距,以图或表开头的图名称和表名称的字体字号间距. wor ...
- python批量提取word指定内容到excel_(转)用python批量读取word文档并整理关键信息到excel表格...
目标 最近实验室里成立了一个计算机兴趣小组 倡议大家多把自己解决问题的经验记录并分享 就像在CSDN写博客一样 虽然刚刚起步 但考虑到后面此类经验记录的资料会越来越多 所以一开始就要做好模板设计(如下 ...
- python docx处理word文档中表格合并问题
问题描述 python中用docx库读取word文件,若word文件中包含合并的表格表格 则通过docx读取显示: file = docx.Document(path) for table in fi ...
- python 合并word文件_使用python docx合并word文档
合并包含所有样式的两个文档的另一种方法是使用python库docxcompose(https://pypi.org/project/docxcompose/).我们不需要明确定义样式,也不必逐段阅读文 ...
- python读取word文档并做简单的批量文档筛选
python读取word文档并做简单的批量文档筛选 最近参与了一项解析大量的word文档(试验报告形式)的工作,因为其中包含着一些对项目无意义的报告,所以要进行初步地筛选,通过查阅资料发现了pytho ...
- docx文档怎么排列图片_“胶水语言”办公自动化Word篇——使用Python编辑和读取Word文档
python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明. 使用python新建一个word文档,操作就像文档里介绍的那样: from docx import Doc ...
- Python读取word文档(结尾是docx)中的表格
最近在处理一个需求时:要求读取word文档中表格,然后再把表格写入Excel中 需求非常简单,步骤也很明确,好了,不废话,直接上代码 成功写入: 所需用到的库: pip install python- ...
- python怎么读取word文件_使用python编辑和读取word文档
python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明. 使用python新建一个word文档,操作就像文档里介绍的那样: 1 from docx importDo ...
- python怎么读取word文件_python之python-docx编辑和读取word文档
python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明. 使用python新建一个word文档,操作就像文档里介绍的那样:1 from docx import Do ...
最新文章
- python3可迭代对象、迭代器、生成器、协程yield入门
- 关于git经常忘记的:远程仓库关联。
- qt 4.8.4 linux,Tslib和Qt 4.8.4与在开发板上的移植
- 让代码更简洁 和@Autowired说分手, 迎接 @RequiredArgsConstructor注解
- 2.2 基本算法之递归和自调用函数 8758 2的幂次方表示 python
- Git详解(1)——Git起步
- 测试驱动开发与极限编程思想浅析
- 征服ASP.NET Ajax典型应用 (试读)
- php limit offset 1,laravel自定义分页的实现案例offset()和limit()
- iOS开发之YYKit丰富的组件,如:YYText
- 科普:论文上附有的 arXiv 是干嘛的
- 刘乾四川大学计算机学院刘乾,刘乾亮
- 【SDOI2013】项链 题解
- 从0到1构建计算机(4/12)--时序逻辑芯片:时序门、寄存器、RAM、计数器
- C++阶段03笔记03【文件操作(文本文件读写、二进制文件读写)】
- SpringBoot 自动配置初探
- NVIDIA VIDEO ENCODER(NVENC)7.0.1 SDK 编码流程 学习笔记
- oracle 01405 提取的值为null,ORA-01405 : fetched column value is NULL
- 甘超波:NLP价值观
- 异步FIFO基本原理(基于Verilog的简单实现)