使用python-docx读取doc,docx文档
API: http://python-docx.readthedocs.io/en/latest/#api-documentation
将doc转为docx:
from win32com import client as wc
word = wc.Dispatch("Word.Application")
doc = word.Documents.Open(路径+名称.doc)
doc.SaveAs(路径+名称.docx, 12) 12为docx
doc.Close()
word.Quit()
读取段落:
import docx
docStr = Document(docName) 打开文档
for paragraph in docStr.paragraphs:
parStr = paragraph.text
--》paragraph.style.name == 'Heading 1' 一级标题
--》paragraph.paragraph_format.alignment == 1 居中显示
--》paragraph.style.next_paragraph_style.paragraph_format.alignment == 1 下一段居中显示
--》paragraph.style.font.color
读取表格:
numTables = docStr.tables
for table in numTables:
#行列个数
row_count = len(table.rows)
col_count = len(table.columns)
for i in range(row_count):
row = table.rows[i].cells
i行j列内容:row[j].text
或者:
row_count = len(table.rows)
col_count = len(table.columns)
for i in range(row_count):
for j in range(col_count):
print(table.cell(i,j).text)
使用python-docx读取doc,docx文档相关推荐
- HWPFDocument读取doc,wps文档(含图片读取)
导包 代码: 1.图片工具类 1 package com.poi.test;2 3 import java.util.ArrayList;4 import java.util.HashMap;5 im ...
- python word转pdf linux_Linux下使用LibreOffice+python将doc/docx/wps格式的文档转成html/txt/docx等格式...
Linux下的word文档格式转换工具 最近接到一个需求,要将所有不同格式的文档(包括.doc/.docx/.wps)转成统一格式,如都转为.docx,或直接转为.html 或.txt.经调研后,发现 ...
- python读取doc/docx文件
仅此记录python读取doc/docx文件的方法,和常用简单的open txt文件完全不同(版本python 3.6 Win10) docx 使用docx包,python为其专用接口,pytho ...
- TBS腾讯浏览器服务x5内核打开本地doc(doc docx xlsx pdf ppt)文档(官网最新43903版本SDK)
目前最新版本(官网最新43903版本SDK)仅支持本地文件查看 测试Demo:TBS腾讯浏览器服务x5内核打开本地doc(docdocxxlsxpdfppt)文档(官网最新43903版本SDK)-互联 ...
- Python3-word文档操作(十):利用docx库创建word文档,添加段落,添加表格,添加图片,设置文字粗体,斜体
1 简介: 作为一个综合例子,本篇主要显示docx库的一些基本操作: 利用docx库创建word文档,添加段落,添加表格,添加图片,设置文字粗体,斜体. 2 举例: 对word文档进行属性的设置,以及 ...
- springboot结合Freemarker模板生成docx格式的word文档(附代码)
首先参考的是这篇文章: java利用Freemarker模板生成docx格式的word文档(全过程) - 旁光 - 博客园参考:https://my.oschina.net/u/3737136/blo ...
- Django在线预览docx格式的word文档
Django在线预览docx格式的word文档 第一步 明确功能是:预览word的docx文件. 具体实现是:在Django的模板文件中,定义预览方法:read_word2html from pydo ...
- java利用Freemarker模板生成docx格式的word文档(全过程)
参考汇总: wordexport: JAVA生成并导出Word文档技术论证 java利用Freemarker模板生成docx格式的word文档(全过程) - 旁光 - 博客园 # 参考资料 - 其他项 ...
- python读写word、pdf文档
处理PDF和Word文档 用于处理PDF的模块是PyPDF2. 处理Word文档是python-docx模块,要安装python-docx,但是导入模块时是写import docx. 1.从PDF提取 ...
- Python学习之批量word文档转pdf并统计其页码
pypdf2是一个Python模块,可以用来读取.写入和操作PDF文件.要安装pypdf2模块,请按照以下步骤操作: 确保你已经安装了Python.你可以在终端或命令提示符中输入python --ve ...
最新文章
- 分享Silverlight/WPF/Windows Phone一周学习导读(1月17日-1月23日)
- 还不会用 K8s 集群控制器?那你会用冰箱吗?(多图详解)
- Windows10 UWP开发 - 响应式设计
- boost::type_erasure::equality_comparable相关的测试程序
- linux下 最常用基本命令
- CAS实现原子操作的三大问题
- pytorch torch.nn.TransformerEncoder
- jq写的项目如何部署到静态服务器_如何把前端项目部署到服务器
- Java的新项目学成在线笔记-day7(一)
- springboot搞定全局自定义异常
- C# MD5加密与解密
- java.net.SocketException: Connection reset 问题分析
- POI导出excel加水印
- 于丹《庄子》心得讲稿-《大道与自然》
- POJ 3422 Kaka's Matrix Travels 已翻译
- 随便谈谈我的实习经历
- ”35岁没500万存款就是失败?“,35岁职场人真实存款流出!
- C# Windows获取系统路径汇总
- matlab 读ctl,用matlab将nc数据读出来,写成二进制文件,然后用grads画图
- 英文SEO分析竞争对手推广策略实操