python读取word文档
周末需要做一个统计word文档字数的问题,刚开始以为很简单,因为之前做过excel表格相关的任务,所以认为利用扩展模块应该比较简单。
通过搜索,确实搜到了一个python操作word的模块,python-docx
通过命令安装:pip install python-docx
使用代码示例:
#读取docx中的文本代码示例
import docx
#获取文档对象
file=docx.Document("D:\\temp\\word.docx")
print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离一段
#输出每一段的内容
for para in file.paragraphs:
print(para.text)
#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)
拿过来自己试了一下,却报了以下的错误:
拿异常上百度搜了一下,大致的意思是python-docx这个模块貌似只支持docx文件,不支持doc。
好吧,尝试另一种方法,使用antiword(这里使用的linux环境)
先下载安装,地址:http://www.winfield.demon.nl/
使用tar解压之后,分别用make 和 make install命令进行安装
切换到安装的目录后,使用“./antiword” + doc文件名即可读取文件内容。
转载于:https://www.cnblogs.com/niansi/p/7675505.html
python读取word文档相关推荐
- python读取word文档并做简单的批量文档筛选
python读取word文档并做简单的批量文档筛选 最近参与了一项解析大量的word文档(试验报告形式)的工作,因为其中包含着一些对项目无意义的报告,所以要进行初步地筛选,通过查阅资料发现了pytho ...
- python生成word文档的表格_2018-10-04 [日常]用Python读取word文档中的表格并比较
演示如下. 两个简单的word文档, 各有一个表格: 读取文档中的表格到列表(为演示只对单列表格操作): import docx def 取表格(文件名): 文件 = docx.Document(文件 ...
- python读取doc文件_Linux 下Python 读取Word文档内容的方法
如果你是在Windows下, 直接使用win32com就可以进行读取word.doc文档和写入文档了. 但是在Linux下还真是麻烦, 一种方法是用OpenOffice的一个库来进行操作,那么意味这你 ...
- Python读取word文档(python-docx包)
最近想统计word文档中的一些信息,人工统计的话...三天三夜吧 python 不愧是万能语言,发现有一个包叫做 docx,非常好用,具体查看官方文档:https://python-docx.read ...
- Python读取Word文档段落或者表格
Python解析word文档 1 .安装并导依赖包 2.word的doc格式转docx格式 3.解析word_doc文档段落.表格内容 4.word读取表格存列表封装优化,节省读取时间 1 .安装并导 ...
- Python读取word文档(结尾是docx)中的表格
最近在处理一个需求时:要求读取word文档中表格,然后再把表格写入Excel中 需求非常简单,步骤也很明确,好了,不废话,直接上代码 成功写入: 所需用到的库: pip install python- ...
- 用Python读取Word文档并写入Excel(一)
工作中经常要处理大量的word文档,大部分内容都很简单,比如说做一个汇总表,从发来的word文档里提取名字.联系方式.地址等信息,提取完之后还需要用Excel做汇总,对于十几份的文档尚好,但对于成百份 ...
- python读取word文档结构图_python根据文章标题内容自动生成摘分享的实例
如何用Python玩转TF-IDF之寻找相似文章并生成摘要 应用1:关键词自动生成 核心思想是对于某个文档中的某个词,计算其在这个文档中的标准化TF值,然后计算这个词在整个语料库中的标准化IDF值.在 ...
- python读取word文档中的图片_【Python 3 获取Word所有图片】
上次讲到如何手动快速提取Word文档中的所有图片.这次我们用Python-3基于图片提取原理,写代码实现自动获取. Python 3实现代码import os,zipfile,shutil #引入os ...
最新文章
- opencv3.4.1 vs2017 鼠标停在 Mat 上 vs卡死
- Web服务器——Apache相关内容详解
- JBOSS+EJB3之Entity 开发实例
- Java面试题基础知识(收集)
- 吃火锅有四忌[转载]
- Ubuntu update case the virtualbox crash
- 关于数据库与LoaderManager的联合使用,节流???。。。。。
- Windows 下 Redis 的下载和安装
- 「Python基础知识」Python中的封装有什么作用
- php会话控制区别和流程,PHP会话控制:cookie和session区别与用法深入理解_后端开发...
- mysql 授权指定库,mysql创建新用户并给授权指定的数据库权限
- Django restful Framework 之序列化与反序列化
- 机器学习笔记(二)线性回归模型实现
- JDK帮助文档(中文版)
- 【光剑藏书轩2021】《表象与本质:类比,思考之源和思维之火》
- 虚拟机下安装BackTrack5 (BT5)教程及BT5汉化
- html document怎么转换成word,如何将HTML document文件类型转换成word document?
- 探针台选型的有哪些注意事项
- 挑战Man Group!顶级对冲基金的10道Python面试题
- Pulsar 社区周报| 2020-12-12 ~ 2020-12.18
热门文章
- 汇编语言 字母的大小写转换
- java安全点_关于OopMap、SafePoint(安全点)以及安全区域
- Discuz!UCenter创始人密码重置方法
- 这两天发现一个老外用JavaScript编写的好东西:dp.SyntaxHighlighter。
- Oracle工具类-生成数据库现有Job的创建脚本
- Zend framework重定向的方法
- 一般源码安装添加的GD库 是不支持 jpeg 格式的图片的
- 《JAVA编程那点事儿》读书笔记(二)——类和对象
- #define用法集锦[修正版]
- 基于Spring cloud Ribbon和Eureka实现客户端负载均衡