周末需要做一个统计word文档字数的问题,刚开始以为很简单,因为之前做过excel表格相关的任务,所以认为利用扩展模块应该比较简单。

通过搜索,确实搜到了一个python操作word的模块,python-docx

通过命令安装:pip install python-docx

使用代码示例:

#读取docx中的文本代码示例
import docx
#获取文档对象
file=docx.Document("D:\\temp\\word.docx")
print("段落数:"+str(len(file.paragraphs)))#段落数为13,每个回车隔离一段

#输出每一段的内容
for para in file.paragraphs:
  print(para.text)

#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
  print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

拿过来自己试了一下,却报了以下的错误:

拿异常上百度搜了一下,大致的意思是python-docx这个模块貌似只支持docx文件,不支持doc。

好吧,尝试另一种方法,使用antiword(这里使用的linux环境)

先下载安装,地址:http://www.winfield.demon.nl/

使用tar解压之后,分别用make  和 make install命令进行安装

切换到安装的目录后,使用“./antiword” + doc文件名即可读取文件内容。

转载于:https://www.cnblogs.com/niansi/p/7675505.html

python读取word文档相关推荐

  1. python读取word文档并做简单的批量文档筛选

    python读取word文档并做简单的批量文档筛选 最近参与了一项解析大量的word文档(试验报告形式)的工作,因为其中包含着一些对项目无意义的报告,所以要进行初步地筛选,通过查阅资料发现了pytho ...

  2. python生成word文档的表格_2018-10-04 [日常]用Python读取word文档中的表格并比较

    演示如下. 两个简单的word文档, 各有一个表格: 读取文档中的表格到列表(为演示只对单列表格操作): import docx def 取表格(文件名): 文件 = docx.Document(文件 ...

  3. python读取doc文件_Linux 下Python 读取Word文档内容的方法

    如果你是在Windows下, 直接使用win32com就可以进行读取word.doc文档和写入文档了. 但是在Linux下还真是麻烦, 一种方法是用OpenOffice的一个库来进行操作,那么意味这你 ...

  4. Python读取word文档(python-docx包)

    最近想统计word文档中的一些信息,人工统计的话...三天三夜吧 python 不愧是万能语言,发现有一个包叫做 docx,非常好用,具体查看官方文档:https://python-docx.read ...

  5. Python读取Word文档段落或者表格

    Python解析word文档 1 .安装并导依赖包 2.word的doc格式转docx格式 3.解析word_doc文档段落.表格内容 4.word读取表格存列表封装优化,节省读取时间 1 .安装并导 ...

  6. Python读取word文档(结尾是docx)中的表格

    最近在处理一个需求时:要求读取word文档中表格,然后再把表格写入Excel中 需求非常简单,步骤也很明确,好了,不废话,直接上代码 成功写入: 所需用到的库: pip install python- ...

  7. 用Python读取Word文档并写入Excel(一)

    工作中经常要处理大量的word文档,大部分内容都很简单,比如说做一个汇总表,从发来的word文档里提取名字.联系方式.地址等信息,提取完之后还需要用Excel做汇总,对于十几份的文档尚好,但对于成百份 ...

  8. python读取word文档结构图_python根据文章标题内容自动生成摘分享的实例

    如何用Python玩转TF-IDF之寻找相似文章并生成摘要 应用1:关键词自动生成 核心思想是对于某个文档中的某个词,计算其在这个文档中的标准化TF值,然后计算这个词在整个语料库中的标准化IDF值.在 ...

  9. python读取word文档中的图片_【Python 3 获取Word所有图片】

    上次讲到如何手动快速提取Word文档中的所有图片.这次我们用Python-3基于图片提取原理,写代码实现自动获取. Python 3实现代码import os,zipfile,shutil #引入os ...

最新文章

  1. opencv3.4.1 vs2017 鼠标停在 Mat 上 vs卡死
  2. Web服务器——Apache相关内容详解
  3. JBOSS+EJB3之Entity 开发实例
  4. Java面试题基础知识(收集)
  5. 吃火锅有四忌[转载]
  6. Ubuntu update case the virtualbox crash
  7. 关于数据库与LoaderManager的联合使用,节流???。。。。。
  8. Windows 下 Redis 的下载和安装
  9. 「Python基础知识」Python中的封装有什么作用
  10. php会话控制区别和流程,PHP会话控制:cookie和session区别与用法深入理解_后端开发...
  11. mysql 授权指定库,mysql创建新用户并给授权指定的数据库权限
  12. Django restful Framework 之序列化与反序列化
  13. 机器学习笔记(二)线性回归模型实现
  14. JDK帮助文档(中文版)
  15. 【光剑藏书轩2021】《表象与本质:类比,思考之源和思维之火》
  16. 虚拟机下安装BackTrack5 (BT5)教程及BT5汉化
  17. html document怎么转换成word,如何将HTML document文件类型转换成word document?
  18. 探针台选型的有哪些注意事项
  19. 挑战Man Group!顶级对冲基金的10道Python面试题
  20. Pulsar 社区周报| 2020-12-12 ~ 2020-12.18

热门文章

  1. 汇编语言 字母的大小写转换
  2. java安全点_关于OopMap、SafePoint(安全点)以及安全区域
  3. Discuz!UCenter创始人密码重置方法
  4. 这两天发现一个老外用JavaScript编写的好东西:dp.SyntaxHighlighter。
  5. Oracle工具类-生成数据库现有Job的创建脚本
  6. Zend framework重定向的方法
  7. 一般源码安装添加的GD库 是不支持 jpeg 格式的图片的
  8. 《JAVA编程那点事儿》读书笔记(二)——类和对象
  9. #define用法集锦[修正版]
  10. 基于Spring cloud Ribbon和Eureka实现客户端负载均衡