最近想统计word文档中的一些信息,人工统计的话。。。三天三夜吧
python 不愧是万能语言,发现有一个包叫做 docx,非常好用,具体查看官方文档:https://python-docx.readthedocs.io/en/latest/index.html
(v0.8.6)

还有一个是 win32com 包,这个包安装步骤如下:
http://jingyan.baidu.com/article/d3b74d64c853081f77e60929.html

安装好 win32com之后安装 docx包:

pip install  python-docx
import docx
from win32com import client as wc
import matplotlib.pyplot as plt
from collections import Counter
import os
# 首先将doc转换成docx
word = wc.Dispatch("Word.Application")# 找到word路径 + 文件名 ,即可打开文件full_path = 'C:\\Users\\ASUS\\Desktop\\test.docx'
doc = word.Documents.Open(full_path)# 使用参数16表示将doc转换成docx,保存成docx后才能 读文件doc.SaveAs(r"D:\\test2.docx",16)
doc.Close()
word.Quit()# 读取word内容
# 这里是以段落为单位的,下面用一个for 遍历所有段落doc = docx.Document("D:\\test2.docx")
parag_num = 0
for para in doc.paragraphs :print(para.text)parag += 1
print ('This document has ', parag, ' paragraphs')

word文档里是这样的:

执行代码结果:

还可以读取word文档中的表格,图片等其他信息,方便对多个word文档进行统计,分析,处理

Python读取word文档(python-docx包)相关推荐

  1. python生成word文档的表格_2018-10-04 [日常]用Python读取word文档中的表格并比较

    演示如下. 两个简单的word文档, 各有一个表格: 读取文档中的表格到列表(为演示只对单列表格操作): import docx def 取表格(文件名): 文件 = docx.Document(文件 ...

  2. python读取word文档并做简单的批量文档筛选

    python读取word文档并做简单的批量文档筛选 最近参与了一项解析大量的word文档(试验报告形式)的工作,因为其中包含着一些对项目无意义的报告,所以要进行初步地筛选,通过查阅资料发现了pytho ...

  3. Python读取word文档(结尾是docx)中的表格

    最近在处理一个需求时:要求读取word文档中表格,然后再把表格写入Excel中 需求非常简单,步骤也很明确,好了,不废话,直接上代码 成功写入: 所需用到的库: pip install python- ...

  4. Python读取Word文档段落或者表格

    Python解析word文档 1 .安装并导依赖包 2.word的doc格式转docx格式 3.解析word_doc文档段落.表格内容 4.word读取表格存列表封装优化,节省读取时间 1 .安装并导 ...

  5. python读取doc文件_Linux 下Python 读取Word文档内容的方法

    如果你是在Windows下, 直接使用win32com就可以进行读取word.doc文档和写入文档了. 但是在Linux下还真是麻烦, 一种方法是用OpenOffice的一个库来进行操作,那么意味这你 ...

  6. python操作word文档-python操作word

    1.Python写word文档 要操作word文档首先需要安装python-docx库: pip install python-docx 然后导入docx模块,或者从docx模块中导入Document ...

  7. python读取word文档

    周末需要做一个统计word文档字数的问题,刚开始以为很简单,因为之前做过excel表格相关的任务,所以认为利用扩展模块应该比较简单. 通过搜索,确实搜到了一个python操作word的模块,pytho ...

  8. 用Python读取Word文档并写入Excel(一)

    工作中经常要处理大量的word文档,大部分内容都很简单,比如说做一个汇总表,从发来的word文档里提取名字.联系方式.地址等信息,提取完之后还需要用Excel做汇总,对于十几份的文档尚好,但对于成百份 ...

  9. python读取word文档中的图片_【Python 3 获取Word所有图片】

    上次讲到如何手动快速提取Word文档中的所有图片.这次我们用Python-3基于图片提取原理,写代码实现自动获取. Python 3实现代码import os,zipfile,shutil #引入os ...

最新文章

  1. 串结构练习——字符串匹配
  2. C++(九)——职工信息管理系统
  3. python只能对列表进行切片_Python3:类型错误:列表索引必须是整数或切片,而不是s...
  4. linux 批量kill java进程
  5. xp计算机知识点,全国职称计算机考试Windowsxp知识点
  6. Redis学习手册(String数据类型)
  7. 探究make_shared效率
  8. python日志模块----logging
  9. [转]sql server性能分析--检测数据库阻塞语句
  10. Nginx 中 nginx.conf 详解
  11. 论文《Learning Spatial Fusion for Single-Shot Object Detection》解读
  12. 二分--求最小值的最大p1m2
  13. css禁止背景图拉伸_html-css控制背景图全屏拉伸不重复显示
  14. [CF700E][JZOJ5558]Cool Slogan (后缀自动机+线段树)
  15. 【武忠祥高等数学基础课笔记】第一章 函数、极限、连续
  16. PX4的软件仿真(SITL)环境配置过程
  17. 在阿里云主机上部署Mysql数据库详细教程
  18. Linux服务器 - 腾讯云服务器挂载云硬盘
  19. 【图像隐写】基于matlab LSB数字水印嵌入提取【含Matlab源码 2412期】
  20. Redis缓存知识-穿透、击穿、雪崩

热门文章

  1. [转]Winform不规则窗体的实现心得
  2. php观察者模式使用场景,php设计模式系列--观察者模式
  3. ascii码和unicode
  4. js插件编写常用工具函数及格式
  5. 初学python之生成器
  6. 团队作业4——第一次项目冲刺(Alpha版本)4.25
  7. 驰骋工作流引擎-总体介绍
  8. Java Synchronized 关键字
  9. 通过升级.NET框架提升实体框架性能
  10. 摘自缪雪峰的博客的JavaScript个人笔记(3)