本文实例讲述了python读取word文档的方法。分享给大家供大家参考。具体如下:

首先下载安装win32com

from win32com import client as wc

word = wc.Dispatch('Word.Application')

doc = word.Documents.Open('c:/test')

doc.SaveAs('c:/test.text', 2)

doc.Close()

word.Quit()

这种方式产生的text文档,不能用python用普通的r方式读取,为了让python可以用r方式读取,应当写成

doc.SaveAs('c:/test', 4)

注意:系统执行完成后,会自动产生文件后缀txt(虽然没有指明后缀)。

在xp系统下面,应当,

open(r'c:\text','r')

wdFormatDocument = 0

wdFormatDocument97 = 0

wdFormatDocumentDefault = 16

wdFormatDOSText = 4

wdFormatDOSTextLineBreaks = 5

wdFormatEncodedText = 7

wdFormatFilteredHTML = 10

wdFormatFlatXML = 19

wdFormatFlatXMLMacroEnabled = 20

wdFormatFlatXMLTemplate = 21

wdFormatFlatXMLTemplateMacroEnabled = 22

wdFormatHTML = 8

wdFormatPDF = 17

wdFormatRTF = 6

wdFormatTemplate = 1

wdFormatTemplate97 = 1

wdFormatText = 2

wdFormatTextLineBreaks = 3

wdFormatUnicodeText = 7

wdFormatWebArchive = 9

wdFormatXML = 11

wdFormatXMLDocument = 12

wdFormatXMLDocumentMacroEnabled = 13

wdFormatXMLTemplate = 14

wdFormatXMLTemplateMacroEnabled = 15

wdFormatXPS = 18

照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字 8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API,比如PHP.

from win32com import client as wc

word = wc.Dispatch('Word.Application')

doc = word.Documents.Open(r'c:/test1.doc')

doc.SaveAs('c:/test1.text', 4)

doc.Close()

import re

strings=open(r'c:\test1.text','r').read()

result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)

chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)

question=open(r'c:\question','a+')

question.write(chan)

question.close()

answer=open(r'c:\answeronly','a+')

for i,a in enumerate(result):

m=re.search('[A-D]',a)

answer.write(str(i+1)+' '+m.group()+'\n')

answer.close()

chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)

#不要(),容易引起歧义。

希望本文所述对大家的Python程序设计有所帮助。

本文原创发布php中文网,转载请注明出处,感谢您的尊重!

python解析word2003_python读取word文档的方法相关推荐

  1. python怎么获取word文档的章节_python读取word文档的方法

    本文实例讲述了python读取word文档的方法.分享给大家供大家参考.具体如下: 首先下载安装win32com from win32com import client as wc word = wc ...

  2. c语言读word,C语言实用读取word文档的方法

    C语言读取word文档的方法 第一种方法: 复制代码代码如下: Response.ClearContent(); Response.ClearHeaders(); Response.ContentTy ...

  3. php打开word文档_PHP读取word文档的方法分享

    本文主要介绍PHP读取word文档的方法,较为详细的分析了COM组件的开启.属性设置及基于COM组件打开并读取word文档的操作技巧,需要的朋友可以参考下,希望能帮助到大家. php开发 过程中可能会 ...

  4. c语言如何自动生成word,C语言读取word文档的方法

    C语言读取word文档的方法 第一种方法: 复制代码 代码如下: Response.ClearContent(); Response.ClearHeaders(); Response.ContentT ...

  5. python win32com在读取word文档时,遇到的问题

    1. 使用多线程编程,且需要调用win32com模块来打开word文档时,常见的错误如下: IDispatch = pythoncom.CoCreateInstance(IDispatch, None ...

  6. python怎么读取word文件_使用python编辑和读取word文档

    python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明. 使用python新建一个word文档,操作就像文档里介绍的那样: 1 from docx importDo ...

  7. docx文档怎么排列图片_“胶水语言”办公自动化Word篇——使用Python编辑和读取Word文档

    python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明. 使用python新建一个word文档,操作就像文档里介绍的那样: from docx import Doc ...

  8. 用python编辑word_使用PYTHON编辑和读取WORD文档

    python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明. 使用python新建一个word文档,操作就像文档里介绍的那样: 1 from docx import D ...

  9. PHP读取word文档的方法分析

    一.先开启php.ini的COM 1.设置php扩展目录 2.添加dll配置 3.重启apache使其php.ini配置生效 二.开启之后就可以试下如下操作 ● 建立一个指向新COM组件的索引 ● 显 ...

最新文章

  1. 解决android引用library project错误
  2. asp.net 域名欺骗式开发
  3. Node.js实现简易爬虫
  4. 机器翻译pascal程序
  5. sap gateway development mode
  6. 3.顶点外扩方法实现的描边shader
  7. leetcode算法—两数之和 Two Sum
  8. linux配置rsync服务器
  9. 【华为云网络技术分享】HTTP重定向HTTPS配置指南
  10. 涨疯了!国产鞋被爆炒,原价1499元卖48889元,有人几天赚一辆车
  11. 【java】java原生序列化和Kryo序列化性能实例对比分析
  12. 谷歌开源 Kotlin 版本 gRPC
  13. python棋盘放麦粒求和递归_Python递归调用实现数字累加的代码
  14. 《麦肯锡方法》第2章探索分析问题的方法-思维导图
  15. 大数据开发比赛echarts所有要学习的主要图表 简单化 得分点
  16. npm包--rimraf
  17. Jupyter 进行文字、图片格式编辑
  18. educoder中Spark GraphX—构建图及相关操作
  19. 关系数据模型的三个组成部分(关系数据模型的三个组成部分)
  20. jzoj 高中 1285——奶酪厂

热门文章

  1. 剑桥大学《2020年AI全景报告》出炉!
  2. html中滚动代码怎么写,网页HTML滚动代码大全(一)
  3. 人脸表情识别 微信小程序 百度智能云人脸识别API(含完整项目文件)
  4. Flask实现微博画像采集小工具
  5. Can't create database 'xxx' (errno: 28)
  6. matlab水力学工具箱,新浪潮水工设计工具箱
  7. wacom怎么调压感_手绘板压感是什么 数位板压感怎么调【教程】
  8. 基于FreeRTOS与MQTT的物联网技术应用系列——步进电机控制(七)基于CrossApp跨平台框架的MQTT客户端控制应用android版
  9. matplotlib.plot显示希腊字母及标题中的平方函数
  10. Android11 SystemUI 下拉通知栏取消左右滑动菜单