python解析word2003_python读取word文档的方法
本文实例讲述了python读取word文档的方法。分享给大家供大家参考。具体如下:
首先下载安装win32com
from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open('c:/test')
doc.SaveAs('c:/test.text', 2)
doc.Close()
word.Quit()
这种方式产生的text文档,不能用python用普通的r方式读取,为了让python可以用r方式读取,应当写成
doc.SaveAs('c:/test', 4)
注意:系统执行完成后,会自动产生文件后缀txt(虽然没有指明后缀)。
在xp系统下面,应当,
open(r'c:\text','r')
wdFormatDocument = 0
wdFormatDocument97 = 0
wdFormatDocumentDefault = 16
wdFormatDOSText = 4
wdFormatDOSTextLineBreaks = 5
wdFormatEncodedText = 7
wdFormatFilteredHTML = 10
wdFormatFlatXML = 19
wdFormatFlatXMLMacroEnabled = 20
wdFormatFlatXMLTemplate = 21
wdFormatFlatXMLTemplateMacroEnabled = 22
wdFormatHTML = 8
wdFormatPDF = 17
wdFormatRTF = 6
wdFormatTemplate = 1
wdFormatTemplate97 = 1
wdFormatText = 2
wdFormatTextLineBreaks = 3
wdFormatUnicodeText = 7
wdFormatWebArchive = 9
wdFormatXML = 11
wdFormatXMLDocument = 12
wdFormatXMLDocumentMacroEnabled = 13
wdFormatXMLTemplate = 14
wdFormatXMLTemplateMacroEnabled = 15
wdFormatXPS = 18
照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字 8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。
当然你也可以用任意一种语言通过com来调用office API,比如PHP.
from win32com import client as wc
word = wc.Dispatch('Word.Application')
doc = word.Documents.Open(r'c:/test1.doc')
doc.SaveAs('c:/test1.text', 4)
doc.Close()
import re
strings=open(r'c:\test1.text','r').read()
result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)
chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)
question=open(r'c:\question','a+')
question.write(chan)
question.close()
answer=open(r'c:\answeronly','a+')
for i,a in enumerate(result):
m=re.search('[A-D]',a)
answer.write(str(i+1)+' '+m.group()+'\n')
answer.close()
chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)
#不要(),容易引起歧义。
希望本文所述对大家的Python程序设计有所帮助。
本文原创发布php中文网,转载请注明出处,感谢您的尊重!
python解析word2003_python读取word文档的方法相关推荐
- python怎么获取word文档的章节_python读取word文档的方法
本文实例讲述了python读取word文档的方法.分享给大家供大家参考.具体如下: 首先下载安装win32com from win32com import client as wc word = wc ...
- c语言读word,C语言实用读取word文档的方法
C语言读取word文档的方法 第一种方法: 复制代码代码如下: Response.ClearContent(); Response.ClearHeaders(); Response.ContentTy ...
- php打开word文档_PHP读取word文档的方法分享
本文主要介绍PHP读取word文档的方法,较为详细的分析了COM组件的开启.属性设置及基于COM组件打开并读取word文档的操作技巧,需要的朋友可以参考下,希望能帮助到大家. php开发 过程中可能会 ...
- c语言如何自动生成word,C语言读取word文档的方法
C语言读取word文档的方法 第一种方法: 复制代码 代码如下: Response.ClearContent(); Response.ClearHeaders(); Response.ContentT ...
- python win32com在读取word文档时,遇到的问题
1. 使用多线程编程,且需要调用win32com模块来打开word文档时,常见的错误如下: IDispatch = pythoncom.CoCreateInstance(IDispatch, None ...
- python怎么读取word文件_使用python编辑和读取word文档
python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明. 使用python新建一个word文档,操作就像文档里介绍的那样: 1 from docx importDo ...
- docx文档怎么排列图片_“胶水语言”办公自动化Word篇——使用Python编辑和读取Word文档
python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明. 使用python新建一个word文档,操作就像文档里介绍的那样: from docx import Doc ...
- 用python编辑word_使用PYTHON编辑和读取WORD文档
python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明. 使用python新建一个word文档,操作就像文档里介绍的那样: 1 from docx import D ...
- PHP读取word文档的方法分析
一.先开启php.ini的COM 1.设置php扩展目录 2.添加dll配置 3.重启apache使其php.ini配置生效 二.开启之后就可以试下如下操作 ● 建立一个指向新COM组件的索引 ● 显 ...
最新文章
- 解决android引用library project错误
- asp.net 域名欺骗式开发
- Node.js实现简易爬虫
- 机器翻译pascal程序
- sap gateway development mode
- 3.顶点外扩方法实现的描边shader
- leetcode算法—两数之和 Two Sum
- linux配置rsync服务器
- 【华为云网络技术分享】HTTP重定向HTTPS配置指南
- 涨疯了!国产鞋被爆炒,原价1499元卖48889元,有人几天赚一辆车
- 【java】java原生序列化和Kryo序列化性能实例对比分析
- 谷歌开源 Kotlin 版本 gRPC
- python棋盘放麦粒求和递归_Python递归调用实现数字累加的代码
- 《麦肯锡方法》第2章探索分析问题的方法-思维导图
- 大数据开发比赛echarts所有要学习的主要图表 简单化 得分点
- npm包--rimraf
- Jupyter 进行文字、图片格式编辑
- educoder中Spark GraphX—构建图及相关操作
- 关系数据模型的三个组成部分(关系数据模型的三个组成部分)
- jzoj 高中 1285——奶酪厂
热门文章
- 剑桥大学《2020年AI全景报告》出炉!
- html中滚动代码怎么写,网页HTML滚动代码大全(一)
- 人脸表情识别 微信小程序 百度智能云人脸识别API(含完整项目文件)
- Flask实现微博画像采集小工具
- Can't create database 'xxx' (errno: 28)
- matlab水力学工具箱,新浪潮水工设计工具箱
- wacom怎么调压感_手绘板压感是什么 数位板压感怎么调【教程】
- 基于FreeRTOS与MQTT的物联网技术应用系列——步进电机控制(七)基于CrossApp跨平台框架的MQTT客户端控制应用android版
- matplotlib.plot显示希腊字母及标题中的平方函数
- Android11 SystemUI 下拉通知栏取消左右滑动菜单