Python2 获取docx/doc文件内容
整体思路:
下载文件并修改后缀为zip文件,解压zip文件,所要获取的内容在固定的文件夹下:work/temp/word/document.xml
所用包,全部是python自带,不需要额外下载安装.
# encoding:utf-8import osimport reimport requestsimport zipfileimport xml.dom.minidom newfile = 'test.docx' def create(newfile):"""下载docx文件,并修改后缀为zip""" res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp?newsid=28949') if not os.path.exists(newfile): f = open(newfile, 'wb')for chunk in res.iter_content(100000): f.write(chunk) f.close() os.rename(newfile, 'test.zip') 这种方法发现只能解决一部分doc文件,具体原因不得而知,有明白的欢迎留言
# 将doc/docx文件压缩成zip文件
#pf = zipfile.ZipFile('test.zip', 'w', zipfile.ZIP_STORED) #pf.write(newfile)
def get_txt():
"""解压zip,并在work/temp/word/document.xml获取文本内容,进行正则替换标签等操作"""
f = zipfile.ZipFile('test.zip', 'r')
for file in f.namelist():
f.extract(file, "temp/")
f = xml.dom.minidom.parse('./temp/word/document.xml')
txt = re.sub(r'</w:t></w:r></w:p>', '\n', f.toxml())
print re.sub(r'<.*?>', '', txt)
if __name__ == '__main__':
create(newfile)
get_txt()pasting
转载于:https://www.cnblogs.com/fanjp666888/p/9877968.html
Python2 获取docx/doc文件内容相关推荐
- python中的doc_基于Python获取docx/doc文件内容代码解析
这篇文章主要介绍了基于Python获取docx/doc文件内容代码解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 整体思路: 下载文件并修改后缀 ...
- Go如何自动解压缩包?如何读取docx/doc文件内容?
在开发过程中,我们常常需要处理压缩包和文档文件.本文将介绍如何使用Go语言自动解压缩包和读取docx/doc文件. 一.解压缩包 压缩包格式 常见的压缩包格式有zip.gzip.bzip2等.在Go语 ...
- Python替换docx模板文件内容
# -*- coding: utf-8 -*- # File : docx模板文件内容替换.py # Time : 2022-07-29 10:13 # Author : Da # Descripti ...
- js获取上传文件内容
js 获取上传文件的字节数及内容 <div>上传文件 : <input type="file" name = "file" id = &quo ...
- 关于使用struts2上传文件时获取不到文件内容的问题的解决方案
2019独角兽企业重金招聘Python工程师标准>>> 最近工作中需要用到批量上传文件的功能,项目使用的是struts2,然后发现在后台无法获取到文件的内容,在网上找了好久终于发现解 ...
- .rpt文件内容读取java_Java 中读取文件内容的 n 中方式
前言 刚接触 java 的时候很困惑一个事情 File相对路径,以哪个目录为参照物. 随着 io 模型的发展,java 1.7 的 nio,使用 Path.Paths 和 Files 等来方便 io ...
- AngularJS 双向绑定 input type='file'中文件名,文件内容
通过ng-model获取文件名,文件内容无效,这里用的都是双向绑定,但是双向绑定时参数传过去是undefined或者为空 <div ng-controller="getFileCtr ...
- Electron教程(五)读取本地文件内容, icpMain icpRenderer 之间的交互
Electron教程(五)读取本地文件内容, ipcMain ipcRenderer 之间的交互 Electron教程(一)什么是 Electron,由来.适用场景 和 Electron 的环境搭建 ...
- php中files和FILRS,php获取文件内容最后一行示例
php获取文件内容最后一行示例 复制代码 代码如下: $rs = 'README.md'; $fp = fopen($rs, 'r'); fseek($fp,-1,SEEK_END); $s = '' ...
最新文章
- 关于HA-MIR镜像双机虚拟IP与周立功CANET-200T采用UDP模式通讯技巧
- Python中的正则表达式(分组)
- [云炬创业基础笔记]第一章创业环境测试9
- 设置TextView文字
- HDU-1003 Max Sum(动态规划)
- 应用层协议之CCNA必备知识点精髓
- 我的英语六级考试成绩
- 自定义右键菜单,禁用浏览器自带的右键菜单[右键菜单实现--Demo]
- 区块链只能算半个“信任机器”,隐私计算才是真正的信任机器?
- python输入两个坐标求距离_python计算两个地址之间的距离方法
- 使用CSS动画实现 时钟转动效果
- 闹钟和时间管理工具Alarm Clock Pro mac
- 服务器带宽10M能带多少人同时访问之并发数计算
- 声呐技术学习---(1)
- 2014腾讯校招面试之二总结
- html语音输入功能讯飞,win10系统利用讯飞语音输入法实现电脑语音输入的方案介绍...
- linux下Found a swap file by the name解决
- 应对百度“清风算法”的策略和方法
- Android实战技巧之四十七:不用预览拍照与图片缩放剪裁
- 循环经济与可持续发展企业——章节测试1
热门文章
- 保存自动修复_CAD小技巧:怎样将自动保存的图形复原
- mysql大表数据抽取_从云数据迁移服务看MySQL大表抽取模式
- 【数控雕刻】【刀具路径】北京精雕JDPaint5.19+诺诚NC转换器4.0+SDU NCEdit1.0(什么是ENG和NC文件)
- 【OpenJudge7826】分苹果(小学奥数)
- 【初赛】排列组合的一点笔记
- 【NOIP2002】【codevs1010】过河卒
- jquery获取图片的宽度
- java关键字只static
- rt1052 usb速率_rt1052 spi flash 读数据好慢
- Linux c++ udp按包发送接收文件