python中的doc_基于Python获取docx/doc文件内容代码解析
这篇文章主要介绍了基于Python获取docx/doc文件内容代码解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
整体思路:
下载文件并修改后缀为zip文件,解压zip文件,所要获取的内容在固定的文件夹下:work/temp/word/document.xml
所用包,全部是python自带,不需要额外下载安装.
# encoding:utf-8
import os
import re
import requests
import zipfile
import xml.dom.minidom
newfile = 'test.docx'
def create(newfile):
"""下载docx文件,并修改后缀为zip"""
res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp?newsid=28949')
if not os.path.exists(newfile):
f = open(newfile, 'wb')
for chunk in res.iter_content(100000):
f.write(chunk)
f.close()
os.rename(newfile, 'test.zip') 这种方法发现只能解决一部分doc文件,具体原因不得而知,有明白的欢迎留言
# 将doc/docx文件压缩成zip文件
#pf = zipfile.ZipFile('test.zip', 'w', zipfile.ZIP_STORED)
#pf.write(newfile)
def get_txt():
"""解压zip,并在work/temp/word/document.xml获取文本内容,进行正则替换标签等操作"""
f = zipfile.ZipFile('test.zip', 'r')
for file in f.namelist():
f.extract(file, "temp/")
f = xml.dom.minidom.parse('./temp/word/document.xml')
txt = re.sub(r'', '\n', f.toxml())
print re.sub(r'<.>', '', txt)
if __name__ == '__main__':
create(newfile)
get_txt()
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。
python中的doc_基于Python获取docx/doc文件内容代码解析相关推荐
- Python2 获取docx/doc文件内容
整体思路: 下载文件并修改后缀为zip文件,解压zip文件,所要获取的内容在固定的文件夹下:work/temp/word/document.xml 所用包,全部是python自带,不需要额外下载安装. ...
- Go如何自动解压缩包?如何读取docx/doc文件内容?
在开发过程中,我们常常需要处理压缩包和文档文件.本文将介绍如何使用Go语言自动解压缩包和读取docx/doc文件. 一.解压缩包 压缩包格式 常见的压缩包格式有zip.gzip.bzip2等.在Go语 ...
- python中的tkinter_基于python中tkinter的计算机实现
一.源代码 import tkinter as tk class Calculator(tk.Tk): def __init__(self): tk.Tk.__init__(self) self.ti ...
- python中心性评价_centrality 计算复杂网络中的节点或边 数中心性,基于python的 工具箱 matlab 238万源代码下载- www.pudn.com...
文件名称: centrality下载 收藏√ [ 5 4 3 2 1 ] 开发工具: Python 文件大小: 101 KB 上传时间: 2014-03-13 下载次数: 4 详细说明:计算 ...
- Python之GUI:基于Python的GUI界面设计的一套AI课程学习(机器学习、深度学习、大数据、云计算等)推荐系统(包括语音生成、识别等前沿黑科技)
Python之GUI:基于Python的GUI界面设计的一套AI课程学习(机器学习.深度学习.大数据.云计算等)推荐系统(包括语音生成.识别等前沿黑科技) 导读 基于Python的GUI界面设计的一套 ...
- python中求最小公约数,python求最大公约数和最小公倍数的简单方法
python求最大公约数和最小公倍数的简单方法 python怎么求最大公约数和最小公倍数 一.求最大公约数 用辗转相除法求最大公约数的算法如下: 两个正整数a和b(a>b),它们的最大公约数等于 ...
- Python数据分析初探项目 基于Python数据可视化的网易云音乐歌单分析系统 大学编程作业(TUST 天津科技大学 2022年)
Python 数据分析初探项目 基于 Python 数据可视化的网易云音乐歌单分析系统 大学编程作业(TUST 天津科技大学 2022 年) Python 数据分析初探项目 基于 Python 数据可 ...
- 【Python文本处理】基于运动路线记录GPX文件解析,心率、速度、时间、功率、踏频、海拔等参数的生成和更改,以及GPX循环拼接
[Python文本处理]基于运动路线记录GPX文件解析,心率.速度.时间.功率.踏频.海拔等参数的生成和更改,以及GPX循环拼接 GPX文件本身其实就是坐标.海拔.时间.心率等综合性的xml文件 如图 ...
- 【Python文本处理】基于运动路线记录GPX文件的基础运动速度求解,并转为SRT字幕格式(不需要安装三方库)
[Python文本处理]基于运动路线记录GPX文件的基础运动速度求解,并转为SRT字幕格式(不需要安装三方库) 解析 GPX文件格式 GPX文件本身其实就是坐标.海拔.时间.心率等综合性的xml文件 ...
最新文章
- linux 系统崩溃完全没有操作空间的系统修复
- html中绝对定位的父级,父元素相对定位,子元素绝对定位
- 熊掌号指数2.0常见问题汇总
- java使用jdbc的查询_如何在Java中使用多个查询使用JDBC
- 两张趣图助你理解 HTTP 状态码
- scanf 输入十六进制_在C语言中使用scanf()输入一个十六进制值
- SSH2中 关于修改hbm.xml文件 中内容无效果的解决方式
- 如何MATLAB中将一个向量或者矩阵强行转换为列向量
- java匹配uri_使用查询字符串中的:在Java中创建URI
- axure文本框添加水印_Axure教程:限制输入框输入字数
- 快逸报表研究-冻结表头
- win10安装杜比驱动
- 电脑文件被杀毒软件误删了怎么恢复?
- .net 邮箱验证码 邮箱验证码实现用户注册
- carplay_如何更改您的CarPlay壁纸
- 解决github.com 的响应时间过长
- 纪念品分组java_纪念品分组 (Java代码)
- jQuery源码逐行分析学习01(jQuery的框架结构简化)
- mysql中MAX函数使用注意点
- JavaSE写仿QQ聊天室
热门文章
- git bash打印当前文件结构_6 个方便的 Git 脚本
- MySQL插入数据时报错Cause: java.sql.SQLException: #HY000的解决方法
- maven私服的配置使用
- python基础知识笔记简书_Python学习笔记01——基础知识
- 还不知道事务消息吗?这篇文章带你全面扫盲
- 企业信息化投入中咨询服务_企业信息化咨询中的问题与对策研究
- 用python3做学生管理系统_详解用python实现基本的学生管理系统(文件存储版)(python3)...
- linux 编译mysql_linux下编译MYSQL
- php点选按钮ajax,php – 在单选按钮上显示div中的数据单击ajax
- 每天一个linux命令目录