这篇文章主要介绍了基于Python获取docx/doc文件内容代码解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

整体思路:

下载文件并修改后缀为zip文件,解压zip文件,所要获取的内容在固定的文件夹下:work/temp/word/document.xml

所用包,全部是python自带,不需要额外下载安装.

# encoding:utf-8

import os

import re

import requests

import zipfile

import xml.dom.minidom

newfile = 'test.docx'

def create(newfile):

"""下载docx文件,并修改后缀为zip"""

res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp?newsid=28949')

if not os.path.exists(newfile):

f = open(newfile, 'wb')

for chunk in res.iter_content(100000):

f.write(chunk)

f.close()

os.rename(newfile, 'test.zip') 这种方法发现只能解决一部分doc文件,具体原因不得而知,有明白的欢迎留言

# 将doc/docx文件压缩成zip文件

#pf = zipfile.ZipFile('test.zip', 'w', zipfile.ZIP_STORED)

#pf.write(newfile)

def get_txt():

"""解压zip,并在work/temp/word/document.xml获取文本内容,进行正则替换标签等操作"""

f = zipfile.ZipFile('test.zip', 'r')

for file in f.namelist():

f.extract(file, "temp/")

f = xml.dom.minidom.parse('./temp/word/document.xml')

txt = re.sub(r'', '\n', f.toxml())

print re.sub(r'<.>', '', txt)

if __name__ == '__main__':

create(newfile)

get_txt()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

python中的doc_基于Python获取docx/doc文件内容代码解析相关推荐

  1. Python2 获取docx/doc文件内容

    整体思路: 下载文件并修改后缀为zip文件,解压zip文件,所要获取的内容在固定的文件夹下:work/temp/word/document.xml 所用包,全部是python自带,不需要额外下载安装. ...

  2. Go如何自动解压缩包?如何读取docx/doc文件内容?

    在开发过程中,我们常常需要处理压缩包和文档文件.本文将介绍如何使用Go语言自动解压缩包和读取docx/doc文件. 一.解压缩包 压缩包格式 常见的压缩包格式有zip.gzip.bzip2等.在Go语 ...

  3. python中的tkinter_基于python中tkinter的计算机实现

    一.源代码 import tkinter as tk class Calculator(tk.Tk): def __init__(self): tk.Tk.__init__(self) self.ti ...

  4. python中心性评价_centrality 计算复杂网络中的节点或边 数中心性,基于python的 工具箱 matlab 238万源代码下载- www.pudn.com...

    文件名称: centrality下载 收藏√  [ 5  4  3  2  1 ] 开发工具: Python 文件大小: 101 KB 上传时间: 2014-03-13 下载次数: 4 详细说明:计算 ...

  5. Python之GUI:基于Python的GUI界面设计的一套AI课程学习(机器学习、深度学习、大数据、云计算等)推荐系统(包括语音生成、识别等前沿黑科技)

    Python之GUI:基于Python的GUI界面设计的一套AI课程学习(机器学习.深度学习.大数据.云计算等)推荐系统(包括语音生成.识别等前沿黑科技) 导读 基于Python的GUI界面设计的一套 ...

  6. python中求最小公约数,python求最大公约数和最小公倍数的简单方法

    python求最大公约数和最小公倍数的简单方法 python怎么求最大公约数和最小公倍数 一.求最大公约数 用辗转相除法求最大公约数的算法如下: 两个正整数a和b(a>b),它们的最大公约数等于 ...

  7. Python数据分析初探项目 基于Python数据可视化的网易云音乐歌单分析系统 大学编程作业(TUST 天津科技大学 2022年)

    Python 数据分析初探项目 基于 Python 数据可视化的网易云音乐歌单分析系统 大学编程作业(TUST 天津科技大学 2022 年) Python 数据分析初探项目 基于 Python 数据可 ...

  8. 【Python文本处理】基于运动路线记录GPX文件解析,心率、速度、时间、功率、踏频、海拔等参数的生成和更改,以及GPX循环拼接

    [Python文本处理]基于运动路线记录GPX文件解析,心率.速度.时间.功率.踏频.海拔等参数的生成和更改,以及GPX循环拼接 GPX文件本身其实就是坐标.海拔.时间.心率等综合性的xml文件 如图 ...

  9. 【Python文本处理】基于运动路线记录GPX文件的基础运动速度求解,并转为SRT字幕格式(不需要安装三方库)

    [Python文本处理]基于运动路线记录GPX文件的基础运动速度求解,并转为SRT字幕格式(不需要安装三方库) 解析 GPX文件格式 GPX文件本身其实就是坐标.海拔.时间.心率等综合性的xml文件 ...

最新文章

  1. linux 系统崩溃完全没有操作空间的系统修复
  2. html中绝对定位的父级,父元素相对定位,子元素绝对定位
  3. 熊掌号指数2.0常见问题汇总
  4. java使用jdbc的查询_如何在Java中使用多个查询使用JDBC
  5. 两张趣图助你理解 HTTP 状态码
  6. scanf 输入十六进制_在C语言中使用scanf()输入一个十六进制值
  7. SSH2中 关于修改hbm.xml文件 中内容无效果的解决方式
  8. 如何MATLAB中将一个向量或者矩阵强行转换为列向量
  9. java匹配uri_使用查询字符串中的:在Java中创建URI
  10. axure文本框添加水印_Axure教程:限制输入框输入字数
  11. 快逸报表研究-冻结表头
  12. win10安装杜比驱动
  13. 电脑文件被杀毒软件误删了怎么恢复?
  14. .net 邮箱验证码 邮箱验证码实现用户注册
  15. carplay_如何更改您的CarPlay壁纸
  16. 解决github.com 的响应时间过长
  17. 纪念品分组java_纪念品分组 (Java代码)
  18. jQuery源码逐行分析学习01(jQuery的框架结构简化)
  19. mysql中MAX函数使用注意点
  20. JavaSE写仿QQ聊天室

热门文章

  1. git bash打印当前文件结构_6 个方便的 Git 脚本
  2. MySQL插入数据时报错Cause: java.sql.SQLException: #HY000的解决方法
  3. maven私服的配置使用
  4. python基础知识笔记简书_Python学习笔记01——基础知识
  5. 还不知道事务消息吗?这篇文章带你全面扫盲
  6. 企业信息化投入中咨询服务_企业信息化咨询中的问题与对策研究
  7. 用python3做学生管理系统_详解用python实现基本的学生管理系统(文件存储版)(python3)...
  8. linux 编译mysql_linux下编译MYSQL
  9. php点选按钮ajax,php – 在单选按钮上显示div中的数据单击ajax
  10. 每天一个linux命令目录