整体思路:

下载文件并修改后缀为zip文件,解压zip文件,所要获取的内容在固定的文件夹下:work/temp/word/document.xml

所用包,全部是python自带,不需要额外下载安装.

# encoding:utf-8import osimport reimport requestsimport zipfileimport xml.dom.minidom

newfile = 'test.docx'

def create(newfile):"""下载docx文件,并修改后缀为zip"""    res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp?newsid=28949')

if not os.path.exists(newfile):        f = open(newfile, 'wb')for chunk in res.iter_content(100000):            f.write(chunk)        f.close()

    os.rename(newfile, 'test.zip')    这种方法发现只能解决一部分doc文件,具体原因不得而知,有明白的欢迎留言
    # 将doc/docx文件压缩成zip文件
    #pf = zipfile.ZipFile('test.zip', 'w', zipfile.ZIP_STORED)     #pf.write(newfile)

def get_txt():
"""解压zip,并在work/temp/word/document.xml获取文本内容,进行正则替换标签等操作"""
f = zipfile.ZipFile('test.zip', 'r')
for file in f.namelist():
f.extract(file, "temp/")

f = xml.dom.minidom.parse('./temp/word/document.xml')

txt = re.sub(r'</w:t></w:r></w:p>', '\n', f.toxml())
print re.sub(r'<.*?>', '', txt)

if __name__ == '__main__':
create(newfile)
get_txt()pasting

转载于:https://www.cnblogs.com/fanjp666888/p/9877968.html

Python2 获取docx/doc文件内容相关推荐

  1. python中的doc_基于Python获取docx/doc文件内容代码解析

    这篇文章主要介绍了基于Python获取docx/doc文件内容代码解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 整体思路: 下载文件并修改后缀 ...

  2. Go如何自动解压缩包?如何读取docx/doc文件内容?

    在开发过程中,我们常常需要处理压缩包和文档文件.本文将介绍如何使用Go语言自动解压缩包和读取docx/doc文件. 一.解压缩包 压缩包格式 常见的压缩包格式有zip.gzip.bzip2等.在Go语 ...

  3. Python替换docx模板文件内容

    # -*- coding: utf-8 -*- # File : docx模板文件内容替换.py # Time : 2022-07-29 10:13 # Author : Da # Descripti ...

  4. js获取上传文件内容

    js 获取上传文件的字节数及内容 <div>上传文件 : <input type="file" name = "file" id = &quo ...

  5. 关于使用struts2上传文件时获取不到文件内容的问题的解决方案

    2019独角兽企业重金招聘Python工程师标准>>> 最近工作中需要用到批量上传文件的功能,项目使用的是struts2,然后发现在后台无法获取到文件的内容,在网上找了好久终于发现解 ...

  6. .rpt文件内容读取java_Java 中读取文件内容的 n 中方式

    前言 刚接触 java 的时候很困惑一个事情 File相对路径,以哪个目录为参照物. 随着 io 模型的发展,java 1.7 的 nio,使用 Path.Paths 和 Files 等来方便 io ...

  7. AngularJS 双向绑定 input type='file'中文件名,文件内容

    通过ng-model获取文件名,文件内容无效,这里用的都是双向绑定,但是双向绑定时参数传过去是undefined或者为空 <div  ng-controller="getFileCtr ...

  8. Electron教程(五)读取本地文件内容, icpMain icpRenderer 之间的交互

    Electron教程(五)读取本地文件内容, ipcMain ipcRenderer 之间的交互 Electron教程(一)什么是 Electron,由来.适用场景 和 Electron 的环境搭建 ...

  9. php中files和FILRS,php获取文件内容最后一行示例

    php获取文件内容最后一行示例 复制代码 代码如下: $rs = 'README.md'; $fp = fopen($rs, 'r'); fseek($fp,-1,SEEK_END); $s = '' ...

最新文章

  1. 关于HA-MIR镜像双机虚拟IP与周立功CANET-200T采用UDP模式通讯技巧
  2. Python中的正则表达式(分组)
  3. [云炬创业基础笔记]第一章创业环境测试9
  4. 设置TextView文字
  5. HDU-1003 Max Sum(动态规划)
  6. 应用层协议之CCNA必备知识点精髓
  7. 我的英语六级考试成绩
  8. 自定义右键菜单,禁用浏览器自带的右键菜单[右键菜单实现--Demo]
  9. 区块链只能算半个“信任机器”,隐私计算才是真正的信任机器?
  10. python输入两个坐标求距离_python计算两个地址之间的距离方法
  11. 使用CSS动画实现 时钟转动效果
  12. 闹钟和时间管理工具Alarm Clock Pro mac
  13. 服务器带宽10M能带多少人同时访问之并发数计算
  14. 声呐技术学习---(1)
  15. 2014腾讯校招面试之二总结
  16. html语音输入功能讯飞,win10系统利用讯飞语音输入法实现电脑语音输入的方案介绍...
  17. linux下Found a swap file by the name解决
  18. 应对百度“清风算法”的策略和方法
  19. Android实战技巧之四十七:不用预览拍照与图片缩放剪裁
  20. 循环经济与可持续发展企业——章节测试1

热门文章

  1. 保存自动修复_CAD小技巧:怎样将自动保存的图形复原
  2. mysql大表数据抽取_从云数据迁移服务看MySQL大表抽取模式
  3. 【数控雕刻】【刀具路径】北京精雕JDPaint5.19+诺诚NC转换器4.0+SDU NCEdit1.0(什么是ENG和NC文件)
  4. 【OpenJudge7826】分苹果(小学奥数)
  5. 【初赛】排列组合的一点笔记
  6. 【NOIP2002】【codevs1010】过河卒
  7. jquery获取图片的宽度
  8. java关键字只static
  9. rt1052 usb速率_rt1052 spi flash 读数据好慢
  10. Linux c++ udp按包发送接收文件