如果你是在Windows下, 直接使用win32com就可以进行读取word.doc文档和写入文档了。

但是在Linux下还真是麻烦,

一种方法是用OpenOffice的一个库来进行操作,那么意味这你要安装慢得要死的OpenOffice., 详细见下面的网址:

http://www.freewisdom.org/projects/python-markdown/odt2txt

我是使用catdoc将word文档转换为txt文档, 然后用Python读取txt文档,存入数据库

catdoc的下载地址是:

http://vitus.wagner.pp.ru/software/catdoc/

当然,如果你跟我一样是使用Ubuntu, 直接apt-get就可以安装了

sudo apt-get install catdoc

然后就可以进行操作了,以下是代码:

import os

doc_file = 'a.doc'

text_file = '%s.text' % doc_file

os.system("cat doc %s > %s" % (doc_file, text_file)

f = open(text_file, 'r')

content = f.read()

os.system('rm %s' % text_file)

python读取doc文件_Linux 下Python 读取Word文档内容的方法相关推荐

  1. python打开电脑文件_python办公自动化:自动打开word文档-docx文件怎样打开

    上节python办公自动化:python自动化word快速入门,对python自动化word的操作做了快速入门,从本小节开始,逐步细致的分解讲解每一个关键步骤. python自动化word 使用文档 ...

  2. 同一文件夹下多个word文档合并

    引用链接 import os # 输入输出函数,用来获取目录路径 import win32com.client as win32word = win32.gencache.EnsureDispatch ...

  3. Python动态修改Word文档内容,保留格式样式,并批量生成PDF

    Python动态修改Word文档内容,保留格式样式,并批量生成PDF 前言 一.需要安装的库 二.核心逻辑-替换 前言 假如你有一个Word模版文档,要在里面填写人员信息,但人员有成百上千个,手动填起 ...

  4. python排版word文档命令方法大全_简易常用Word文档使用技巧方法大全(超全).doc

    PAGE Word文档使用技巧方法大全 Word2000.2003.2007.2010快捷键使用大全总结 常用快捷键快捷键 作用 一.字体类Ctrl+B 使字符变为粗体Ctrl+I 使字符变为斜体Ct ...

  5. python批量修改word文档内容

    实现的目标 批量修改word文档内容,此脚本直接修改文件,不是另存为,建议先copy再修改.多级目录结构对脚本没有影响,脚本会遍历"path"下所有目录以docx结尾文档. 用到的 ...

  6. Python+Tesseract-OCR识别图片文字并保存到word文档

    目录 使用Python+Tesseract-OCR识别图片文字并保存到word文档 安装Tesseract-OCR 配置Tesseract-OCR 通过CMD验证Tesseract-OCR工作 安装p ...

  7. java读取word文档内容_合并多个Word文档内容,还在复制粘贴就out了,同事五秒轻松搞定...

    在我们工作中,我们经常会编写多个Word文档内容,那么怎么将多个单个的Word文档合并到一个文档中,这就会显得有些难度. 如上图所示,我们需要将三个不同的案例,快速的汇总到我们的案例汇总表当中.许多朋 ...

  8. Python 将excel中的选择题 导入到word文档中

    Python 将excel中的选择题 导入到word文档中 0x00 昨天,我的老师给我们一个包含600道关于比赛的选择题和判断题的excel文档,要我们整理成指定格式的word文档以后交给他.我看着 ...

  9. 合并当前文件夹下的所有excel文档(修改)

    @[TOC]合并当前文件夹下的所有excel文档(修改) '合并当前文件夹下的所有excel文档(修改) '原版来自:怎么把100多个EXCEL文件合并成一个_百度知道 https://zhidao. ...

最新文章

  1. [转]笑话: 耐力惊人的三只乌龟
  2. Windows驱动开发-_驱动对象学习和内核处理字符串初步
  3. 会计证考试《财经法规与职业道德》第三章精选题
  4. hdu 2025 查找最大元素 (水)
  5. Kubernetes中分布式存储Rook-Ceph的使用:一个ASP.NET Core MVC的案例
  6. Jsp 中taglib标签的妙用
  7. 在matlab中如何构建加权邻接矩阵,如何构建图像的加权邻接矩阵
  8. Julia: 从set 、setdiff和 setdiff!说起
  9. python cgi模块 失败_python cgi 连接 sqlite3 失败的问题
  10. 自学编程、玩 vlog,90 后程序员们的冠军之路
  11. virtualbox设置了共享文件夹却无权限访问
  12. Xilinx VIVADO 中 DDR3(AXI4)的使用(3)模块封装
  13. 北京大学计算机学院复试名单2021,北京大学2021拟录取推免研究生毕业院校统计,多位来自非211高校...
  14. 《OpenCv视觉之眼》Python图像处理三 :Opencv图像属性、ROI区域获取及通道处理
  15. 关于织梦后台dedecms管理员后台权限、新增后台管理员的功能
  16. 在线房屋收租app开发优势
  17. 在线免费完整PDF转PPT格式
  18. emmet之css语法_使用Emmet加快HTML和CSS的生产
  19. 副驾驶的意义_副驾驶在飞行中的作用与地位
  20. WebRTC-gcc算法详解

热门文章

  1. java线程池1001java线程池_深入浅出Java(Android )线程池ThreadPoolExecutor
  2. java后台用 requset对象 存储值 前台获取不到_springmvc form表单提交后台对象获取不到值(解决)...
  3. centos mysql自动补全_MyCLI :一个支持自动补全和语法高亮的 MySQL/MariaDB 客户端
  4. git commit撤销_Git 实用操作:撤销 Commit 提交
  5. filebeat配置参数_filebeat配置详解
  6. dynamic programming 学习
  7. java学习避免死锁
  8. How to manage the certificates in the PC
  9. 网络行业协会责令十大流氓软件整改(继续踩他们一脚)
  10. 超强语义分割算法!基于语义流的快速而准确的场景解析