python读取doc文件_Linux 下Python 读取Word文档内容的方法
如果你是在Windows下, 直接使用win32com就可以进行读取word.doc文档和写入文档了。
但是在Linux下还真是麻烦,
一种方法是用OpenOffice的一个库来进行操作,那么意味这你要安装慢得要死的OpenOffice., 详细见下面的网址:
http://www.freewisdom.org/projects/python-markdown/odt2txt
我是使用catdoc将word文档转换为txt文档, 然后用Python读取txt文档,存入数据库
catdoc的下载地址是:
http://vitus.wagner.pp.ru/software/catdoc/
当然,如果你跟我一样是使用Ubuntu, 直接apt-get就可以安装了
sudo apt-get install catdoc
然后就可以进行操作了,以下是代码:
import os
doc_file = 'a.doc'
text_file = '%s.text' % doc_file
os.system("cat doc %s > %s" % (doc_file, text_file)
f = open(text_file, 'r')
content = f.read()
os.system('rm %s' % text_file)
python读取doc文件_Linux 下Python 读取Word文档内容的方法相关推荐
- python打开电脑文件_python办公自动化:自动打开word文档-docx文件怎样打开
上节python办公自动化:python自动化word快速入门,对python自动化word的操作做了快速入门,从本小节开始,逐步细致的分解讲解每一个关键步骤. python自动化word 使用文档 ...
- 同一文件夹下多个word文档合并
引用链接 import os # 输入输出函数,用来获取目录路径 import win32com.client as win32word = win32.gencache.EnsureDispatch ...
- Python动态修改Word文档内容,保留格式样式,并批量生成PDF
Python动态修改Word文档内容,保留格式样式,并批量生成PDF 前言 一.需要安装的库 二.核心逻辑-替换 前言 假如你有一个Word模版文档,要在里面填写人员信息,但人员有成百上千个,手动填起 ...
- python排版word文档命令方法大全_简易常用Word文档使用技巧方法大全(超全).doc
PAGE Word文档使用技巧方法大全 Word2000.2003.2007.2010快捷键使用大全总结 常用快捷键快捷键 作用 一.字体类Ctrl+B 使字符变为粗体Ctrl+I 使字符变为斜体Ct ...
- python批量修改word文档内容
实现的目标 批量修改word文档内容,此脚本直接修改文件,不是另存为,建议先copy再修改.多级目录结构对脚本没有影响,脚本会遍历"path"下所有目录以docx结尾文档. 用到的 ...
- Python+Tesseract-OCR识别图片文字并保存到word文档
目录 使用Python+Tesseract-OCR识别图片文字并保存到word文档 安装Tesseract-OCR 配置Tesseract-OCR 通过CMD验证Tesseract-OCR工作 安装p ...
- java读取word文档内容_合并多个Word文档内容,还在复制粘贴就out了,同事五秒轻松搞定...
在我们工作中,我们经常会编写多个Word文档内容,那么怎么将多个单个的Word文档合并到一个文档中,这就会显得有些难度. 如上图所示,我们需要将三个不同的案例,快速的汇总到我们的案例汇总表当中.许多朋 ...
- Python 将excel中的选择题 导入到word文档中
Python 将excel中的选择题 导入到word文档中 0x00 昨天,我的老师给我们一个包含600道关于比赛的选择题和判断题的excel文档,要我们整理成指定格式的word文档以后交给他.我看着 ...
- 合并当前文件夹下的所有excel文档(修改)
@[TOC]合并当前文件夹下的所有excel文档(修改) '合并当前文件夹下的所有excel文档(修改) '原版来自:怎么把100多个EXCEL文件合并成一个_百度知道 https://zhidao. ...
最新文章
- [转]笑话: 耐力惊人的三只乌龟
- Windows驱动开发-_驱动对象学习和内核处理字符串初步
- 会计证考试《财经法规与职业道德》第三章精选题
- hdu 2025 查找最大元素 (水)
- Kubernetes中分布式存储Rook-Ceph的使用:一个ASP.NET Core MVC的案例
- Jsp 中taglib标签的妙用
- 在matlab中如何构建加权邻接矩阵,如何构建图像的加权邻接矩阵
- Julia: 从set 、setdiff和 setdiff!说起
- python cgi模块 失败_python cgi 连接 sqlite3 失败的问题
- 自学编程、玩 vlog,90 后程序员们的冠军之路
- virtualbox设置了共享文件夹却无权限访问
- Xilinx VIVADO 中 DDR3(AXI4)的使用(3)模块封装
- 北京大学计算机学院复试名单2021,北京大学2021拟录取推免研究生毕业院校统计,多位来自非211高校...
- 《OpenCv视觉之眼》Python图像处理三 :Opencv图像属性、ROI区域获取及通道处理
- 关于织梦后台dedecms管理员后台权限、新增后台管理员的功能
- 在线房屋收租app开发优势
- 在线免费完整PDF转PPT格式
- emmet之css语法_使用Emmet加快HTML和CSS的生产
- 副驾驶的意义_副驾驶在飞行中的作用与地位
- WebRTC-gcc算法详解
热门文章
- java线程池1001java线程池_深入浅出Java(Android )线程池ThreadPoolExecutor
- java后台用 requset对象 存储值 前台获取不到_springmvc form表单提交后台对象获取不到值(解决)...
- centos mysql自动补全_MyCLI :一个支持自动补全和语法高亮的 MySQL/MariaDB 客户端
- git commit撤销_Git 实用操作:撤销 Commit 提交
- filebeat配置参数_filebeat配置详解
- dynamic programming 学习
- java学习避免死锁
- How to manage the certificates in the PC
- 网络行业协会责令十大流氓软件整改(继续踩他们一脚)
- 超强语义分割算法!基于语义流的快速而准确的场景解析