将doc文件转为txt文件
问,将大象放进冰箱需要几步?
啊呸,串场了。将doc文件转为txt文件需要几步?
答:需要两步,
1.先将doc转为docx。因为python-docx只能处理docx的文件,而无法处理doc文档。docx本质是xml文件比doc更小些。这里需要的包为win32com,如果没有,则pip即可。
import os
from win32com import client as wc
from docx import Document
from tqdm import tqdm
def doc2docx(origin_path, goal_path):"""将doc转为docx"""word = wc.Dispatch("Word.Application")# 不能用相对路径,用绝对路径# 需要处理的文件所在文件夹目录for i in os.listdir(origin_path):# 找出文件中以.doc结尾并且不以~$开头的文件(~$是为了排除临时文件的)if i.endswith('.doc') and not i.startswith('~$'):print(i)doc_path = os.path.join(origin_path, i)doc = word.Documents.Open(doc_path)# 将文件名与后缀分割rename = os.path.splitext(i)# 将文件另存为.docxsave_path = os.path.join(goal_path, rename[0] + '.docx')doc.SaveAs(save_path, 12) # 12表示docx格式doc.Close()word.Quit()
2.将docx转为txt文本。这些需要python-docx,如果没有则pip就好。
import os
from win32com import client as wc
from docx import Document
from tqdm import tqdm
def docx2txt(path):"""将docx转为txt"""txt_count = 1for i in os.listdir(path):if i.endswith('.docx') and not i.startswith('~$'):file_path = os.path.join(path, i)document = Document(file_path)txt_path = os.path.join(path, str(txt_count)+'.txt')f = open(txt_path, 'w', encoding='utf-8')for paragraph in tqdm(document.paragraphs):f.write(paragraph.text.strip()+'\n')f.close()txt_count += 1
将doc文件转为txt文件相关推荐
- Python将txt文件转为json文件
python将txt文件转为json文件 txt文件中内容: [*]www.xiaoyang.1 [*]www.xiaoyang.12 [*]www.xiaoyang.135 [*]www.xiaoy ...
- 批量将txt文件转为excel文件
python萌新,记录一下,自己做项目时遇到需批量将txt文件转为excel文件. 代码如下: `# coding:utf-8 import pandas as pd import os def ge ...
- json文件批量转为txt文件
json文件批量转为txt文件 1 批量json标注文件: 2 json所对应的各个图片: 3 每个json文件内容: [{"type": 1,"x": 116 ...
- txt文件转为mat文件
** MATLAB .txt文件转为.mat文件** 在近红外光谱matlab数据处理中,我们获得的数据并不都是.mat文件,也有可能是.csv或.txt文件,如何将这些文件转为.mat 文件呢? 以 ...
- 如何使用ansys将等高线txt文件转为iges文件
一.如何将等高线dxf文件获得dat文件 1.利用mapgis获得node文件 2.将node文件导入surfer8,XYZ坐标排序.克里格网格后可获得dat文件 二.如何将dat文件获得txt文件 ...
- 爬取词库,使用jieba分词库,自定义dict.txt文件+将搜狗词库.scel文件为.txt文件
一:爬取词库,使用jieba分词库,自定义dict.txt文件 import jiebafrom urllib.request import urlopen from bs4 import Beaut ...
- 使用5.0.0版本的cssbox将html文件转为图片文件,并解决字体显示问题
使用5.0.0版本的cssbox将html文件转为图片文件,并解决字体显示问题 1. 引入依赖 2. 编写Util类 3. 调用Util 4. 存在的问题 5. 解决字体不兼容问题 6. 官方文档 在 ...
- json文件转TXT文件
语义分割数据集转YOLOv5数据集 json文件 转txt文件 import json import os import os.path''' 获取图片名称 ''' def image_id(root ...
- python转csv_python脚本如何将Excel文件转为csv文件(代码)
本篇文章给大家带来的内容是关于python脚本如何将Excel文件转为csv文件(代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助.#!/usr/bin/env python __ ...
- 【windwos bat】批量把windows下的wav文件转为raw文件
借助工具sox,可以批量将wav文件转为raw文件. @echo off set work_path=recordings set raw_path=raw SET mypath=%~dp0mkdir ...
最新文章
- ansible自己总结(playbook)
- Scala 变量定义/类型推导/var和val的区别
- 线程事件--day36
- java access dbq_Java-Access汇总
- ssms2008 代码自动提示_使用 SSMS 的提示和技巧 - SQL Server Management Studio (SSMS) | Microsoft Docs...
- 【测试工具】在linux测试环境安装bug管理工具禅道
- GetBitmapBits和GetDIBits的区别(Windows GDI)
- Linux makefile教程之函数七[转]
- [RK3399][Android7.1] Jack server编译出错
- 无锡美景:踏过樱花第几桥
- 接口获取行政区划代码_最新行政区划代码省市区三级 乡镇街道四级 村五级 数据库(2021年1月版 )...
- 交换机基本原理与配置(包含ensp交换机配置命令)
- CAD​自定义快捷键命令
- 诗经 - 小雅 -采薇
- Character controller
- Hadoop集群之开启kerberos安全认证
- 有return的情况下try catch finally的执行顺序(最有说服力的总结) 后面的神评论
- php输入为空,ecshop搜索框内容为空提示用户输入内容
- springboot集成springSecurity,jwt实现前后端分离
- 使用HP LaserJet Pro MFP M225-M226 PCL 6打印机,双面打印文档
热门文章
- 美国人口统计数据MATLAB,根据表的数据,完成下列数据拟合问题:美国人口统计数据 年份 1790 1800 1810 1820 1830 1840...
- 在 Intel NUC8i7HVK 上安装CentOS7
- 51单片机 独立按键k1控制数码管移位 k2控制数值加
- 使用Jib构建Java镜像
- Oracle一次性查询超过1000条数据的方法(分批查询)
- 白马非马----继承 (转)
- 我是屌丝——彪悍的人生不需要代言
- 数据准备脚本:Python Pandas OR esProc SPL?
- AEAI Portal中集成百度地图
- 苹果手机如何找回id密码_苹果手机丢失24天后成功找回