问,将大象放进冰箱需要几步?

啊呸,串场了。将doc文件转为txt文件需要几步?

答:需要两步,

1.先将doc转为docx。因为python-docx只能处理docx的文件,而无法处理doc文档。docx本质是xml文件比doc更小些。这里需要的包为win32com,如果没有,则pip即可。

import os
from win32com import client as wc
from docx import Document
from tqdm import tqdm
def doc2docx(origin_path, goal_path):"""将doc转为docx"""word = wc.Dispatch("Word.Application")# 不能用相对路径,用绝对路径# 需要处理的文件所在文件夹目录for i in os.listdir(origin_path):# 找出文件中以.doc结尾并且不以~$开头的文件(~$是为了排除临时文件的)if i.endswith('.doc') and not i.startswith('~$'):print(i)doc_path = os.path.join(origin_path, i)doc = word.Documents.Open(doc_path)# 将文件名与后缀分割rename = os.path.splitext(i)# 将文件另存为.docxsave_path = os.path.join(goal_path, rename[0] + '.docx')doc.SaveAs(save_path, 12)  # 12表示docx格式doc.Close()word.Quit()

2.将docx转为txt文本。这些需要python-docx,如果没有则pip就好。

import os
from win32com import client as wc
from docx import Document
from tqdm import tqdm
def docx2txt(path):"""将docx转为txt"""txt_count = 1for i in os.listdir(path):if i.endswith('.docx') and not i.startswith('~$'):file_path = os.path.join(path, i)document = Document(file_path)txt_path = os.path.join(path, str(txt_count)+'.txt')f = open(txt_path, 'w', encoding='utf-8')for paragraph in tqdm(document.paragraphs):f.write(paragraph.text.strip()+'\n')f.close()txt_count += 1

将doc文件转为txt文件相关推荐

  1. Python将txt文件转为json文件

    python将txt文件转为json文件 txt文件中内容: [*]www.xiaoyang.1 [*]www.xiaoyang.12 [*]www.xiaoyang.135 [*]www.xiaoy ...

  2. 批量将txt文件转为excel文件

    python萌新,记录一下,自己做项目时遇到需批量将txt文件转为excel文件. 代码如下: `# coding:utf-8 import pandas as pd import os def ge ...

  3. json文件批量转为txt文件

    json文件批量转为txt文件 1 批量json标注文件: 2 json所对应的各个图片: 3 每个json文件内容: [{"type": 1,"x": 116 ...

  4. txt文件转为mat文件

    ** MATLAB .txt文件转为.mat文件** 在近红外光谱matlab数据处理中,我们获得的数据并不都是.mat文件,也有可能是.csv或.txt文件,如何将这些文件转为.mat 文件呢? 以 ...

  5. 如何使用ansys将等高线txt文件转为iges文件

    一.如何将等高线dxf文件获得dat文件 1.利用mapgis获得node文件 2.将node文件导入surfer8,XYZ坐标排序.克里格网格后可获得dat文件 二.如何将dat文件获得txt文件 ...

  6. 爬取词库,使用jieba分词库,自定义dict.txt文件+将搜狗词库.scel文件为.txt文件

    一:爬取词库,使用jieba分词库,自定义dict.txt文件 import jiebafrom urllib.request import urlopen from bs4 import Beaut ...

  7. 使用5.0.0版本的cssbox将html文件转为图片文件,并解决字体显示问题

    使用5.0.0版本的cssbox将html文件转为图片文件,并解决字体显示问题 1. 引入依赖 2. 编写Util类 3. 调用Util 4. 存在的问题 5. 解决字体不兼容问题 6. 官方文档 在 ...

  8. json文件转TXT文件

    语义分割数据集转YOLOv5数据集 json文件 转txt文件 import json import os import os.path''' 获取图片名称 ''' def image_id(root ...

  9. python转csv_python脚本如何将Excel文件转为csv文件(代码)

    本篇文章给大家带来的内容是关于python脚本如何将Excel文件转为csv文件(代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助.#!/usr/bin/env python __ ...

  10. 【windwos bat】批量把windows下的wav文件转为raw文件

    借助工具sox,可以批量将wav文件转为raw文件. @echo off set work_path=recordings set raw_path=raw SET mypath=%~dp0mkdir ...

最新文章

  1. ansible自己总结(playbook)
  2. Scala 变量定义/类型推导/var和val的区别
  3. 线程事件--day36
  4. java access dbq_Java-Access汇总
  5. ssms2008 代码自动提示_使用 SSMS 的提示和技巧 - SQL Server Management Studio (SSMS) | Microsoft Docs...
  6. 【测试工具】在linux测试环境安装bug管理工具禅道
  7. GetBitmapBits和GetDIBits的区别(Windows GDI)
  8. Linux makefile教程之函数七[转]
  9. [RK3399][Android7.1] Jack server编译出错
  10. 无锡美景:踏过樱花第几桥
  11. 接口获取行政区划代码_最新行政区划代码省市区三级 乡镇街道四级 村五级 数据库(2021年1月版 )...
  12. 交换机基本原理与配置(包含ensp交换机配置命令)
  13. CAD​自定义快捷键命令
  14. 诗经 - 小雅 -采薇
  15. Character controller
  16. Hadoop集群之开启kerberos安全认证
  17. 有return的情况下try catch finally的执行顺序(最有说服力的总结) 后面的神评论
  18. php输入为空,ecshop搜索框内容为空提示用户输入内容
  19. springboot集成springSecurity,jwt实现前后端分离
  20. 使用HP LaserJet Pro MFP M225-M226 PCL 6打印机,双面打印文档

热门文章

  1. 美国人口统计数据MATLAB,根据表的数据,完成下列数据拟合问题:美国人口统计数据 年份 1790 1800 1810 1820 1830 1840...
  2. 在 Intel NUC8i7HVK 上安装CentOS7
  3. 51单片机 独立按键k1控制数码管移位 k2控制数值加
  4. 使用Jib构建Java镜像
  5. Oracle一次性查询超过1000条数据的方法(分批查询)
  6. 白马非马----继承 (转)
  7. 我是屌丝——彪悍的人生不需要代言
  8. 数据准备脚本:Python Pandas OR esProc SPL?
  9. AEAI Portal中集成百度地图
  10. 苹果手机如何找回id密码_苹果手机丢失24天后成功找回