目录下所有doc文档转txt,本来想直接用SaveAs规定转存编码格式,但是得到的是带BOM的UTF-8格式,所以又加了个去BOM的过程。

doc转txt

第一部分doc转带BOM的UTF-8参考博文:使用python将doc文件转为utf8编码格式的txt

UTF-8去BOM

限制一次阅读量(因为BOM只在最开头,所以不需要遍历整个文件):

# -*- coding:utf-8 -*-
import codecsBUFSIZE = 4096
BOMLEN = len(codecs.BOM_UTF8)

在convert_dir_to_txt函数的末尾增加去BOM的代码段:

    for root, dirs, files in os.walk(txt_path):for _dir in dirs:passfor _file in files:path = txt_path+_filetry:with open(path, "r+b") as fp:chunk = fp.read(BUFSIZE)if chunk.startswith(codecs.BOM_UTF8):i = 0chunk = chunk[BOMLEN:]while chunk:fp.seek(i)fp.write(chunk)i += len(chunk)fp.seek(BOMLEN, os.SEEK_CUR)chunk = fp.read(BUFSIZE)fp.seek(-BOMLEN, os.SEEK_CUR)fp.truncate()except Exception as e:print(e)

完事儿。

(Python文件处理)doc文档转UTF-8格式的TXT文档相关推荐

  1. html版api文档,将html版API文档转换成chm格式的API文档

    将html版API文档转换成chm格式的API文档并不是一件难事,所需要的只是2个工具及其你要制作的API的javadoc文档,一般去官网下载的话,都会有源代码和javadoc,软件一个是制作chm文 ...

  2. NLP:两种方法(自定义函数和封装函数)实现提取两人对话内容(***分隔txt文档),并各自保存为txt文档

    NLP:两种方法(自定义函数和封装函数)实现提取两人对话内容(***分隔txt文档),并各自保存为txt文档 目录 问题探究 实现代码 问题探究 实现代码 f=open("niu.txt&q ...

  3. python逐行读取txt写入excel_用python从符合一定格式的txt文档中逐行读取数据并按一定规则写入excel(openpyxl支持Excel 2007 .xlsx格式)...

    前几天接到一个任务,从gerrit上通过ssh命令获取一些commit相关的数据到文本文档中,随后将这些数据存入Excel中.数据格式如下图所示 观察上图可知,存在文本文档中的数据符合一定的格式,通过 ...

  4. python function terminated_〔求助〕一份12.3M的txt文档用calibre转换格式失败

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 calibre, version 0.9.35 (win32, isfrozen: True)转换错误: 失败: 转换书籍 第 1 本,共 1 本 (时光 ...

  5. 通过json文件将符合要求对应键的内容输出到txt文档

    感谢天宇哥全程辅导 #解析resultjson_path文件import os, sys, shutil, json import os.path as osp from builtins impor ...

  6. python实现word文档批量转成自定义格式的excel文档

    python实现word转成自定义格式的excel文档(解决思路和代码) 支持按照文件夹去批量处理,也可以单独一个文件进行处理,并且可以自定义标识符 最近在开发一个答题类的小程序,到了录入试题进行测试 ...

  7. python借助jieba包对单独test和txt文档进行中文分词

    python借助jieba包对单独test和txt文档进行中文分词 一.单独test分词 import jieba jieba.cut("大连圣亚在大连") *#输出:<ge ...

  8. 修改json文件,保存为txt文档

    诉求:把乱七八糟的json文件,改成规范的.易于阅读的txt文档. 解决方法: 打开文件,加载数据: import jsonpath = r'B:\我的游戏\天涯明月刀\游戏资料(天涯明月刀)\[解压 ...

  9. Python学生信息管理系统(增删查改、模糊查找、txt文件输出)# 谭子

    一.系统需求说明 本项目计划实现一个学生管理系统,学生信息包括:姓名.性别.手机号码,系统包含以下功能. 模块 子模块 说明 查询模块 查询全部学生的信息 显示当前系统内所有学员的信息 查询模块 精准 ...

最新文章

  1. Java并发编程(五)JVM指令重排
  2. java 静态实例_Java实例和静态方法
  3. 小鼠皮肤组织细胞悬液制备流程
  4. xpath以某个字符开始_XPATH简单使用
  5. zabbix监控windows服务器简单介绍
  6. 会计基础第八章内容2
  7. 剑指offer(C++)-JZ28:对称的二叉树(数据结构-树)
  8. 4.4 Spark SQL实现用户ip地址热度分析
  9. fedora14安装
  10. 计算机电路图解,几种常见的放大电路原理图解
  11. 只用一个div制作太极图
  12. RFBNet模型推理
  13. escalating to SIGTERM问题出现的原因
  14. 多元线性回归方程原理及其推导
  15. php 连接 ldap 实例,使用PHP连接LDAP服务器
  16. Demo( the fourth week)
  17. 微信公众平台不应是自媒体唯一的内容输出来源
  18. 流媒体技术{包括Http渐进式下载,即html5 video audio标签支持的协议}
  19. C++ char指针(字符指针)及其输出问题
  20. 阿里云centos7 frp内网穿透

热门文章

  1. C语言求解一元二次方程组的代码
  2. Web应用防火墙WAF简介
  3. Java生成文件的md5文件方法的代码
  4. 坐的越久,死的越快——说说工作环境
  5. RV1126--qt实现rtmp拉流(转换本机rtsp)
  6. 二维灰度地形图山脊线自动提取方法整理(MST)
  7. Bootstrap——制作个人简历网页、工具类【边框(添加、删除、颜色、圆角)、清除浮动、颜色(文本、链接、背景)、display属性、浮动、定位、文本对齐】
  8. python绘制动态k线及均线,python : pyecharts 1.1.0 画K线图
  9. word怎么拆分表格
  10. 如何对系统声音进行选择与设置