朋友给我发了一些文章,是HTML格式的。但是我的A1200手机只适合看txt格式的书,所以写了一个脚本,把某个目录下的所有.htm文件转换成txt,并放到txt目录下。

 1 from formatter import AbstractFormatter, NullWriter 2 from htmllib import HTMLParser 3  4 def _(str, in_encoder="gbk", out_encoder="utf8"): 5     return unicode(str, in_encoder).encode(out_encoder) 6  7  8 class myWriter(NullWriter): 9     def __init__(self):10         NullWriter.__init__(self)11         self._bodyText = []12 13     def send_flowing_data(self, str):14         self._bodyText.append(str)15 16     def _get_bodyText(self):17         return '/n'.join(self._bodyText)18 19     bodyText = property(_get_bodyText, None, None, 'plain text from body')20 21 class myHTMLParser(HTMLParser):22     def do_meta(self, attrs):23         self.metas = attrs24 25 def convertFile(filename):26     mywriter = myWriter()27     absformatter = AbstractFormatter(mywriter)28     parser = myHTMLParser(absformatter)29     parser.feed(open(filename).read())30     return ( _(parser.title), parser.formatter.writer.bodyText )31 32 import os33 import os.path34 35 OUTPUTDIR = "./txt"36 INPUTDIR = "."37 if __name__ == "__main__":38     if not os.path.exists(OUTPUTDIR):39         os.mkdir(OUTPUTDIR)40 41     for file in os.listdir(INPUTDIR):42         if file[-4:] == '.htm':43             print "Coverting", file,44             outfilename, text = convertFile(file)45             outfilename = outfilename + '.txt'46             outfullname = os.path.join(OUTPUTDIR, outfilename)47             open(outfullname, "wt").write(text)48             print "Done!"49  

BTW:以上这段代码是用vim的 :TOhtml 命令转换而成。

[Python]HTML转换为TXT的脚本相关推荐

  1. 数据标签处理:python将xml文件转换为txt,csv格式

    数据标签处理:python将xml文件转换为txt,csv格式 这里的标注文件为点标注文件 每次要用数据处理脚本的时候都忘记放哪里了,然后重写了一遍又一遍,虽然代码不长,但是每次都有重新写还是很麻烦, ...

  2. python excel文件转换成字符串_python利用pandas将excel文件转换为txt文件的方法

    python将数据换为txt的方法有很多,可以用xlrd库实现.本人比较懒,不想按太多用的少的插件,利用已有库pandas将excel文件转换为txt文件. 直接上代码: ''' function:将 ...

  3. python怎么读取txt文件内容然后保存到excel-Python实现读取txt文件并转换为excel的方法示例...

    本文实例讲述了Python实现读取txt文件并转换为excel的方法.分享给大家供大家参考,具体如下: 这里的txt文件内容格式为: 892天平天国定都在?A开封B南京C北京(B) Python代码如 ...

  4. python npy文件_python实现npy格式文件转换为txt文件操作

    如下代码会将npy的格式数据读出,并且输出来到控制台: import numpy as np ##设置全部数据,不输出省略号 import sys np.set_printoptions(thresh ...

  5. python 将excel文件转换为txt文件_python利用pandas将excel文件转换为txt文件的方法

    python将数据换为txt的方法有很多,可以用xlrd库实现.本人比较懒,不想按太多用的少的插件,利用已有库pandas将excel文件转换为txt文件. 直接上代码: ''' function:将 ...

  6. python如何打开npy文件_操作python实现npy格式文件转换为txt文件

    如下代码会将npy的格式数据读出,并且输出来到控制台:import numpy as np ##设置全部数据,不输出省略号 import sys np.set_printoptions(thresho ...

  7. python往npy写入数据_操作python实现npy格式文件转换为txt文件

    如下代码会将npy的格式数据读出,并且输出来到控制台:import numpy as np ##设置全部数据,不输出省略号 import sys np.set_printoptions(thresho ...

  8. python如何打开npy文件_python实现npy格式文件转换为txt文件操作

    如下代码会将npy的格式数据读出,并且输出来到控制台: import numpy as np ##设置全部数据,不输出省略号 import sys np.set_printoptions(thresh ...

  9. python实现npy格式文件转换为txt文件

    如下代码会将npy的格式数据读出,并且输出来到控制台: import numpy as np##设置全部数据,不输出省略号 import sys np.set_printoptions(thresho ...

最新文章

  1. 百万用户规模的系统如何扩展
  2. 精通Android自定义View(八)绘制篇Canvas分析之绘制文本
  3. linux下 apache启动、停止、重启命令
  4. Windows server常见操作、问题
  5. python中format函数怎么样提取字符串里的字符_Python中用format函数格式化字符串的用法...
  6. [Unity] UniWebView的使用
  7. 详解-黑莓7290激活教程
  8. ARM常用汇编指令讲解
  9. html 获取header 元素,header标签元素基本介绍
  10. Matplotlib等高线图
  11. 李智慧 - 架构师训练营 第三周
  12. 企业微信如何给客户打标签?
  13. sim的准确识别技术
  14. 拥有全国性物流网络却只靠卖书赚微薄利润的李国庆, 最终倒下了
  15. 分割网络对结构光图像进行分割
  16. vs2015与source insight联动
  17. squid和squidGuard配置代理服务器
  18. metrics-server - unable to fully collect metrics
  19. 鲜为人知的训练神经网络技巧
  20. PYTHON通过TCP/IP通讯方式远程控制Epson机械臂

热门文章

  1. 振兴中华(蓝桥杯13年第四届省赛真题 JAVA-B组)
  2. proxmox集群故障处理 -中文版-剔除掉所有集群主机,让pve单独运行
  3. USB 设备驱动之设备接入梳理(二)
  4. Node.js(复习1)
  5. 我的QQ微博 和新浪微博地址
  6. Geoscene Enterprise2.1 windows环境下的安装部署
  7. UE | Shader | 在UE中添加全局Shader
  8. asp空间如何判断jmail组件已经安装?是否支持呢?
  9. openEuler 开源汇智赢未来|2023开放原子全球开源峰会 openEuler 论坛成功召开
  10. 改变Button的样式