[Python]HTML转换为TXT的脚本
朋友给我发了一些文章,是HTML格式的。但是我的A1200手机只适合看txt格式的书,所以写了一个脚本,把某个目录下的所有.htm文件转换成txt,并放到txt目录下。
1 from formatter import AbstractFormatter, NullWriter 2 from htmllib import HTMLParser 3 4 def _(str, in_encoder="gbk", out_encoder="utf8"): 5 return unicode(str, in_encoder).encode(out_encoder) 6 7 8 class myWriter(NullWriter): 9 def __init__(self):10 NullWriter.__init__(self)11 self._bodyText = []12 13 def send_flowing_data(self, str):14 self._bodyText.append(str)15 16 def _get_bodyText(self):17 return '/n'.join(self._bodyText)18 19 bodyText = property(_get_bodyText, None, None, 'plain text from body')20 21 class myHTMLParser(HTMLParser):22 def do_meta(self, attrs):23 self.metas = attrs24 25 def convertFile(filename):26 mywriter = myWriter()27 absformatter = AbstractFormatter(mywriter)28 parser = myHTMLParser(absformatter)29 parser.feed(open(filename).read())30 return ( _(parser.title), parser.formatter.writer.bodyText )31 32 import os33 import os.path34 35 OUTPUTDIR = "./txt"36 INPUTDIR = "."37 if __name__ == "__main__":38 if not os.path.exists(OUTPUTDIR):39 os.mkdir(OUTPUTDIR)40 41 for file in os.listdir(INPUTDIR):42 if file[-4:] == '.htm':43 print "Coverting", file,44 outfilename, text = convertFile(file)45 outfilename = outfilename + '.txt'46 outfullname = os.path.join(OUTPUTDIR, outfilename)47 open(outfullname, "wt").write(text)48 print "Done!"49 BTW:以上这段代码是用vim的 :TOhtml 命令转换而成。
[Python]HTML转换为TXT的脚本相关推荐
- 数据标签处理:python将xml文件转换为txt,csv格式
数据标签处理:python将xml文件转换为txt,csv格式 这里的标注文件为点标注文件 每次要用数据处理脚本的时候都忘记放哪里了,然后重写了一遍又一遍,虽然代码不长,但是每次都有重新写还是很麻烦, ...
- python excel文件转换成字符串_python利用pandas将excel文件转换为txt文件的方法
python将数据换为txt的方法有很多,可以用xlrd库实现.本人比较懒,不想按太多用的少的插件,利用已有库pandas将excel文件转换为txt文件. 直接上代码: ''' function:将 ...
- python怎么读取txt文件内容然后保存到excel-Python实现读取txt文件并转换为excel的方法示例...
本文实例讲述了Python实现读取txt文件并转换为excel的方法.分享给大家供大家参考,具体如下: 这里的txt文件内容格式为: 892天平天国定都在?A开封B南京C北京(B) Python代码如 ...
- python npy文件_python实现npy格式文件转换为txt文件操作
如下代码会将npy的格式数据读出,并且输出来到控制台: import numpy as np ##设置全部数据,不输出省略号 import sys np.set_printoptions(thresh ...
- python 将excel文件转换为txt文件_python利用pandas将excel文件转换为txt文件的方法
python将数据换为txt的方法有很多,可以用xlrd库实现.本人比较懒,不想按太多用的少的插件,利用已有库pandas将excel文件转换为txt文件. 直接上代码: ''' function:将 ...
- python如何打开npy文件_操作python实现npy格式文件转换为txt文件
如下代码会将npy的格式数据读出,并且输出来到控制台:import numpy as np ##设置全部数据,不输出省略号 import sys np.set_printoptions(thresho ...
- python往npy写入数据_操作python实现npy格式文件转换为txt文件
如下代码会将npy的格式数据读出,并且输出来到控制台:import numpy as np ##设置全部数据,不输出省略号 import sys np.set_printoptions(thresho ...
- python如何打开npy文件_python实现npy格式文件转换为txt文件操作
如下代码会将npy的格式数据读出,并且输出来到控制台: import numpy as np ##设置全部数据,不输出省略号 import sys np.set_printoptions(thresh ...
- python实现npy格式文件转换为txt文件
如下代码会将npy的格式数据读出,并且输出来到控制台: import numpy as np##设置全部数据,不输出省略号 import sys np.set_printoptions(thresho ...
最新文章
- 百万用户规模的系统如何扩展
- 精通Android自定义View(八)绘制篇Canvas分析之绘制文本
- linux下 apache启动、停止、重启命令
- Windows server常见操作、问题
- python中format函数怎么样提取字符串里的字符_Python中用format函数格式化字符串的用法...
- [Unity] UniWebView的使用
- 详解-黑莓7290激活教程
- ARM常用汇编指令讲解
- html 获取header 元素,header标签元素基本介绍
- Matplotlib等高线图
- 李智慧 - 架构师训练营 第三周
- 企业微信如何给客户打标签?
- sim的准确识别技术
- 拥有全国性物流网络却只靠卖书赚微薄利润的李国庆, 最终倒下了
- 分割网络对结构光图像进行分割
- vs2015与source insight联动
- squid和squidGuard配置代理服务器
- metrics-server - unable to fully collect metrics
- 鲜为人知的训练神经网络技巧
- PYTHON通过TCP/IP通讯方式远程控制Epson机械臂
热门文章
- 振兴中华(蓝桥杯13年第四届省赛真题 JAVA-B组)
- proxmox集群故障处理 -中文版-剔除掉所有集群主机,让pve单独运行
- USB 设备驱动之设备接入梳理(二)
- Node.js(复习1)
- 我的QQ微博 和新浪微博地址
- Geoscene Enterprise2.1 windows环境下的安装部署
- UE | Shader | 在UE中添加全局Shader
- asp空间如何判断jmail组件已经安装?是否支持呢?
- openEuler 开源汇智赢未来|2023开放原子全球开源峰会 openEuler 论坛成功召开
- 改变Button的样式