分析txt文件内容,并按照以下规则及过滤器对文档添加对应的html标签
规则:

  • 标题是只包含一行的文本块,长度70个字符以内。以冒号(:)结束的文本块不属于标题。
  • 题目是文档的第一个文本块,且满足标题的规则。
  • 列表项是以连字符(-)打头的文本块。
  • 列表以紧跟在非列表项文本块后面的列表项开头,以后面紧跟着非列表项文本块的列表项结束。
  • 表格行是以竖线符号(|)打头的文本块,行内的列也是使用竖线分隔。
  • 表格以紧跟在非表格行文本块后面的表格行开头,以后面紧跟着非表格行文本块的表格行结束。

使用正则表达式对文本块内容进行过滤,分别对尖括号内的内容,星号内的内容和网站及邮箱进行过滤
以下四个正则表达式对应过滤条件:

r'\<(.+?)\>'
r'\*(.+?)\*'
r'(http(s){0,1}://[\.a-zA-z0-9/]+)'
r'([\.a-zA-z0-9]+@[\.a-zA-z0-9]+[a-zA-z]+)'

各文本块之间用一个或多个空行间隔开,示例文档

Welcome to Foodly ,Inc.There π are the corporate web pages of *Foodly*.We hope you find your stay enjoyable,and that you will sample many of our product.A short history of th company...
...*Parsing HTML*Use the BeautifulSoup class to parse an HTML document. Here are some of the things that BeautifulSoup knows:- Some tags can be nested (<BLOCKQUOTE>) and some can't (<P>).- Table and list tags have a natural nesting order. For instance, <TD> tags go inside <TR> tags, not the other way around.- The contents of a <SCRIPT> tag should not be parsed as HTML.- A <META> tag may specify an encoding for the document.Connect:
http://www.c91.com,
http://www.bd.com,
sudley.su@foodly.com.properties:|name|height(cm)|weight(kg)|Sudley|155|200|sherley|188|20

执行方式:

python3 markup.py < test_input.txt > test_input.html

test_input.html在谷歌上的显示效果如下

源码仓:https://github.com/Sudley/txt2html

【Python】将txt文件转换为html相关推荐

  1. Word处理控件Aspose.Words功能演示:在 Python 中将 TXT 文件转换为 PDF

    各种人使用记事本以TXT格式记下重点或快速创建笔记.此外,TXT 文件用于在各种应用程序中存储纯文本.但是,由于记事本不提供高级功能,因此 TXT 文件通常会转换为PDF.为了以编程方式自动将 TXT ...

  2. php arff文件,python实现txt文件格式转换为arff格式

    本文实例为大家分享了python实现txt文件格式转换为arff格式的具体代码,供大家参考,具体内容如下 将文件读取出来的时候默认都是字符型的,所以有转换出来有点问题,但是还是可以用的. 文件要求第一 ...

  3. 数据标签处理:python将xml文件转换为txt,csv格式

    数据标签处理:python将xml文件转换为txt,csv格式 这里的标注文件为点标注文件 每次要用数据处理脚本的时候都忘记放哪里了,然后重写了一遍又一遍,虽然代码不长,但是每次都有重新写还是很麻烦, ...

  4. Python将txt数据转换为xls(表格)文件,方便后面做数据分析

    Python我们做数据分析的时候有时候获得数据是txt文件,这时候我们该怎么办呢?下面我给大家教一下这时候应该怎么做? 1.读取txt数据查看:我们就可以看到使用逗号隔开的数据. "&quo ...

  5. python将txt文件转为excel格式以及写入excel超过65536行报错问题解决方法

    参考链接: https://blog.csdn.net/levy_cui/article/details/82252183 https://blog.csdn.net/levy_cui/article ...

  6. python读取txt文件为dataframe,python批量读取txt文件为DataFrame

    我们有时候会批量处理同一个文件夹下的文件,并且希望读取到一个文件里面便于我们计算操作.比方我有下图一系列的txt文件,我该如何把它们写入一个txt文件中并且读取为DataFrame格式呢? 首先我们要 ...

  7. python删除重复值所在的行数_使用python读取txt文件的内容,并删除重复的行数方法...

    注意,本文代码是使用在txt文档上,同时txt文档中的内容每一行代表的是图片的名字. #coding:utf-8 import shutil readDir = "原文件绝对路经" ...

  8. python读取txt文件并画图

    1,使用python读取txt文件 已知txt文件内容如下: 0 01 12 43 94 165 256 36 请以第一列为x轴,第二列为y轴画图 步骤如下: 1)使用readlines读取文件 2) ...

  9. python读取txt文件并写入excel-Python读excel生成数据存入txt文件

    我的excel文件结构: 学习了xlrd如何操作excel文件.python读写txt文件.jason.dumps()转换dict为string类型之后,进行了第一次尝试. 第一次尝试: import ...

  10. python怎么读文件里的某一行-python读取txt文件并取其某一列数据的示例

    菜鸟笔记 首先读取的txt文件如下: AAAAF110 0003E818 0003E1FC 0003E770 0003FFFC 90 AAAAF110 0003E824 0003E208 0003E7 ...

最新文章

  1. Ubuntu Linux系统下apt-get命令详解
  2. linux图片添加滤镜,PhotoFlare开源图像和照片编辑器,附在Ubuntu 18.04下的安装方法...
  3. Gradle初探(一):创建一个Gradle项目
  4. ACL 2021|CHASE: 首个跨领域多轮Text2SQL中文数据集
  5. github Android-Universal-Image-Loader
  6. Windows端口被占用处理方法
  7. object picker 微信小程序_微信小程序 demo分享
  8. asp php 对照表,asp 与php中常用函数对比
  9. 代替oracle dblink,oracle dblink
  10. 关于Webgl实际中遇到的一些坑,与大家分享。
  11. 【历史上的今天】9 月 28 日:“超级计算机之父”诞生;三星推出移动支付;LibreOffice 发布
  12. PHP实现手机号或身份证号中间几位变*
  13. 安装kali Linux到U盘
  14. 平台软件每日构建总结
  15. 毕业答辩PPT模板(10套免费+精选)
  16. 吴恩达《深度学习专项》笔记(十一): CNN示例学习:VGG, ResNet, MobileNet
  17. 【零基础微信小程序入门开发一】小程序介绍及环境搭建
  18. R语言爬虫:当当图书畅销榜(近7日)
  19. 团队作业——项目验收与总结博客(麻瓜制造者)
  20. MT7688wifi射频参数校准 - MTK物联网在线解答 - 技术论坛

热门文章

  1. JavaScript实现3D旋转相册
  2. 【数字信号去噪】基于matlab粒子群算法优化VMD分解分量选择数字信号降噪【含Matlab源码 1979期】
  3. 中国医用口罩市场前瞻及投资策略建议报告2022-2028年
  4. 铝制板翅式换热器盐浴钎焊工艺
  5. 播放器实战27 完成seek到指定位置
  6. vscode快捷键 复制代码到上一行,下一行
  7. 半导体物理实验 03 - | 高频光电导法测少子寿命
  8. 招投标中的常见经验和技巧
  9. 软件开发有许多人都是MBTI 职业性格的ISTP类型,如果你就是这种型,恭喜你,请继续走下去...
  10. [转帖]房博士教你购房(三)