用Python从.srt或.vtt等格式的字幕文件中提取纯文字
现在,很多视频网站都能方便地把字幕文件下载到电脑上,如果没有时间看视频,只看文字无疑是一种高效的学习方式。但是,如果直接读字幕文件却非常不舒服,因为字幕文件中有大量的时间标记和索引标记,如下图所示,这会影响你的阅读体验。
1
00:00:00,533 --> 00:00:01,266
大家好,我是吕艳朋2
00:00:01,366 --> 00:00:06,266
今天聊一聊喝酒到底能不能帮助睡眠3
00:00:06,866 --> 00:00:10,333
有不少人相信喝酒可以助眠4
00:00:10,666 --> 00:00:17,633
我也不止一次听到有人这样给失眠的人介绍自己的入睡经验5
00:00:18,300 --> 00:00:18,766
他说6
00:00:18,766 --> 00:00:20,666
解决失眠问题很简单
那么如何把字幕文件中的文字单独提取出来呢?
仔细观察发现,我们不需要的内容都是数字和空行,那么去掉单独的空行’\n’,以及开头和结尾都是数字的行,剩下的就是我们需要的纯字幕文字了。
可用如下Python代码来实现提取文字,并写入到文本文件。
new = []
with open("subtitle.srt", encoding="utf-8-sig") as f:for sub in f.readlines():if sub[0] not in list('\n0123456789') and sub[-2] not in list('0123456789'):new.append(sub)
new = [ele.strip() for ele in new]with open("content.txt",'w') as file:for line in new:file.write(line+'\n')
提取后的效果如下:
大家好,吕艳朋
今天聊一聊喝酒到底能不能帮助睡眠
有不少人相信喝酒可以助眠
我也不止一次听到有人这样给失眠的人介绍自己的入睡经验
他说
解决失眠问题很简单
但这样仍然存在一个小问题,如果字幕的开关和结尾都是数字或是单独的一串数字,如电话号码,那么就不能被识别为文字。
当然,可以通过判断上一段是否是时间标记来确定该段是否为字幕文字,稍等麻烦一些,你有更简单的方法吗?
用Python从.srt或.vtt等格式的字幕文件中提取纯文字相关推荐
- python用来自动修改pdf_python实现从pdf文件中提取文本,并自动翻译的方法
针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...
- python-批量提取srt文件中的纯文本
python-批量提取srt文件中的纯文本 1.功能介绍 为了方便日常的使用,我将批量提取 srt 文件中纯文本的程序打包成了 exe 文件,这样就不用安装 python 环境和相关的库了. 现在版本 ...
- gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
- 使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
- 批量提取 srt 字幕文件中的文字
概要:相信经常与视频处理打交道的小伙伴对字幕文件一定不陌生.字幕文件一般来说会包含字幕序号.播放时间轴与具体的字幕内容,经常用于在视频播放的时候在对应的时间显示相应的字幕内容.字幕文件通常会有多种类型 ...
- 生物信息中的Python 05 | 从 Genbank 文件中提取 CDS 等其他特征序列
1 介绍 在基因结构分析或其他生物功能分析中会时常用到 CDS 序列,以及其他诸如 mRNA 序列,misc RNA序列等具有生物意义的序列片段.而NCBI 的基因库中已经包含有这些的信息,但是只有一 ...
- Python办公自动化实践1:从多个excel表中提取数据并汇总到一个工作表页中,表格,抽取,sheet
Python办公自动化实践1:从多个excel表中提取数据并汇总到一个工作表页中,表格,抽取,sheet 发表时间:2020-04-26 问题:从当前目录或子目录中查询符合条件的excel表格,并从这 ...
- python自动翻译pdf_python实现从pdf文件中提取文本,并自动翻译的方法
针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...
- 使用 Python 从文件中提取 IP 地址
让我们看看如何使用 Python 从文件中提取 IP 地址. 算法 : 为正则表达式导入 re 模块. 使用 open() 函数打开文件. 读取文件中的所有行并将它们存储在列表中. 声明 IP 地址的 ...
最新文章
- 智能车竞赛研讨会 会议通知
- 码农何苦为难码农:谈谈程序员面试那些事
- lipo 制作通用版本 静态库
- amd为什么还用针脚_为什么intel处理器不用针脚,AMD还一直使用针脚呢?
- java 1.8 vm_HotSpot虚拟机在java 1.8中的新实现
- E2: A Framework for NFV Applications, SOSP' 15
- java排错_java排错之CPU高
- 字节流转字符流OutputStreamWriter、InputStreamReader,关闭流的方法
- kettle转换JavaScript获取命令行参数
- 斜率优化dp学习笔记
- 原创:CAD批量去除教育版戳记
- 最佳Bilibili下载工具及下载Bilibili视频方法
- 以分布式融合技术为突破口,易鲸捷奏响国产数据库“冲锋号”
- 淘宝打单发货API,淘宝打单发货接口
- python绘制基因结构图_使用biopython可视化染色体和基因元件
- 摩斯密码php,普及一下LOL中的摩斯密码 绝对的干货
- Differentiable Scaffolding Tree for Molecule Optimization(论文解读)
- ubuntu使用meld/beyond compare 做git的diff工具
- 全球致盲眼疾排名第一能轻松治疗,第二名却很难处理...
- linux下创建二进制文件并修改