现在,很多视频网站都能方便地把字幕文件下载到电脑上,如果没有时间看视频,只看文字无疑是一种高效的学习方式。但是,如果直接读字幕文件却非常不舒服,因为字幕文件中有大量的时间标记和索引标记,如下图所示,这会影响你的阅读体验。

1
00:00:00,533 --> 00:00:01,266
大家好,我是吕艳朋2
00:00:01,366 --> 00:00:06,266
今天聊一聊喝酒到底能不能帮助睡眠3
00:00:06,866 --> 00:00:10,333
有不少人相信喝酒可以助眠4
00:00:10,666 --> 00:00:17,633
我也不止一次听到有人这样给失眠的人介绍自己的入睡经验5
00:00:18,300 --> 00:00:18,766
他说6
00:00:18,766 --> 00:00:20,666
解决失眠问题很简单

那么如何把字幕文件中的文字单独提取出来呢?

仔细观察发现,我们不需要的内容都是数字和空行,那么去掉单独的空行’\n’,以及开头和结尾都是数字的行,剩下的就是我们需要的纯字幕文字了。

可用如下Python代码来实现提取文字,并写入到文本文件。

new = []
with open("subtitle.srt", encoding="utf-8-sig") as f:for sub in f.readlines():if sub[0] not in list('\n0123456789') and sub[-2] not in list('0123456789'):new.append(sub)
new = [ele.strip() for ele in new]with open("content.txt",'w') as file:for line in new:file.write(line+'\n')

提取后的效果如下:

大家好,吕艳朋
今天聊一聊喝酒到底能不能帮助睡眠
有不少人相信喝酒可以助眠
我也不止一次听到有人这样给失眠的人介绍自己的入睡经验
他说
解决失眠问题很简单

但这样仍然存在一个小问题,如果字幕的开关和结尾都是数字或是单独的一串数字,如电话号码,那么就不能被识别为文字。

当然,可以通过判断上一段是否是时间标记来确定该段是否为字幕文字,稍等麻烦一些,你有更简单的方法吗?

用Python从.srt或.vtt等格式的字幕文件中提取纯文字相关推荐

  1. python用来自动修改pdf_python实现从pdf文件中提取文本,并自动翻译的方法

    针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...

  2. python-批量提取srt文件中的纯文本

    python-批量提取srt文件中的纯文本 1.功能介绍 为了方便日常的使用,我将批量提取 srt 文件中纯文本的程序打包成了 exe 文件,这样就不用安装 python 环境和相关的库了. 现在版本 ...

  3. gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据

    前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...

  4. 使用Python从PDF文件中提取数据

    前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...

  5. 批量提取 srt 字幕文件中的文字

    概要:相信经常与视频处理打交道的小伙伴对字幕文件一定不陌生.字幕文件一般来说会包含字幕序号.播放时间轴与具体的字幕内容,经常用于在视频播放的时候在对应的时间显示相应的字幕内容.字幕文件通常会有多种类型 ...

  6. 生物信息中的Python 05 | 从 Genbank 文件中提取 CDS 等其他特征序列

    1 介绍 在基因结构分析或其他生物功能分析中会时常用到 CDS 序列,以及其他诸如 mRNA 序列,misc RNA序列等具有生物意义的序列片段.而NCBI 的基因库中已经包含有这些的信息,但是只有一 ...

  7. Python办公自动化实践1:从多个excel表中提取数据并汇总到一个工作表页中,表格,抽取,sheet

    Python办公自动化实践1:从多个excel表中提取数据并汇总到一个工作表页中,表格,抽取,sheet 发表时间:2020-04-26 问题:从当前目录或子目录中查询符合条件的excel表格,并从这 ...

  8. python自动翻译pdf_python实现从pdf文件中提取文本,并自动翻译的方法

    针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...

  9. 使用 Python 从文件中提取 IP 地址

    让我们看看如何使用 Python 从文件中提取 IP 地址. 算法 : 为正则表达式导入 re 模块. 使用 open() 函数打开文件. 读取文件中的所有行并将它们存储在列表中. 声明 IP 地址的 ...

最新文章

  1. 智能车竞赛研讨会 会议通知
  2. 码农何苦为难码农:谈谈程序员面试那些事
  3. lipo 制作通用版本 静态库
  4. amd为什么还用针脚_为什么intel处理器不用针脚,AMD还一直使用针脚呢?
  5. java 1.8 vm_HotSpot虚拟机在java 1.8中的新实现
  6. E2: A Framework for NFV Applications, SOSP' 15
  7. java排错_java排错之CPU高
  8. 字节流转字符流OutputStreamWriter、InputStreamReader,关闭流的方法
  9. kettle转换JavaScript获取命令行参数
  10. 斜率优化dp学习笔记
  11. 原创:CAD批量去除教育版戳记
  12. 最佳Bilibili下载工具及下载Bilibili视频方法
  13. 以分布式融合技术为突破口,易鲸捷奏响国产数据库“冲锋号”
  14. 淘宝打单发货API,淘宝打单发货接口
  15. python绘制基因结构图_使用biopython可视化染色体和基因元件
  16. 摩斯密码php,普及一下LOL中的摩斯密码 绝对的干货
  17. Differentiable Scaffolding Tree for Molecule Optimization(论文解读)
  18. ubuntu使用meld/beyond compare 做git的diff工具
  19. 全球致盲眼疾排名第一能轻松治疗,第二名却很难处理...
  20. linux下创建二进制文件并修改

热门文章

  1. 南传法句经(摘选)03
  2. 使用tf.data.Dataset加载numpy数据
  3. python web微信应用(一) 微信协议分析
  4. 获取所有打印机,设置默认打印机,获取默认打印机
  5. 教你写Makefile
  6. 华为云系统繁忙,请稍后再试(0356034)账号升级错误
  7. 【MATLAB】MATLAB 仿真模拟调制系统 — DSB 系统
  8. 择时 配置 选股0909
  9. DataTable转换为ListT或者DataRow转换为T
  10. Computer:教你实用一招,如何实现点击PPT文件即可播放,而避免打开PowerPoint软件