python-批量提取srt文件中的纯文本

1.功能介绍

为了方便日常的使用,我将批量提取 srt 文件中纯文本的程序打包成了 exe 文件,这样就不用安装 python 环境和相关的库了。
现在版本的程序可以选择指定路径下的多个 srt 文件,批量提取里面的文本内容。
输出的 txt 文件和原来的 srt 文件在同一目录下。

值得一提的是,由于 srt 文件存在不同的编码方式。现在版本的程序兼容了utf-8utf-16gbk 三种编码,其他的编码格式未加入编码列表中,会提示编码错误,而不进行任何操作。不影响编码正确的文件的文字提取。

2.可执行程序

如果需要可执行程序,可以下载文件:批量提取srt文件中的纯文本

3.python源代码

下面是所以的源代码:

import tkinter as tk
from tkinter import filedialog
import osroot = tk.Tk()  # 创建程序主窗口
root.withdraw()  # 隐藏该窗口file_types = [('Text Files', '*.srt')]  # 指定要筛选的文件格式
files = filedialog.askopenfilenames(filetypes=file_types)  # 弹出文件选择对话框progress_window = tk.Toplevel(root)  # 创建新的顶层窗口对象,作为 root 窗口的子窗口
progress_window.title("文件提取进度")
progress_window.grab_set()  # 设置为模态窗口,阻止用户操作其他窗口def center_window(window):window_width = 600  # 设置弹窗的宽度window_height = 400  # 设置弹窗的高度screen_width = window.winfo_screenwidth()  # 获取屏幕宽度screen_height = window.winfo_screenheight()  # 获取屏幕高度x = (screen_width - window_width) // 2  # 计算窗口的水平位置y = (screen_height - window_height) // 2  # 计算窗口的垂直位置window.geometry(f"{window_width}x{window_height}+{x}+{y}")  # 设置窗口位置和大小center_window(progress_window)  # 将窗口置于屏幕中央file_list_label = tk.Label(progress_window, text="已处理的文件:", font=("TkDefaultFont", 13, "bold"))
file_list_label.pack()file_list_text = tk.Text(progress_window, height=20, width=60, font=("TkDefaultFont", 13))
file_list_text.tag_config("error", foreground="red")
file_list_text.pack()
file_error_num = 0  # 处理失败的文件数量
encodings = ["utf-8", "utf-16", "gbk"]for file in files:coding_flag = Falsecoding_error_num = 0texts = []for encoding in encodings:try:with open(file, encoding=encoding) as f:for line in f.readlines():if line[0] not in {'\n', *'0123456789'} and line[-2] not in {'0123456789'}:texts.append(line)coding_flag = True  # 编码正确,退出编码列表的循环if coding_flag:breakexcept UnicodeError as e:coding_error_num += 1if coding_error_num == len(encodings):    # 不满足编码列表中的所有编码file_error_num += 1file_list_text.insert(tk.END, f"{os.path.basename(file)}, file encoding error!" + "\n", "error")# 弹窗列表中显示错误信息,添加 "error" 的标签,使其颜色为红色continuetexts = [text.strip() for text in texts]with open(file.rsplit(".", 1)[0] + ".txt", 'w', encoding='utf-8') as f:for line in texts:f.write(line + '\n')print(f'文件:{f.name} 写入完成!')file_list_text.insert(tk.END, os.path.basename(file) + ",successful!\n")file_list_text.insert(tk.END, "\n" + f"处理完成,成功 {len(files) - file_error_num} 个,失败 {file_error_num}个!" + "\n")progress_window.wait_window()  # 等待用户关闭进度窗口

4.源代码解析

import tkinter as tk
from tkinter import filedialog
import os
root = tk.Tk()  # 创建程序主窗口
root.withdraw()  # 隐藏该窗口

这部分代码导入了 tkinter 模块,并创建了程序的主窗口 root ,然后使用 withdraw() 方法隐藏了主窗口。

file_types = [('Text Files', '*.srt')]  # 指定要筛选的文件格式
files = filedialog.askopenfilenames(filetypes=file_types)  # 弹出文件选择对话框

定义了文件类型筛选条件 file_types ,其中指定了以 .srt 为扩展名的文本文件。然后使用 askopenfilenames() 方法弹出文件选择对话框,让用户选择要处理的文件,选中的文件路径将保存在 files 变量中。

progress_window = tk.Toplevel(root)  # 创建新的顶层窗口对象,作为 root 窗口的子窗口
progress_window.title("文件提取进度")
progress_window.grab_set()  # 设置为模态窗口,阻止用户操作其他窗口

创建了一个新的顶层窗口 progress_window ,它作为 root 窗口的子窗口。设置了窗口标题为"文件提取进度",并使用 grab_set() 方法将窗口设置为模态窗口,这样阻止用户操作其他窗口。

def center_window(window):window_width = 600  # 设置弹窗的宽度window_height = 400  # 设置弹窗的高度screen_width = window.winfo_screenwidth()  # 获取屏幕宽度screen_height = window.winfo_screenheight()  # 获取屏幕高度x = (screen_width - window_width) // 2  # 计算窗口的水平位置y = (screen_height - window_height) // 2  # 计算窗口的垂直位置window.geometry(f"{window_width}x{window_height}+{x}+{y}")  # 设置窗口位置和大小

定义了一个函数 center_window(window) ,用于将窗口居中显示。根据屏幕的宽度和高度计算出窗口的水平和垂直位置,然后使用 geometry() 方法设置窗口的位置和大小。

center_window(progress_window)  # 将窗口置于屏幕中央

调用 center_window() 函数,将 progress_window 窗口置于屏幕中央。

file_list_label = tk.Label(progress_window, text="已处理的文件:", font=("TkDefaultFont", 13, "bold"))
file_list_label.pack()

创建一个标签部件 file_list_label ,显示文本"已处理的文件:",并设置了字体为 TkDefaultFont ,大小为 13 ,加粗。然后使用 pack() 方法将标签部件添加到窗口中进行布局。

file_list_text = tk.Text(progress_window, height=20, width=60, font=("TkDefaultFont", 13))
file_list_text.tag_config("error", foreground="red")
file_list_text.pack()

创建一个文本框部件 file_list_text ,设置高度为 20 行,宽度为 60 个字符,字体为 TkDefaultFont ,大小为 13 。使用 tag_config() 方法配置一个名为 "error" 的标签,设置其前景色为红色。然后使用 pack() 方法将文本框部件添加到窗口中进行布局。

file_error_num = 0  # 处理失败的文件数量
encodings = ["utf-8", "utf-16", "gbk"]for file in files:coding_flag = Falsecoding_error_num = 0texts = []for encoding in encodings:try:with open(file, encoding=encoding) as f:for line in f.readlines():if line[0] not in {'\n', *'0123456789'} and line[-2] not in {'0123456789'}:texts.append(line)coding_flag = True  # 编码正确,退出编码列表的循环if coding_flag:breakexcept UnicodeError as e:coding_error_num += 1if coding_error_num == len(encodings):    # 不满足编码列表中的所有编码file_error_num += 1file_list_text.insert(tk.END, f"{os.path.basename(file)}, file encoding error!" + "\n", "error")# 弹窗列表中显示错误信息,添加 "error" 的标签,使其颜色为红色continuetexts = [text.strip() for text in texts]with open(file.rsplit(".", 1)[0] + ".txt", 'w', encoding='utf-8') as f:for line in texts:f.write(line + '\n')print(f'文件:{f.name} 写入完成!')file_list_text.insert(tk.END, os.path.basename(file) + ",successful!\n")

遍历 files 中的每个文件,依次处理。对于每个文件,首先定义一些变量,如 coding_flag 表示编码是否正确,coding_error_num 表示编码错误的数量,texts 保存提取的文本内容。

然后使用一个内嵌的循环,遍历编码列表 encodings中的每个编码。尝试使用当前编码打开文件,并逐行读取文件内容。如果满足提取条件,将文本内容添加到 texts 列表中,并将 coding_flag 标记为 True 表示编码正确,然后退出编码列表的循环。

关于文本提取的条件,可以参考我之前的博文:python提取字幕文件中的纯文字

如果在所有编码中都无法成功打开文件(捕获到 UnicodeError 异常),则将 coding_error_num1

如果 coding_error_num 等于编码列表的长度,说明文件不满足编码列表中的任何一种编码,此时将 file_error_num1 ,并将文件名和错误信息插入到文本框中,使用 "error" 标签使其颜色变为红色。然后使用 continue 跳过当前文件的处理。

如果文件的编码正确,将 texts 中的文本进行处理(去除首尾空白字符),然后将处理后的文本写入新的以 .txt 为扩展名的文件中,文件名与原文件相同(去除扩展名部分)。同时在控制台输出文件写入完成的信息。

最后,在文本框中插入当前文件名和 "successful!" 的信息。

file_list_text.insert(tk.END, "\n" + f"处理完成,成功 {len(files) - file_error_num} 个,失败 {file_error_num}个!" + "\n")
progress_window.wait_window()  # 等待用户关闭进度窗口

在文本框中插入处理完成的统计信息,显示成功处理的文件数量和失败的文件数量。

最后,使用 wait_window() 方法等待用户关闭进度窗口,程序进入等待状态,直到用户关闭窗口。

5.总结

本程序主要使用 tkinter 库创建了一个图形界面,允许用户选择要处理的多个 srt 文件,然后根据文件的编码,提取其中的纯文本内容。使用了 tk.Tk() 创建程序主窗口,用 withdraw() 方法来隐藏主窗口,用 Toplevel(root) 来创建新的顶窗口,用了 tk.Label()tk.Text() 等标签,在窗口中显示已经处理的文件列表, tag_config() 属性可以设置文本的颜色, insert() 函数可以向文本标签中插入新的内容。定义了 center_window 函数,使窗口居于屏幕的中央。还使用了编码正误标签 coding_flag 来退出编码列表的循环,变量 coding_error_num 来统计处理失败的文件,使用了 file.rsplit(".", 1)[0] + ".txt" 来保证新生成的 .txt 文件和原来的 .srt 文件同名。总的来说,这也是一次不错的实践练习。

python-批量提取srt文件中的纯文本相关推荐

  1. Python工具源码,Python批量提取PPT文件中的图片

    在办公场景当中,同样也有这样一个需求,那就是快速批量把PPT文件中的图片提取出来,毕竟一个个点击另存为太过于繁琐,以及耗费时间,前面本渣渣分享过如何应用Python批量提取PDF文件中的图片,而这一篇 ...

  2. Python批量提取Excel文件中的图片

    推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年7月第9次印刷,山东省一流本科 ...

  3. Python批量提取Excel文件中文本框组件里的文本

    开学第一课:拜托,一定不要这样问Python问题 中国大学MOOC"Python程序设计基础"免费学习地址 2020年秋季学期Python教材推荐与选用参考 推荐图书: <P ...

  4. Python批量提取PowerPoint文件中所有幻灯片标题和备注文本

    小知识: 在制作PowerPoint演示文档时,可以在幻灯片下面添加备注,在双屏播放PPT并设置了演讲者视图时可以给讲者提供一些提示信息,防止忘词,也可以提示下一页幻灯片的内容是什么使得讲者能够完美过 ...

  5. Python批量提取PDF文件中的文本

    首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import os import sys import time pdfs = (pdfs for pdfs ...

  6. python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本

    本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下 首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import ...

  7. 使用Python批量修改PPTX文件中文本框格式

    问题描述:最近正在整理Python教材的配套PPT,原来的PPT是4:3的,考虑到现在很多屏幕都是宽屏的,于是打算重新整理一下.对于正常的幻灯片,直接在"页面设置"中修改一下就可以 ...

  8. Python批量设置pptx文件中文本框边框与填充样式(含20分钟视频讲解)

    近期会议: 10月30-11月1日 全国高校Python课程高级研修班(苏州) 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清 ...

  9. Python批量提取Word文件题库中的答案

    问题描述:假设有Word文件"Python题库.docx"中有若干Python题目(目前有1000道,已在公众号内分享第一期1000道Python题库系列分享一(17道))和对应的 ...

最新文章

  1. shell shocked什么意思_Shell 启动类型探究 ── login interactive
  2. linux网络配置总结,linux中的网络配置命令的总结
  3. c++清空一个txt文本_Linux练习6: 文本查看cat, head, less
  4. 使用valgrind检查内存问题
  5. mysql in 索引_mysql-IN子句不使用索引
  6. 老板亲戚来公司实习,差点把公司的Tomcat搞崩了,就因为不会部署Java服务
  7. wait方法为什么要放在循环里
  8. 案例:如何解决难以重现的BUG
  9. CSS权威指南(4)
  10. 【应用推荐】常见资源管理器整理,内含使用体验和个人使用推荐
  11. 好看的登录html界面,很漂亮的用户登录界面HTML模板
  12. SMA连接器与BNC连接器用途有什么不同
  13. 云服务器装桌面后怎么连接,云桌面具体的安装步骤是怎样的
  14. Normalize异常报错
  15. 安庆集团-冲刺日志(第七天)
  16. 没有今天的百度,难道它真的天亮了?
  17. setenv与putenv的区别
  18. 怎样用计算机打出Abc,智能ABC输入法中的一些使用技巧
  19. 公务员考试题汇集之逻辑推理
  20. 检测两点所确定直线上的像素坐标

热门文章

  1. Visual Studio Ultimate 2013 Update5 中文版/英文版 下载 CD-KEY
  2. 一个程序员转行做农业的经历
  3. 错字如何让娜塔莉·罗杰斯迷上Envato Tuts +
  4. Java输入语句使用方法
  5. 大数据Flink(四):Standalone独立集群模式
  6. opencv+python实战日记 入门篇(八)色块识别
  7. react框架简单总结
  8. Web 安全之内容安全策略详解(Content-Security-Policy,CSP)
  9. Unity官方手册之ParticleSystem_Collision模块
  10. T-SQL:一道医院信息科的面试题