python提取视频字幕_GitHub - jiulinxiri/video-timeline-and-subtitle-extract: 视频时间轴及字幕提取...
视频时间轴及字幕提取
能帮助你:
1、识别字幕的时间轴
通过帧差法判断是否相同帧, 进而由相同帧得出字幕时间轴
计算时间轴对应帧的 SSIM , 合并相同的时间轴
2、利用OCR识别字幕
将指定字幕区域二值化得到只包含字幕的图片, 之后利用 OCR 精准识别字幕
目前使用百度 OCR , 腾讯 OCR 的接口
有生之年的目标是引入 tesseract-ocr
如何使用
系统环境
Windows 系统 ( macOS 未经测试, 但是理论上没有问题)
Python 3.x (建议 Python 3.7)
获取代码
1.下载 Source code 并手动安装所需模块
在 Release
页面下载 Zip 格式的 Source code 并解压
在命令行执行
pip install setuptools
pip install opencv-python Pillow scikit-image scipy requests ttkthemes
将会自动安装所依赖的模块
2.下载包含完整模块的压缩包
还可以 点击这里
下载包含完整模块的压缩包,可以无需安装模块直接运行
申请OCR
百度OCR
点击这里
在百度智能云创建文字识别应用, 在应用列表页面可以看到 API Key 和 Secret Key
百度OCR提供多个通用文字识别接口, 虽然官网显示不保证并发, 但是实测 QPS 至少能达到 3:
接口
通用文字识别
通用文字识别(含位置信息版)
通用文字识别(高精度版)
通用文字识别(高精度含位置版)
网络图片文字识别
免费额度
50000次/日
500次/日
500次/日
50次/日
500次/日
因为百度云是按行识别, 所以位置信息不是我们所必需的, 最基本的通用文字识别即可满足大部分需求
其中, 通用文字识别和通用文字识别(高精度版)支持中英文混合, 英文, 葡萄牙语, 法语, 德语, 意大利语, 西班牙语, 俄语, 日语, 韩语 10 钟语言类型
腾讯OCR
点击这里
在腾讯AI开放平台创建应用, 在应用信息页面可以看到 APPID 和 APPKEY
之后点击 能力库 -> OCR -> 通用OCR 接入能力, 否则 无法使用OCR
注意, 此接口并不是腾讯云(cloud.tencent.com)的文字识别 OCR 接口, 腾讯云的接口只有 1000次/月 的免费额度
腾讯AI开放平台 OCR 叫做优图 OCR , 目前是完全免费的状态, 只有QPS的限制
选择哪个?
实际测试来看, 两个 OCR 的表现都很不错, 腾讯 OCR 的精确度略微高于百度但也相差不大, 百度 OCR 的 QPS 能达到 3 但是字幕数量最多也就一千多条, 所以时间也不会相差太多
有中文之外的需求, 直接选择百度OCR
使用
启动 index.pyw
首次启动会要求输入 OCR 的相关信息, 也可以选择使用共享API进行体验
共享API存在较大QPS限制,建议体验结束后注册并填写自己的API信息
选择视频并调整参数
调整字幕区域使其只包含字幕
调整二值化阈值, 尽可能使图片只包含字幕且字幕尽量黑
移动最下方的滚动条查看不同帧的效果
开始提取时间轴并识别字幕
时间轴提取完成后会自动开始识别字幕, 字幕识别完成后会输出带时间轴的字幕文件, 后缀为.srt
时间轴提取完成但字幕识别出现错误, 可以直接重新识别字幕, 时间轴信息不会丢失
在 output 文件夹查看输出结果
参数调整
在"参数"页面调整的参数不会作为默认值被保存到文件, 如果需要调整这些参数的默认值, 请直接修改 config.json 文件
建议只根据需要修改 binary_threshold 二值化阈值的默认值
测试结果
百度OCR 腾讯OCR 识别结果对比:
python提取视频字幕_GitHub - jiulinxiri/video-timeline-and-subtitle-extract: 视频时间轴及字幕提取...相关推荐
- office timeline 5|office timeline pro/plus 5(PPT时间轴制作插件) v5.00.00.00
office timeline pro/plus 5是专为办公人士所打造的一款PPT时间轴制作插件,它可以帮助用户快速制作PPT和工作流程图,且毫不费力,从而大幅提高工作效率.同时该软件拥有非常多的功 ...
- 很实用的PR视频剪辑教程:如何在Adobe Premiere Pro Mac时间轴中使用标记
如果你想要进行视频后期处理,千万不要错过Adobe Premiere Pro Mac这款强大的视频编辑软件哦,premiere pro 能够满足用户的任何视频编辑需求!今天教大家如何在Adobe Pr ...
- 【Javascript】【视频录制】通过video标签和canvas实现视频截图录制和下载
录像原理 创建一个画布,video标签本身不具备记录画面功能,所以我们需要通过Canvas来达成这个功能 创建一个录制器,与CanvasStream绑定,这样画布绘制什么,录制器都能触发回调 创建一个 ...
- Design the Web: Add a Twitter Timeline 设计网页:添加Twitter时间轴 Lynda课程中文字幕
Design the Web: Add a Twitter Timeline 中文字幕 设计网页:添加Twitter时间轴 中文字幕Design the Web: Add a Twitter Time ...
- After Effects Guru: Mastering the Timeline After Effects Guru:掌握时间轴 Lynda课程中文字幕
After Effects Guru: Mastering the Timeline 中文字幕 After Effects Guru:掌握时间轴 中文字幕After Effects Guru: Mas ...
- AnyMP4 Mac Video Converter Ultimate for Mac(视频格式转换器) v8.2.18激活版
AnyMP4 Mac Video Converter Ultimate for mac破解版是一款mac上的视频格式转换器,这款AnyMP4 Mac Video Converter Ultimate ...
- AnyMP4 Mac Video Converter Ultimate for Mac(视频格式转换器)
AnyMP4 Mac Video Converter Ultimate mac版是Macos上一款视频格式转换器,AnyMP4 Mac Video Converter Ultimate下载可让您转换1 ...
- Video 标签播放 m3u8 格式视频
在不借助流媒体播放器的前提下,直接播放 m3u8 格式的视频文件 更多精彩 更多技术博客,请移步 IT人才终生实训与职业进阶平台 - 实训在线 写在前面的话 为什么要播放 m3u8 格式的视频 对于一 ...
- 字幕制作之时间轴制作(1) - 字幕的无中生有
关于时间轴 准备 具体步骤 关于时间轴 时间轴决定了字幕的出现和结束时间.目前来讲,字幕时间轴的制作主要分为两大块,第一块是对时间轴进行调整,第二块是新建时间轴.因为电视剧基本都有对应的cc字幕,对于 ...
最新文章
- cba篮球暂停次数和时间_中国篮球即将来袭!202021赛季CBA赛程时间表
- 作业要求 20180925-1 每周例行报告
- ubuntu 11 mysql_Ubuntu 11.10是否包含MySQL 5.5?
- [论文阅读] Instance-level salient object segmentation
- 【转载+思考】追问泄题之源:命题权寻租打开方便之门
- Oracle 取某100天的每一天的日期
- 基于springboot的美食系统
- 令人震惊的电子邮件归档调查
- 30个Java自学网站
- 系统架构师论文-论新技术的引进
- 有限自动机DFA 、 无限自动机NFA
- Excel2013制作甘特图
- 迷惑新手的IOS开发问题
- outlook服务器拒绝访问文件夹,无法打开共享日历文件夹 - Outlook | Microsoft Docs
- 港科夜闻|「广州粤港澳大湾区研究院」成立,香港科技大学校长史维教授获聘担任研究院顾问...
- 服务器pe装系统找不到硬盘,用U盘PE装系统找不到硬盘如何解决妙招
- Android Studio 连真机提示No Device Found,adb.exe无法找到入口
- 3NF、BCNF和4NF基本概念和分解
- iis启动和停止的方法介绍
- 通讯型高清视频会议摄像机
热门文章
- 【教程】【图文】使用 CCPE 批量装机、网络克隆
- mysql 授权与回收权限_mysql权限授予与收回
- kubeadm部署kubernetes-1.12.0 HA集群-ipvs
- Android Debug Bridge (ADB)
- 【论文导读】2019阿里CTR预估模型---DIEN(深度兴趣演化网络)
- 20BN-Jester完整数据集下载
- php答题抽奖源码,PHP转盘抽奖接口实例
- 优启通制作系统u盘_优启通u盘制作工具-easyu优启通2020官方下载-独木成林
- JAVA计算机毕业设计学生二手书籍交易平台计算机(附源码、数据库)
- 无损连接和模式分解题型