直播线上实时翻译和流式字幕技术实践与应用
直播线上实时翻译和流式字幕技术,区别于传统的线下翻译+字幕叠加硬件设备,创新性的采用云线上实时翻译+流式字幕叠加,通过API的方式实现直播视音频分离、音频转码、语音识别及转文本、文本翻译、自动审核、字幕返回等功能,并最终将流式字幕叠加到直播源流中,语音识别、转写及翻译准确率预计可达90%以上,并拥有自动校正功能,在保证字幕效果的情况下,极大的节省了使用成本,且系统支持动态扩缩容,便捷高效。
技术实现原理是将直播流进行音频流剥离,利用AI语音能力将直播流中的音频流进行实时识别、转写,同时进行多语言翻译及内容审核,过滤敏感内容,保障内容的安全合规,最终将识别的原语言和翻译语言以实时字幕的方式叠加到直播流中,让用户可以在观看直播画面、声音的同时可以获取文字维度的信息,极大的提升用户的观看体验。
技术方案架构图
模块组成:
业务实现流程:
● 业务层对接视频云PaaS平台,开启功能并配置翻译模板;
● 现场推流到CDN边缘节点;
● CDN转推到视频云PaaS平台;
● 视频云PaaS平台进行直播流调度及转发、音频流剥离并发送给AI语音服务平台;
● 视频云PaaS平台获取转写及翻译音频流接收,并进行音视频流合并;
● 将合成字幕后的视频云流进行转码、源流及含字幕流切片、录制等,支持时移回看、录制文件回放等,然后将含字幕的直播流转推给CDN;
● 终端平台播放器从CDN获取转码流播放。
技术优势:
● 分析语音数据的处理速度,拿到字幕数据的延迟,在输入层对视频数据进行延迟控制,最终可以控制在1s以内,实现直播声音、画面、字幕完美同步的良好体验;
● 字幕模板动态灵活配置,支持自定义位置、字体大小、颜色、背景色等;
● 支持灵活配置开启或关闭字幕:比如中场休息、播放宣传片或者其他广告内容时,可以关闭字幕;
● 区别于传统的线下翻译+字幕叠加硬件设备,创新性的云线上实时翻译+字幕叠加,通过API的方式实现全部流程,且只支持的并发路数可以动态扩缩容,提升使用和运维效率;另外相比传统的线下实现方式,综合降本预计高达95%以上。
实践过程中遇到的难点:
● 听写以及翻译的准确性,需要根据不同的场景进行定制训练;
● 声音、画面、字幕的同步控制。
技术应用场景:
该技术可以广泛的应用于电商、会展、融媒、教育等领域,比如在电商领域,可以帮助企业聚焦直播带货出海业务场景,通过云端实时翻译+多语言字幕的技术手段,降低海外地区用户的观看门槛,提升直播观看量,从而提升商品购买转化率和GMV;在会展行业,可以完美替代同传和线下硬件设备,大大降低会展直播成本。
技术实践:
该技术在2021年相继应用于服贸会、亚欧商品贸易博览会、商洽会等国际性展会项目中,具体效果通过下面的视频来展示:
直播线上实时翻译和流式字幕技术实践与应用相关推荐
- 低延迟流式语音识别技术在人机语音交互场景中的实践
美团语音交互部针对交互场景下的低延迟语音识别需求,提出了一种全新的低出字延迟流式语音识别方案.本方法将降低延迟问题转换成一个知识蒸馏过程,极大地简化了延迟优化的难度,仅通过一个正则项损失函数就使得模型 ...
- SDCC 2017优秀专题线上展第一站:大数据技术实战峰会首解密
SDCC始创于2007年,十年长空,历久弥新--2016年,SDCC已分别在上海.深圳.成都.杭州.北京五地举办系列峰会,广受当地开发者欢迎.其中,北京作为年度收官之作,聚焦最前沿技术成果,汇聚年度最 ...
- 【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践
(以下内容搬运自飞桨PaddleSpeech语音技术课程,点击链接可直接运行源码) PP-TTS:流式语音合成原理及服务部署 1 流式语音合成服务的场景与产业应用 语音合成(Speech Sysnth ...
- 当TensorFlow遇上Kubernetes ---中兴通讯人工智能计算平台的技术实践
本文由 [FMI飞马网]原创,原文链接:当TensorFlow遇上Kubernetes ---中兴通讯人工智能计算平台的技术实践 分享一些关于大数据的干货:TensorFlow介绍.安装教程.图像识 ...
- streamx如何支持我司线上实时作业
导读:本文主要带来 streamx 在我司中实时任务的应用,我们的部署方式是onyarn的模式,然后使用的版本是自己编译的1.2.1,都是基于Flink做的任务开发. 本文通过一下几个点展开: joy ...
- 互动教学场景下的视频直播线上研讨会应用(组图)
阿酷TONY / 原创 / 2022-12-14 / 长沙 / 互动教学/互动培训类场景特点: 1. 直播过程中,学员不仅是观看讲师的授课内容,还要与讲师直接进行音视频会话:当然一些非培训教学场景也常 ...
- 短视频直播线上教学是什么
短视频,直播,线上教学是什么 短视频:短视频即短片视频,是一种互联网内容传播方式,一般是在互联网新媒体上传播的时长在1分钟以内的视频传播内容;随着移动终端普及和网络的提速,短平快的大流量传播内容逐渐获 ...
- 线上翡翠原石怎么引流,做翡翠的几个高效的引流渠道
如今翡翠引流越来越困难了,很多大公司的付费广告到处都是,小微商获得流量的成本越来越高,有没有什么新的引流方式比较适合微商呢?为了找到一些新的突破点,我搜集整理了一些资料,根据我的统计和分析,我觉得现在 ...
- 线上分享会预告之三维模型检索技术介绍
大家好.本周公众号将迎来第一位线上直播分享会,此次分享是一次接力,我们希望更多的加入我们一起分享.这里先预告一下,线上直播的时间在本周三晚上19::00,大家多多关注. 本周线上分享会预告 主讲题目: ...
- LiveVideoStack线上交流分享 (九) —— B站的QUIC实践简介
为了给大家提供一个学习,交流的平台,畅聊音视频技术开发新趋势,新实践.我们推出了LiveVideoStack线上交流分享活动,在每周四晚19:30,邀请1名业内资深技术专家进行线上分享技术干货,解答热 ...
最新文章
- java转置矩阵相乘_java实现矩阵的加-减-乘-转置运算
- 对象存储与块存储、文件存储等对比
- 使用MediaCodeC将图片集编码为视频
- python测试用例怎么写_Python单元测试unittest的具体使用示例
- Bounce 弹飞绵羊
- 智迪科技携手海通安恒,启动SAP实施项目
- ArcGIS实验教程——实验三十一:ArcGIS构建泰森多边形(Thiessen Polygon)实例精解
- 鳞翅目动物的诅咒:玩java.time
- C++ 构造函数分类以及调用
- oracle 日期计算
- hdu2587(递推)
- 计算机原理与技术索引的应用,经常学一点计算机底层原理系列之索引
- storyboard 苹果启动图_iOS LaunchScreen.storyboard启动图更新
- 黄金分割法与单峰函数求极值
- parallels恢复linux密码,在Parallels Desktop中忘记Windows密码怎么办 Parallels Desktop忘记Windows密码的解决方法...
- 关于促进交通运输与旅游融合发展的若干意见
- 解决CCS中调用 printf 函数报错和警告的问题(error #10099-D:program will not fit into available memory.)
- Asio Buffers
- linux常用命令-part2
- VC++:菜单的使用总结