直播线上实时翻译和流式字幕技术,区别于传统的线下翻译+字幕叠加硬件设备,创新性的采用云线上实时翻译+流式字幕叠加,通过API的方式实现直播视音频分离、音频转码、语音识别及转文本、文本翻译、自动审核、字幕返回等功能,并最终将流式字幕叠加到直播源流中,语音识别、转写及翻译准确率预计可达90%以上,并拥有自动校正功能,在保证字幕效果的情况下,极大的节省了使用成本,且系统支持动态扩缩容,便捷高效。

技术实现原理是将直播流进行音频流剥离,利用AI语音能力将直播流中的音频流进行实时识别、转写,同时进行多语言翻译及内容审核,过滤敏感内容,保障内容的安全合规,最终将识别的原语言和翻译语言以实时字幕的方式叠加到直播流中,让用户可以在观看直播画面、声音的同时可以获取文字维度的信息,极大的提升用户的观看体验。

技术方案架构图

模块组成:

业务实现流程:

●  业务层对接视频云PaaS平台,开启功能并配置翻译模板;

●  现场推流到CDN边缘节点;

●  CDN转推到视频云PaaS平台;

●  视频云PaaS平台进行直播流调度及转发、音频流剥离并发送给AI语音服务平台;

●  视频云PaaS平台获取转写及翻译音频流接收,并进行音视频流合并;

●  将合成字幕后的视频云流进行转码、源流及含字幕流切片、录制等,支持时移回看、录制文件回放等,然后将含字幕的直播流转推给CDN;

●  终端平台播放器从CDN获取转码流播放。

技术优势:

● 分析语音数据的处理速度,拿到字幕数据的延迟,在输入层对视频数据进行延迟控制,最终可以控制在1s以内,实现直播声音、画面、字幕完美同步的良好体验;

● 字幕模板动态灵活配置,支持自定义位置、字体大小、颜色、背景色等;

● 支持灵活配置开启或关闭字幕:比如中场休息、播放宣传片或者其他广告内容时,可以关闭字幕;

● 区别于传统的线下翻译+字幕叠加硬件设备,创新性的云线上实时翻译+字幕叠加,通过API的方式实现全部流程,且只支持的并发路数可以动态扩缩容,提升使用和运维效率;另外相比传统的线下实现方式,综合降本预计高达95%以上。

实践过程中遇到的难点:

●  听写以及翻译的准确性,需要根据不同的场景进行定制训练;

●  声音、画面、字幕的同步控制。

技术应用场景:

该技术可以广泛的应用于电商、会展、融媒、教育等领域,比如在电商领域,可以帮助企业聚焦直播带货出海业务场景,通过云端实时翻译+多语言字幕的技术手段,降低海外地区用户的观看门槛,提升直播观看量,从而提升商品购买转化率和GMV;在会展行业,可以完美替代同传和线下硬件设备,大大降低会展直播成本。

技术实践:

该技术在2021年相继应用于服贸会、亚欧商品贸易博览会、商洽会等国际性展会项目中,具体效果通过下面的视频来展示:

直播线上实时翻译和流式字幕技术实践与应用相关推荐

  1. 低延迟流式语音识别技术在人机语音交互场景中的实践

    美团语音交互部针对交互场景下的低延迟语音识别需求,提出了一种全新的低出字延迟流式语音识别方案.本方法将降低延迟问题转换成一个知识蒸馏过程,极大地简化了延迟优化的难度,仅通过一个正则项损失函数就使得模型 ...

  2. SDCC 2017优秀专题线上展第一站:大数据技术实战峰会首解密

    SDCC始创于2007年,十年长空,历久弥新--2016年,SDCC已分别在上海.深圳.成都.杭州.北京五地举办系列峰会,广受当地开发者欢迎.其中,北京作为年度收官之作,聚焦最前沿技术成果,汇聚年度最 ...

  3. 【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践

    (以下内容搬运自飞桨PaddleSpeech语音技术课程,点击链接可直接运行源码) PP-TTS:流式语音合成原理及服务部署 1 流式语音合成服务的场景与产业应用 语音合成(Speech Sysnth ...

  4. 当TensorFlow遇上Kubernetes ---中兴通讯人工智能计算平台的技术实践

    本文由 [FMI飞马网]原创,原文链接:当TensorFlow遇上Kubernetes ---中兴通讯人工智能计算平台的技术实践 分享一些关于大数据的干货​:TensorFlow介绍.安装教程.图像识 ...

  5. streamx如何支持我司线上实时作业

    导读:本文主要带来 streamx 在我司中实时任务的应用,我们的部署方式是onyarn的模式,然后使用的版本是自己编译的1.2.1,都是基于Flink做的任务开发. 本文通过一下几个点展开: joy ...

  6. 互动教学场景下的视频直播线上研讨会应用(组图)

    阿酷TONY / 原创 / 2022-12-14 / 长沙 / 互动教学/互动培训类场景特点: 1. 直播过程中,学员不仅是观看讲师的授课内容,还要与讲师直接进行音视频会话:当然一些非培训教学场景也常 ...

  7. 短视频直播线上教学是什么

    短视频,直播,线上教学是什么 短视频:短视频即短片视频,是一种互联网内容传播方式,一般是在互联网新媒体上传播的时长在1分钟以内的视频传播内容;随着移动终端普及和网络的提速,短平快的大流量传播内容逐渐获 ...

  8. 线上翡翠原石怎么引流,做翡翠的几个高效的引流渠道

    如今翡翠引流越来越困难了,很多大公司的付费广告到处都是,小微商获得流量的成本越来越高,有没有什么新的引流方式比较适合微商呢?为了找到一些新的突破点,我搜集整理了一些资料,根据我的统计和分析,我觉得现在 ...

  9. 线上分享会预告之三维模型检索技术介绍

    大家好.本周公众号将迎来第一位线上直播分享会,此次分享是一次接力,我们希望更多的加入我们一起分享.这里先预告一下,线上直播的时间在本周三晚上19::00,大家多多关注. 本周线上分享会预告 主讲题目: ...

  10. LiveVideoStack线上交流分享 (九) —— B站的QUIC实践简介

    为了给大家提供一个学习,交流的平台,畅聊音视频技术开发新趋势,新实践.我们推出了LiveVideoStack线上交流分享活动,在每周四晚19:30,邀请1名业内资深技术专家进行线上分享技术干货,解答热 ...

最新文章

  1. java转置矩阵相乘_java实现矩阵的加-减-乘-转置运算
  2. 对象存储与块存储、文件存储等对比
  3. 使用MediaCodeC将图片集编码为视频
  4. python测试用例怎么写_Python单元测试unittest的具体使用示例
  5. Bounce 弹飞绵羊
  6. 智迪科技携手海通安恒,启动SAP实施项目
  7. ArcGIS实验教程——实验三十一:ArcGIS构建泰森多边形(Thiessen Polygon)实例精解
  8. 鳞翅目动物的诅咒:玩java.time
  9. C++ 构造函数分类以及调用
  10. oracle 日期计算
  11. hdu2587(递推)
  12. 计算机原理与技术索引的应用,经常学一点计算机底层原理系列之索引
  13. storyboard 苹果启动图_iOS LaunchScreen.storyboard启动图更新
  14. 黄金分割法与单峰函数求极值
  15. parallels恢复linux密码,在Parallels Desktop中忘记Windows密码怎么办 Parallels Desktop忘记Windows密码的解决方法...
  16. 关于促进交通运输与旅游融合发展的若干意见
  17. 解决CCS中调用 printf 函数报错和警告的问题(error #10099-D:program will not fit into available memory.)
  18. Asio Buffers
  19. linux常用命令-part2
  20. VC++:菜单的使用总结

热门文章

  1. excel基础知识大全_测量常用软件大全
  2. 爬虫基础练习—python爬虫下载豆瓣妹子图片
  3. coreos(coreos介绍)
  4. 淘宝前员工开发雨滴阅读,欲打造国产Instapaper
  5. WPF界面框架的设计
  6. win7提示由于系统注册表文件丢失或损坏,无法开机
  7. 打开FTP server或者wftpd32提示 unknow error 10013
  8. Nvivo用法--数据可视化工具
  9. iOS Charles(青花瓷)安装
  10. war 包,在Windows环境,如何解压