截至12月6日,世界杯无障碍字幕直播间已累计观看超1800万,多次占据热榜前列……但TA带来的远不止这些。

“过去觉得世界杯距离我太远了,熬夜看球却听不懂、听不清只能紧紧盯着屏幕;但今年无障碍字幕直播间一出,似乎一下子就把我骨子里的体育DNA带动起来了,字幕和画面同时播放,那感觉说身临其境也不为过,最重要的是再也不用担心跟不上、听不懂了……”

“以前观看这种节目其实我挺迷茫的,周围人都在热烈讨论,甚至到精彩处欢呼雀跃,但因为我自己的身体原因,很难融入,脱节带来的孤独感一度让我很沮丧……如今借助无障碍字幕直播间,我又找到了那份可以与朋友快乐同步的体验!”

无障碍字幕直播间展示

沉浸体验并与快乐同步,是“无障碍字幕直播间”带来的惊喜与感动;但对火山语音团队来说,做好“无障碍字幕直播间”的技术支持与保障,让精彩持续,却是前所未有的挑战。

攻克口语现象、语速语气差异化 

火山语音自研端到端流式语音识别系统

“其实语音识别本身就是一种挑战!足球比赛瞬息万变,解说下来,很多口语现象不可避免,尤其是自我修正以及语序颠倒,差异化的语速语气更是司空见惯。如果再碰上一些没有经过专业训练的解说嘉宾参与其中,识别的难度就会进一步加码。为应对这个问题,我们其实思考了很久,最终还是通过自研端到端的流式语音识别系统得到了解决。”火山语音团队表示。

据了解,火山语音团队基于RNN-T框架,通过大量训练数据的积累和持续的算法优化,自研推出的端到端的流式语音识别系统,可以有效规避传统语音识别系统中涉及的大量人工流程,例如依赖专业人员设计各种口音的发声规则等,大幅度提高口音识别的效果。当然其他中间环节的人工假设也减少了很多,比方说对于犹豫、自我修正、语序颠倒等口语现象的表达,会有更好的建模能力。

混合模型和端到端模型的对比示意图

据团队介绍,端到端识别系统的backbone结构(主干网络结构)对识别效果至关重要,所以火山语音采用了业界领先的Conformer结构,可以同时对局部信息和全局信息进行建模,识别效果较传统的CNN、LSTM和DFSMN等结构都有了大幅提升。但随之而来的Conformer的计算开销也会增加不少,因此团队又从模型角度优化了Conformer的训练和推理耗时,主要包括下采样、Attention Mask和模型压缩等方式。“首先Conformer结构的计算复杂度与输入音频的长度相关,特别是Attention计算复杂度与n的平方相关,即音频序列长度越长模型越慢,因此在整个模型的浅层,我们通过增加下采样来降低模型的序列长度;其次通过Attention Mask的方式约束Attention的范围;最后通过自研的模型压缩框架,自动对模型进行裁剪和量化,在降低计算复杂度的同时,效果基本无损。”

除了对识别准确率的要求之外,字幕的上屏速度也对观赛体验起到重要影响。火山语音团队通过在RNN-T训练过程中,对于每个字的发射延迟增加损失函数,叠加Conformer结构强大的上下文建模能力,发射延迟提升了300-400ms

“无视”背景噪声 优化术语识别  

品质字幕如此炼成

在过往的很多大型竞技比赛中,因为“遭遇”大量背景噪音,例如背景音乐以及现场欢呼声等,而带来的识别困扰,被认为是同传字幕不准的“罪魁祸首”。“赛场上经常会出现的观众呐喊声,特别容易被误识别为'嗯、啊、哈'的语气词;背景音乐和观众声则会降低解说员声音的清晰度,对识别模型造成了较大挑战。”火山语音团队提出。

针对上述问题,团队设计了一整套流程应对优化:首先需要自动化地从足球比赛音频中提取出这些噪声片段,通过在模型中显式地建模噪声, 将噪声误出字的比例下降了95%;同时通过数据增强方式提高声学模型在足球场景下的鲁棒性,即在有背景音的情况下也能清晰识别人声,实现更好的流式字幕效果。

在世界杯这样的大型赛事中,提高对相关术语的识别效果,提升同传字幕的专业度往往很关键。通常的做法是收集相关场景的语音识别训练集,但收集的过程耗费时间太长且成本较高;此外面对大量文本语料,如何利用这些纯文本来优化领域识别效果,这对于端到端的语音识别是一个业界难题。

“针对足球术语的优化,我们选择在收集的足球文本语料的基础上训练语言模型,通过语言模型干预方式提高模型在足球领域的适配性。”由于端到端模型本身也隐含语言模型信息,直接与外部语言模型进行融合,往往效果不佳。所以团队根据 RNN-T 的建模方式,通过解耦声学模型和语言模型,显式建模内部语言模型,调整内部语言模型和外部语言模型的权重,可以实现最佳的融合效果。

“对于教练与运动员人名识别难的问题,我们从足球相关语料中自动挖掘专有名词、球队和球员名称等术语,通过在解码备选中引入FST(Finite State Transducer)逻辑结构,结合'匹配走图+Backoff权重偿还'的方式对热词进行干预,有效利用该热词专项技术优化后,这些术语的召回从 64% 提升到 76%。”团队总结道。

尽管成功使用了热词干预的方式,但经过大量测试实践,火山语音团队发现,人名又是一种特殊的热词,在 RNN-T 训练平行语料中多为 OOV,采用简单的热词干预方式会存在两个问题:第一,人名中的每个单字RNN-T建模单元都是常见字,但是组合起来作为热词是OOV,这种情况下,纯热词激励权重会导致在不该出现人名的时候召回了人名,即“过召回”,再加上scale过大,导致弧上的边加分过于明显,更易过召回,这是人名重复出字的主要原因;第二,Top10备选路径里面不会出现人名,单纯通过外挂热词FST根本无法有效加分。

针对上述两个问题,团队对人名热词干预做出了两方面优化,分别是扩大FST干预备选以及对热词区分稀疏热词和普通热词,然后对两种热词分别构图,在解码逻辑区别处理。经过两项优化,人名的召回率从76%提升到84%。此外还联合火山语音音频合成团队的同学,采用TTS技术合成术语音频,并加入声学模型训练中,将这些术语的召回率进一步提高到90%,字幕效果更佳。

热词干预方案的流程示意图

如今在火山语音识别技术支持下,火山引擎语音识别产品已广泛应用于视频娱乐、办公会议、硬件交互、智能客服等诸多行业,为客户提供了优质且有前景的语音识别解决方案。近日,在火山语音识别能力的技术支持下,火山引擎语音识别产品获得了国家语音及图像识别产品质量检验检测中心(简称“AI国检中心”)颁发的语音识别增强级检验检测证书,充分表明其语音识别技术能力已达到行业领先水平。

从洗脑主题曲“下蛋歌”的魔性旋律与动作被争先效仿,到可爱吉祥物“拉伊卜”被誉为“会飞的饺子皮儿”,再到旅居中东的大熊猫四海竟然能听懂四川话,乡音未改好不欢乐……不得不说今年的卡塔尔世界杯确实贡献了很多“眼前一亮”,如今赛程已进四强争霸,想必无障碍字幕直播间还将带来更多惊喜。

超1800万累计观看,多次占据热榜前列……“无障碍字幕直播间”带来的远不止这些!相关推荐

  1. 快手资讯 | 修订快分销平台管理规范,一年拦截风险视频超20万条

    1.快手处置33个"吴勇工作室"仿冒账号 5月30日,快手发布了关于打击仿冒帐号的处罚公告,平台共处理帐号33个. 平台表示,近期通过巡查发现,在部分热点事件中,个别网友为博眼球蹭 ...

  2. 万字拆解自嗨锅:造价近百万的直播间,是单场直播GMV破100万的法门吗?

    自嗨锅抖音 自播仅一个月,就可以做到连续三场 GMV 单场破100万的成绩.自嗨锅为什么能能有这样的成绩,有哪些点对于新进入抖音电商的 食品直播策略 有借鉴意义呢?来看看自嗨锅在抖音自播方面究竟做对了 ...

  3. 国仁网络资讯:如何运营好小红书上直播间;超详细直播互动话术攻略教程。

    2020年,直播电商已经是大势所趋,各大短视频平台,内容社区也在积极布局直播业务.小红书直播经过半年的内 测之后,作为战略目标,小红书决定拿出30个亿补贴小红书直播.从一个海淘平台,到内容种草社区,再 ...

  4. 蚂蚁战配基金已售罄两只 累计关注人数超500万

    9月27日消息,根据支付宝基金界面显示的内容,蚂蚁战配基金上线两天已售罄两只,分别为鹏华创新和易方达创新. 同时,支付宝页面显示,蚂蚁战配基金累计关注人数已超500万.根据官方公布的数据显示,开卖第一 ...

  5. 深圳市区块链电子发票系统累计开票超5800万张

    8月10日,区块链电子发票迎来在深圳落地三周年.三年来,国家税务总局深圳市税务局不断深化区块链电子发票的应用推广,实现了"交易即开票.全信息上链.全流程打通",提升了税收管理服务科 ...

  6. 沪港通、深港通双向累计交易额超14万亿元人民币

    中新社北京1月21日电 中国国家外汇管理局(下称"外汇局")官网21日刊发中国央行副行长.外汇局局长潘功胜署名文章称,沪港通.深港通自开通以来,双向累计交易额已超14万亿元人民币. ...

  7. 四川川之音:抖音电商发布消费者权益保护年报:累计封禁超300万件风险商品

    2023年3月13日消息,抖音电商今日发布的<2022 抖音电商消费者权益保护年度报告>显示,882名电商作者因在直播中虚假营销受罚,消费者推荐度提升11.85%.同时,平台持续升级预售门 ...

  8. 逾百位开发者到场,超 2 万人线上观看!龙蜥社区开发者服务 devFree MeetUp 精彩回顾来啦

    春末夏初,细雨漫漫,龙蜥社区迎来了首届开发者服务平台(devFree)线下 MeetUp.此次沙龙吸引了不少来自行业头部公司.机构的代表参与主题分享,现场更是有百余位业内的专家与开源技术爱好者.工程师 ...

  9. LV也开启了直播首秀,一个小时吸引超1.5万人观看

    3月26日,LV在小红书献上了直播首秀.据悉,此次直播以LV在小红书的企业号为主体,小红书时尚博主程晓玥.演员钟楚曦作为推荐官,在LV位于上海恒隆广场的门店,为网友介绍夏日系列新品手袋和成衣. 直播中 ...

最新文章

  1. 知识图谱升温之势已现,不要错失下一个AI风口
  2. ANDROID开发之SQLite详解
  3. 微软Http错误Code解析
  4. 某网站高度加密混淆的javascript的分析
  5. Angular ctorParameters,decorator等元数据,包含在ActivatedRouteSnapshot数据结构里
  6. 自定义v-drag指令(横向拖拽滚动)
  7. Java是否越来越接受静态导入?
  8. 一条语句判断数x是否2的n次幂.求取二进制1的个数
  9. 计算机谭音乐同桌的你,同桌的你_Ava_clover_新浪博客
  10. atm取款流程测试_盘点2020年软件测试新手必看的技术面试指南(下)
  11. JavaScript学习总结(10)——实用JS代码大全
  12. Android基础入门教程——2.5.2 Notification(状态栏通知)详解
  13. (四) 制作一个最简单的qt界面
  14. maven运行Error:(3, 14) java: 程序包不存在
  15. python0不能做除数报错_浅谈pandas dataframe对除数是零的处理
  16. drupal8 自定义主题开发步骤
  17. Chrome安装程序遇到错误 0xe0000008解决办法
  18. python图片转文字easyocr_Python OpenCV读取png图像转成jpg图像存储
  19. 鸿蒙系统是手机系统还是电脑系统,鸿蒙系统能兼容手机电脑和智能设备,这是怎样实现的?...
  20. 看地理标志产品苏尼特羊肉如何投放广告宣传打造品牌

热门文章

  1. python市场饱和了没_软件测试市场饱和了?不,是你的能力“饱和”了
  2. pc串口调试工具与安卓app通讯,pc及手机串口配对方法
  3. 全球与中国血液和腹膜透析市场深度研究分析报告
  4. [设计]字象乾坤之字体的性格
  5. 【MATLAB】机器学习:图像数据的提取与随机划分
  6. 解决打开VM虚拟机蓝屏问题
  7. 程序员批注《语言学教程》——第四章 从词语到篇章
  8. jsp中的九大内置对象与四大域对象
  9. 考研高数之无穷级数题型三:将函数展开成幂级数和傅里叶级数(题目讲解)
  10. Spring_刘锋的博客