近日,全球语音、声学顶级会议ICASSP 2022公布了论文入选名单,小米AI实验室6篇学术论文被接收。同时,小米“自由说”系统在MISP(基于多模态信息的语音处理)挑战赛中荣获多模态语音唤醒第一名和多模态语音识别第二名,这也是小米语音方向取得的第6个世界级比赛冠军。

ICASSP(International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是IEEE主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级会议,在国际上享有盛誉并具有广泛的学术影响力。

小米AI实验室被录用的论文涉及语音识别、语音合成、声学语音质量评价等诸多方向,在此次 ICASSP 2022录用的论文概述如下。

01

《MSDTRON:基于多样性数据的高性能多说话人个性化语音合成系统》

Wu Q, Shen Q, Luan J, Wang Y, MSDTRON: A High-Capability Multi-Speaker Speech Synthesis System For Diverse Data Using Characteristic Information, ICASSP 2022

业务应用:提升小爱同学声音定制的效果。2021年自研声音定制2.0上线小爱同学,除声音定制外,我们还首发了个性化歌唱功能。

算法设计如下图所示:

本文针对多说话人语音合成(Multi-speaker TTS)定义了一种结合语音谐波结构(harmonic structure)的激励谱(excitation-spectrogram)特征,激励谱特征可以很好的优化语音mel谱(mel-spectrogram)特征的学习。在解码器(decoder)的LSTM网络部分,本文提出了一种结合说话人信息(speaker-embedding)的CGLSTM(conditional gated LSTM)结构。对比传统的多说话人语音合成系统,本文的方法提升了模型对不同说话人的风格和情感等信息的学习能力,有效提升了个性化语音合成的效果。

>>>>   

合成样音抢先听:

02

《PAMA-TTS:使用合成进度敏感的单调注意力机制精准控制音素韵律的稳定端到端语音合成》

He Y, Luan J, Wang Y, PAMA-TTS: Progression-Aware Monotonic Attention for Stable Seq2Seq TTS With Accurate Phoneme Duration Control, ICASSP 2022

业务应用:提升小爱同学语音合成流畅度与稳定性。

算法设计如下图所示:

在序列到序列的语音合成中,在编码器和解码器之间进行序列扩展是是一项有挑战性的任务。虽然基于注意力机制的方式取得了不错的自然度,但会使得合成语音不稳定,带来丢字或重复等问题,更不用说用于精确控制时长。与之相反,基于时长的方法看上去可以轻松的音素时长进行控制,然而这往往会导致明显的合成自然度下降。

本文提出了PAMA-TTS模型来解决这些问题。PAMA-TTS模型即利用了注意力机制的灵活性,又利用显示的时长信息。同时,以单调注意力机制为基础,PAMA-TTS也对每一帧的倒计时信息加以利用,例如,某一帧到当前音素发音结束还剩余多少帧。这些策略能帮助注意力模块计算得到的对齐信息以一种受控的方式沿着序列的向前移动,这一控制是一种软性的限制,同时也是可靠的。一些实验也证实了PAMA-TTS能够取得更高的自然度,同时在时长控制能力上,也比基于时长的方式更加优异。

PAMA-TTS实现了时长可控语音合成,为小米打造虚拟人,实现发音嘴型跟合成声音同步,奠定了技术支持。

>>>>

合成样音抢先听:

03

《使用SUS约束的VAE和聚合文本编码器提升情感化语音合成》

Yang F, Luan J, Wang Y, Improving Emotional Speech Synthesis by Using SUS-Constrained VAE and Text Encoder Aggregation, ICASSP 2022

业务应用:提升小爱同学语音合成的情感化。小爱同学是第一个使用情感化语音合成的语音助手。

算法设计如下图所示:

本文利用SUS(the Surface of the Unit Sphere)约束的VAE(Variational AutoEncode)和聚合的文本编码器提升了情感语音合成的效果。该模型在广被应用的端到端模型Tacotron的基础上,利用SUS约束的VAE获得了更好的情感表征,并将该表征和文本表征一起作为查询加入到了聚合的文本编码器中,实验证明提出的方法能合成出更富有表现力的情感语音,为小爱同学的情感语音合成提供了技术支持。

>>>>

合成样音抢先听:

04

《使用正交正则化学习特征分解》

Wang L, Gu R, Zhuang W, Gao P, Wang Y, Zou Y, Learning Decoupling Features Through Orthorgonality Regularization, ICASSP 2022

业务应用:提升手机个性化语音唤醒性能、降低小爱“句中”误唤醒率,保障语音唤醒质量。

算法设计如下图所示:

关键词识别和说话人识别的多任务模型可以应用于小米手机和AIoT的各种设备上,一方面可以简化现有系统架构,减少资源占用,另一方面也可以获得更好的性能。本文论述了在个性化语音唤醒任务上,设计基于正交性正则化的个性化语音唤醒算法。

我们创新性地利用正交性正则化来约束模型解耦关键词信息和说话人信息,设计双分支神经网络,浅层网络共享参数提取两个任务共有的特征,深层网络分别进行关键词识别和说话人验证。在开源数据集上达到了start-of-the-art水平,在小米内部业务数据集上也有性能提升。2021年小米集团技术委的语音唤醒取得了集团质量二等奖、小爱的语音唤醒性能在2021年有了极大的改善。

05

《利用伪强标签提升大规模弱监督声音标签》

Dinkel H, Yan Z, Wang Y, Zhang J, Wang Y, Pseudo Strong Labels For Large Scale Weakly Supervised Audio Tagging, ICASSP 2022

业务应用:提升小米闻声的性能。

类比视觉标签,算法设计如下图所示:

语音是声音成分的一种,想要在语音识别和语音生成这些任务上取得好性能,除了需要对语音精细建模,也离不开对声音空间的全面掌握。这是语音信号处理一直以来的基本思路。随着预训练技术在语音任务中越来越多的应用,语音社区对声音的先验知识的描述越来越重视。

这项研究利用预训练的“机器标注器”,更加细致的针对声音内容重打标签,利用声音内容里不含精确时间信息的标签对数据进行重新理解,形成了有精确时间信息的伪强标签数据。利用这些有精细化标签重新训练模型,可以提升语音VAD的准确度、发现语音误唤醒。该方法被应用在小米闻声中,声音判断的精度从70.76%提升到88.74%。

06

声学方向论文:《基于i-vector输入的语音质量评价模型》

Miao Liu, Jing Wang, Shicong Li, Fei Xiang, Yue Yao, Lidong Yang, MOS Predictor For Synthetic Speech With I-vector Inputs, ICASSP 2022

业务应用:填补手机通话业务线上质量评估空白。

语音质量是通信业务的核心体验,线上质量监控是通信领域数十年的行业难题。基于此,我们结合信号处理和心理听觉的语音感知机理,利用深度学习方法分析传输路径特征信息,设计了一种可以用于线上业务的实时无参考语音通话质量评估方法,实现对语音通信质量进行实时评分。

经过全面测试验证,此算法与国际广泛采用的有参考语音质量标准ITU-T P.863(POLQA)的评价结果相关度达到95%以上,并且对手机通话、微信视频、多方会议、电商直播、游戏对战等多种通信场景具有广泛的适应性。同时,该项技术可在汽车、手机、可穿戴、智能家电、PC等智能终端快速部署,通过实时监控语音通信业务质量全方位提升语音通话体验,有效填补行业空白。

在这篇论文中,小米探索了i-vector在无参考质量评价领域应用的可能性,证明了i-vector中包含了丰富的语音质量信息,i-vector的输入有助于提高基于神经网络的评价模型的检测性能。实验结果无参考质量评价对比有参考评价,MSE从0.088下降到0.029。当前,我们的预研项目是在接收端做的下行质量评估,主要用来评估经过编解码损伤和网络损伤后的得分,后续会扩展到在发送端做的上行质量评估,用来评估数据录制、信号处理算法的质量得分。

07 

one more thing 彩蛋:小米“自由说”系统在MISP(基于多模态信息的语音处理)挑战赛中获得多模态语音唤醒第一名和多模态语音识别第二名,并受邀在今年5月的全球会议上向工业界和学术界进行方案报告。

业务应用:多模态语音交互。

ICASSP 2022中的MISP(基于多模态信息的语音处理)挑战赛,是国际语音声学领域顶级会议ICASSP下属的语音信号处理挑战赛,由来自中科大、乔治亚理工和卡内基梅隆大学等知名学府的教授联合举办,旨在促进复杂场景下音视频多模态信息交互的技术进步。比赛分为音视频多模态唤醒和音视频多模态识别两个赛道。由于要判别语音的内容需要同时解决混响、噪声和多人说话问题,比赛难度非常高。

为此,小米AI实验室语音组、Daniel Povey新一代语音团队和视觉组的工程师们组成联合团队,共同设计了参赛系统——小米“自由说”,取得了赛道一冠军和赛道二亚军的优异成绩,并受邀于今年5月在新加坡举办的全球会议上向工业界和学术界进行方案报告。

小米工程师们分析了两个赛题的关键,针对性的提出了专业的解决方案。对于多模态语音唤醒赛道,团队提出了业界领先的两阶段唤醒算法,包含一个多通道异构端到端唤醒模型和一个混淆词判别模型,其中多通道模型巧妙的利用了丰富的阵列声学特性,而混淆词判别模型则采用了我们首席语音科学家Daniel Povey提出的Alignment-Free Lattice-Free MMI模型,最终取得了最高的分数。

赛道1 音视频多模态唤醒 系统流程图

在多模态语音识别赛道,首要解决的是严重的说话人混叠问题,其次是混响和噪音对于语音识别的干扰问题。团队利用传统分离方法和深度神经网络分离模型相结合的算法,从嘈杂信号中分离出目标说话人的语音,再采用音视频多模态联合学习的算法进行识别,创新性地在端到端模型中采用了首席语音科学家Daniel Povey提出了K2解码方式,大大提高了解码效率和识别精度。

赛道2 音视频多模态识别 系统流程图

08

▍ 总 结

随着人工智能技术的发展,语音交互提供了更自然、更便利、更高效的沟通形式,成为最主要的人机互动接口之一。此次,小米语音、声学取得了优异的成绩,离不开小米工程师们在实际业务中扎实的技术积累,将实践中总结的技术进步向业界和学术界进行回馈,共同促进AI技术的繁荣和发展。

在语音领域,小米语音团队在2017年开始在学术顶会发表重要论文,并在TTS(语音合成)全面自研以及在合成的韵律、个性化、以及情感这三个方面实现了重大的突破;智能生活助理小爱同学的声音定制效果、合成流畅度与稳定性、合成的情感化都有显著提升。

同时,我们在语音唤醒和预训练方面进行了深入研究,提升了手机个性化语音唤醒和小米闻声的性能,降低了小爱误唤醒率,保障了语音唤醒的质量,受到ICASSP的审稿人的高度评价。

在声学领域,小米声学团队致力于AI声学技术的研究及工程落地,为小米手机及IoT全生态硬件产品打造业界领先的音频体验。目前AI通话降噪、协同唤醒、协同放音、空间音频等技术已在手机、电视、小爱、耳机等60余款产品中落地。4年来累计过审专利已达123项。

未来,小米将不断探索科技新高度,为大家带来更多黑科技,让更多人享受科技带来的美好生活。

END

小米AI实验室六篇论文获 ICASSP 2022收录,多模态语音唤醒挑战赛夺冠相关推荐

  1. 小米AI实验室六篇论文获ICASSP2022收录,多模态语音唤醒挑战赛夺冠

    1月22日,全球语音.声学顶级会议ICASSP 2022公布了论文入选名单,小米AI实验室6篇学术论文被接收.小米"自由说"系统在MISP(基于多模态信息的语音处理)挑战赛中荣获多 ...

  2. 小米AI实验室4篇论文入选语音技术顶会INTERSPEECH 2022

    滴滴--重磅消息新鲜出炉!!  全球语音领域顶级会议 INTERSPEECH 2022公布了论文入选名单,小米 AI 实验室4篇论文被接收.INTERSPEECH 是由国际语音通信协会ISCA组织的语 ...

  3. 小米AI实验室最新研究论文收录于COLING 2022,介绍一种更有效的鲁棒性神经机器翻译训练方法...

    COLING 全称为International Conference on Computational Linguistics,是自然语言处理领域重要的国际会议,由国际计算语言学委员会(Interna ...

  4. 京东AI研究院8篇论文被AAAI 2019收录,国际顶会彰显京东科技实力

    https://www.toutiao.com/a6651795835203879432/ 2019-01-29 20:55:00 美国时间1月27日,AAAI 2019大会在夏威夷正式拉开序幕,AA ...

  5. GPT-3等三篇论文获NeurIPS2020最佳论文奖 | AI日报

    为 AI 内行人定制资讯, 帮你一篇尽览 AI 行业要闻. GPT-3等三篇论文获NeurIPS2020最佳论文奖 今日NeurIPS 2020 公布了最佳论文奖和时间检验奖.OpenAI 等提出的语 ...

  6. 小米AI实验室入选《麻省理工科技评论》中国“2021人工智能创新研究院”

    近日,<麻省理工科技评论>中国发布了<2021人工智能创新研究院(AI Labs)报告>,多元且客观地描摹 AI 技术创新和未来技术趋势的年度图景,从而预见改变中国,甚至改变世 ...

  7. 优秀!303篇论文获2020年度“优秀博士学位论文”!

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:科奖中心 AI博士笔记系列推荐 周志华<机器学习> ...

  8. 京东云与AI 10 篇论文被AAAI 2020 收录,京东科技实力亮相世界舞台

    美国时间2月7-12日,AAAI 2020大会在纽约正式拉开序幕,AAAI作为全球人工智能领域的顶级学术会议,每年评审并收录来自全球最顶尖的学术论文,这些学术研究引领着技术的趋势和未来.京东云与AI在 ...

  9. 清华大学实验组18篇论文被ACL 2022录用

    近日,ACL 2022录用结果出炉,我组18篇论文被ACL 2022录用,其中主会论文13篇,Findings论文5篇.以下为论文列表及介绍:  一  ACL 2022主会 Packed Levita ...

最新文章

  1. redis为什么是单线程_面试官:Redis单线程为什么执行效率这么高?
  2. 虚拟桌面模拟查找点击自绘控件
  3. QT的QOpenGLTexture类的使用
  4. 你以后会不会有小三?
  5. TP3.2 URL传参及模板输出
  6. 数据-第8课-线性表的链式存储结构(未)
  7. [转载]PLSQL安装破解
  8. 高效能管理之要事第一 时间管理表格2
  9. 0x0000005c蓝屏问题解决
  10. mysql lookup3,引用函数(三):lookup
  11. 社交网络叠加直播功能,会产生什么化学反应?
  12. 12306的(再次破解)从查票到购票
  13. 《C语言详解》_by_Hanly.学习笔记(1)
  14. mysql中的查找算法_7种查找算法解析
  15. 数据管理执行指南 | 你需要知道什么?
  16. android手机赚钱软件排行
  17. Flume简介及配置
  18. 图片嵌在文字里首行缩进
  19. Ubuntu安装使用SVN
  20. 用无穷级数计算cos值

热门文章

  1. 杨建允:疫情下文旅消费新模式,大“游”可为
  2. 用python批量把小说编号由大写数字替换成阿拉伯数字
  3. 移动安全总结 2019
  4. [网络安全自学篇] 一.入门笔记之看雪Web安全学习及异或解密示例
  5. 阻塞IO、非阻塞IO的区别
  6. 广告牌定时器怎么设置时间_定时开关怎么调整时间?
  7. 极限编程核心价值:勇气(Courage)
  8. 什么是比特币?它有哪些重要的特征?
  9. 同舟康泰,我心中的香巴拉!
  10. 华三绕过console口密码