滴滴——重磅消息新鲜出炉!! 

全球语音领域顶级会议 INTERSPEECH 2022公布了论文入选名单,小米 AI 实验室4篇论文被接收。INTERSPEECH 是由国际语音通信协会ISCA组织的语音领域的顶级会议之一,也是全球最大的综合性语音领域的科技盛会,在业内享有极高的声誉,对参与企业和单位有着严苛的准入门槛要求。

高手云集的技术宴,小米工程师究竟在语音、声学技术领域显露哪些高招?论文亮点,都在这里!

01 

《UniKW-AT: Unified Keyword Spotting and Audio Tagging》

《UniKw-AT:统一的唤醒和环境识别 》

作者:Dinkel H*,王永庆*,闫志勇*,张俊博,王育军

目前市场上所使用的绝大多数智能助手是通过唤醒被激活。唤醒识别是在语音行业里一个比较重要的服务。而除了唤醒以外,最近也有其他服务对使用者有所帮助,这种服务是“环境识别”,专门给有听力障碍的人群提供环境声音识别的服务。但目前为止,它们依然是独立存在的服务,即唤醒模型和环境识别模型。而在这一篇论文中,介绍了一个能够统一两个任务/服务的新方法。

这个新方法的优点具体有以下几点:

  1. 唤醒模型能理解环境,提升唤醒模型的鲁棒性*

  2. 模型小和推理时间短适合设备端运行;

  3. 降低误唤醒率,特别在复杂唤醒下,如:有音乐环境音、嘈杂声等;

  4. 唤醒时模型也可以提供环境信息,如:小爱同学+下雨声 ,或小爱同学+孩童声,即唤醒时可分辨出此刻发出声音的唤醒人是儿童。

鲁棒性*:Robust的音译,也就是健壮和强壮的意思。它也是在异常和危险情况下系统生存的能力。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。

02 

《Exploring Representation Learning for Small-Footprint Keyword Spotting》

《基于表征学习的语音唤醒》

作者:崔凡,郭理勇,王全东,高鹏,王育军

这篇论文针对数据和计算资源受限的语音唤醒任务,设计了一种结合预训练模型和对比学习的轻量级语音唤醒方法。首先,WVC(Wav2Vec constraint module)模块利用Wav2Vec预训练模型约束唤醒模型学习帧级别的通用特征表示;其次,LGCSiam(Local-global contrastive siamese networks) 模块提出了一种对偶自学习结构进行句级别的表征学习。

结合以上方法,大量非同源无标签数据可被用于唤醒模型训练,进而提升唤醒模型的效果。实验证明,利用同源无标注或非同源数据进行表征学习,都能极大的提升数据受限情况下的语音唤醒效果。

此研究的主要优势是,基于预训练模型的约束模块和局部与全局对偶学习模块来进行表征学习,能够提升资源受限的语音唤醒任务能力(这里的资源受限主要是指训练数据有限和设备计算资源有限)。因为获取同源有标注的训练数据成本较高,此方法可以利用预训练模型,在训练数据资源有限的情况下,提升模型的泛化性;对于设备计算资源有限的情况,可以利用teacher-student训练提升模型的表达能力。

03 

BIT-MI System to Non-intrusive Speech Quality Assessment Challenge in Online Conferencing Applications》

《针对在线会议的无参考语音质量评估系统》

作者:刘淼,王晶,徐亮,张戬骞,李世聪,相非

语音质量是通信业务的核心体验,对语音的在线质量监测一直以来都是行业难题之一。在本文中,研究者们结合传统信号处理与听觉主观感知机制,提出了一种新的基于深度学习神经网络,适用于线上业务的实时无参考语音通话质量评估的方法,以此对实时语音通信进行质量评价。

经测试验证,此算法与语音质量评测方法的标准基线系统相比在各项指标上都有明显提升。其主要应用场景针对如今需求日益增长的线上会议场景,能够在实时通信交互的同时对于线上通信语音质量进行实时评估,以期改善语音通信的质量。

本文中实时无参考语音通话质量评估方法的优势如下:

  1. 相较于传统的有参考质量评估方法,本算法中采用的无参考方法能够更好地降低运算时延与模型开销,提供更适用于线上会议交互任务需求的应用方案;

  2. 在主要应用场景(线上会议场景)之外,其算法在其他的应用场景上具有较好的泛化性能,对于日常通话,视频聊天,在线直播等多种场景中均有较好的适用性;

  3. 其线上实时运算的特性支持这项技术能够轻量级部署在各种移动终端与智慧互联终端上,例如车载网络、智能家居、可穿戴设备等,通过其低时延的语音质量监测业务提升通话质量与用户体验。

现阶段此项目主要应用于接收端的下行质量评估,后续研发过程当中,此项目的应用场景将得到进一步扩展,有望应用于上行质量评价当中。

04 

《Pruned RNN-T for Fast, Memory-Efficient ASR Training》

《Pruned RNN-T:更快更省内存的训练》

作者 : 匡方军,郭理勇,康魏,林珑,罗明双,姚增伟,Daniel Povey

RNN-T是语音识别中最流行的模型之一,因其天然地支持实时识别而得到广大研究者的青睐。然而,常规RNN-T损失函数的计算既慢又耗内存,这极大影响了此类模型的实用性。研究者们在本论文中提出的Pruned RNN-T损失函数可有效解决这个问题。

Pruned RNN-T的基本思想是,只计算联合网络(Joiner)中那些对最终损失函数有显著贡献的(t,u)点对。为此团队进行了两次损失函数的计算,如图2所示,第一次计算基于一个可快速计算的“平凡”联合网络,研究者们利用它的输出可求得哪些(t, u)点对是有重要贡献的,然后,在这些重要点对上做第二次运算,得到最终的Pruned RNN-T损失函数。在整个过程中,不需要分配像(N,T,U,V)这样大的四维矩阵,从而实现提速和减少内存的目的。

图1. RNN-T和Pruned RNN-T Lattice对比

图2. Pruned RNN-T损失函数计算流程图

经过研究者们评测,发现与Pytorch中的RNN-T损失函数相比,Pruned RNN-T损失函数在只使用其五分之一内存的情况下,获得了约15倍的计算速度提升。在实际的语音识别模型训练中(conformer-transducer模型),与Pytorch RNN-T损失函数相比,使用Pruned RNN-T损失函数依然能将训练速度提升1倍。这极大地降低了RNN-T模型的训练时间,增加了RNN-T模型的实用性。

05 

在探索中超越,小米离用户更近的语音、声学技术是什么?

近年来,小米在语音、声学技术上的积累日渐成熟,并逐渐落地在小米的产品中。

从2017年到2022年,“小爱同学”已经从语音助手逐步升级为智能生活助手,小米工程师所关注的也不止于用户所提出的需求,更有用户的潜在所需与具体情境。那么,一个贴近用户生活、尊重用户情感的“小爱”究竟内含何种技术力量呢?

从语音技术的角度来看,小米工程师倾力于打磨小爱同学的“耳朵”和“嘴巴”,让它能听会说。使用自研的多麦克风“端到端”语音处理,多模态拾音,情绪感知,环境音感知,让小爱同学能听得更远更清晰;自研的语音唤醒技术实现了手机端语音误唤醒率低至0.49%。在对语音技术不断深耕的过程中,我们不仅首发了手机声音复刻、超级拟人语音生成技术,让小爱同学说出更自然流利富有情感的话语;还首发了歌声定制技术,让用户只需要使用20句话,就可以用自己或者自己亲人的声音合成歌曲。在这些技术的强大支撑下,小爱同学接连上线了家庭传声、声纹识别、跨设备控制、AI通话、AI读屏以及超级拟人音色等功能。

此外,在声学技术层面,我们开展了通话降噪、声场控制、智能感知、音频处理、声学测量等五个方向的研究工作,为小米手机及IoT全生态硬件产品提供了智能声学基础算法支撑,打造业界领先的音频体验。例如,强风噪音抑制技术,实现了耳机用户在复杂声音环境中的清晰通话,而协同唤醒的智能多设备应答,更是规避了“一呼百应”的问题。目前,AI通话降噪、自适应主动降噪、协同唤醒、空间音频、协同放音、扬声器均衡等算法达到行业领先水平,已应用于小米手机、电视、小爱、耳机、音箱、IoT等60余款产品,广受用户好评。

小米产品功能的不断提升源自于小米工程师对人文关怀的追求,小爱同学不仅是机器,更是能陪伴大家的伙伴。未来,小米也将持续守护每一个用户的生活,以更智能的技术创造更加贴心的语音体验,聆听情绪,服务需求。

END

小米AI实验室4篇论文入选语音技术顶会INTERSPEECH 2022相关推荐

  1. 小米AI实验室六篇论文获ICASSP2022收录,多模态语音唤醒挑战赛夺冠

    1月22日,全球语音.声学顶级会议ICASSP 2022公布了论文入选名单,小米AI实验室6篇学术论文被接收.小米"自由说"系统在MISP(基于多模态信息的语音处理)挑战赛中荣获多 ...

  2. 小米AI实验室六篇论文获 ICASSP 2022收录,多模态语音唤醒挑战赛夺冠

    近日,全球语音.声学顶级会议ICASSP 2022公布了论文入选名单,小米AI实验室6篇学术论文被接收.同时,小米"自由说"系统在MISP(基于多模态信息的语音处理)挑战赛中荣获多 ...

  3. 智能语音信息处理团队18篇论文被语音技术顶会ICASSP 2023接收

    近日,ICASSP 2023会议发出了审稿结果通知,语音及语言信息处理国家工程研究中心智能语音信息处理团队共18篇论文被会议接收,论文方向涵盖语音识别.语音合成.话者识别.语音增强.情感识别.声音事件 ...

  4. AAAI 2023 | 腾讯优图实验室16篇论文入选,含多标签分类、姿态估计、目标检测、HOI、小样本学习等研究方向...

    关注并星标 从此不迷路 计算机视觉研究院 转自腾讯优图 近日,AAAI 2023(Association for the Advancement of Artificial Intelligence) ...

  5. 小米AI实验室最新研究论文收录于COLING 2022,介绍一种更有效的鲁棒性神经机器翻译训练方法...

    COLING 全称为International Conference on Computational Linguistics,是自然语言处理领域重要的国际会议,由国际计算语言学委员会(Interna ...

  6. ICCV 2023 | 腾讯优图实验室16篇论文入选,含掌纹生成,人脸隐私保护,图像和谐化等研究方向...

    关注公众号,发现CV技术之美 本文转自腾讯优图实验室. 作为全球计算机领域顶级的学术会议之一,ICCV2023(International Conference on Computer Vision) ...

  7. 重磅!悉尼科大ReLER实验室13篇论文入选CVPR 2021

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文作者:Pablo   |  来源:知乎(已授权) https://zhuanlan.zhihu.com/ ...

  8. CVPR 2022 | 腾讯优图实验室30篇论文入选,含场景文本语义识别、3D人脸重建、目标检测、视频场景分割和视频插帧等领域...

    关注公众号,发现CV技术之美 本文转载自腾讯优图 近日,CVPR 2022官方公布了接收论文列表(CVPR 2022 接收论文公布! 总计2067篇!),来自腾讯优图实验室共计30篇论文被CVPR收录 ...

  9. ACM MM2021 | 腾讯优图实验室9篇论文入选,含弱监督图像描述及定位、表格结构识别等研究方向...

    关注公众号,发现CV技术之美 本文转载自腾讯优图 第29届ACM国际多媒体会议(简称ACM MM)于10月20日至24日在成都举行.ACM MM是世界多媒体领域最重要的顶级会议,也是中国计算机学会推荐 ...

最新文章

  1. Callgrind--函数调用分析工具以及可视化方法
  2. js控制select大全
  3. android中的AIDL进程间通信
  4. (转)Apache Ant 环境开发Android应用 二
  5. C++ Applications
  6. linux中的信号2——进程如何处理信号?
  7. DNN(DotNetNuke)注册用户终于突破10万人了,其3.0也终于跳票了...
  8. java 学生信息 list_java用list集合存储学生信息并算出成绩平均值操作
  9. 用字典存储学生成绩查询_中考用分数评价学生音体美成绩未尝不是好事
  10. 好程序员大数据教学点睛:Hadoop基础篇
  11. Tomcat原理整理
  12. 局域网电脑屏幕桌面监控实现方法
  13. win7旗舰版和纯净版系统哪个好
  14. DirectX简单的FBX文件加载(网格MESH)
  15. python爬取网易云音乐飙升榜音乐,网易云音乐-飙升榜歌曲信息爬取
  16. 普通人最应该具备的素质是什么,韧性
  17. Linux内核4.14版本——alsa框架分析(3)-PCM设备的创建
  18. 「大学必读」计算机专业学生一定要学好哪些课程?
  19. WOL网络唤醒远程开机的关键步骤,魔术唤醒一步都不能少!
  20. 微信小程序的详细登录(上)

热门文章

  1. 传统车道线检测项目学习总结(附源码,复现日志与github链接)
  2. 【云原生之Docker实战】使用docker部署个人导航页webstack
  3. numpy | numpy100练习题上篇1-50
  4. 微信备注加个b什么意思_一个人爱不爱你,他的微信备注会告诉你,不信你看!...
  5. media social 指什么_什么是social media?
  6. 【速达软件】速达3000系列、V3、S3批量更改税率
  7. php购买鲜花流程,鲜花同城配送怎么操作?操作流程和注意事项详解
  8. Spring Boot Vue Element入门实战(四)主页面开发
  9. H5 jq+canvas实现pc写字板功能
  10. 政府机构机房环境监控系统解决方案!