三星电子推出X-net架构用于语音通话
X-net 影音探索 #003
作者 | Teresa
近日,三星电子推出X-net,这是一种联合学习的Scale-down和Scale-up架构,用于语音编码中的预处理和后处理,作为在带宽受限的语音通话信道上扩展带宽的一种手段。其中,在发送端和接收端分别部署Scale-down和Scale-up,以进行下采样和上采样处理。并对子模块进行单独监督训练,这样即使缺少一个子模块,X-net也能够正常工作。在三星电子发表的X-net论文中(X-net: A Joint Scale Down and Scale Up Method for Voice Call),有结果表明,联合训练的 X-net 在客观和主观指标上,比常见的音频超分辨率方法有明显改进,即使在只有 1k 参数量级的轻量级网络上也是如此。
X-net 架构
上图显示了在语音通话场景中应用 X-net 架构。它包含一个在发送端部署的Scale-down模块,以及一个在接收端部署的Scale-up模块。在麦克风输入的高带宽语音信号后,应用Scale-down模块做向下采样,为语音编码器提供对应的低带宽语音。然后,应用Scale-up模块将语音解码器输出的低带宽语音转换回高带宽语音进行输出。
由于编解码器是一个标准的固定模块,用于传输限定带宽的语音数据。因此,三星电子推出的X-net架构包含了Scale-down、编解码器和Scale-up模块,能够在不改变现有语音通话信道设置的情况下,达到传输高质量的语音的目的。
训练X-net
其特点在于不仅使用时域损失函数或混合时域和频域损失函数,而是应用具有不同目标的两阶段训练计划。其中,在第一阶段使用时域 MSE 损失来获取最小化波形失真。在第二阶段切换到对数频谱幅度 (LSA) 上的 MSE,这可以更好地保证听觉上的相似性。
小 结
X-net主要针对的是限定带宽的语音通话信道上的高质量语音传输,并提出了一种时域上的轻量化网络的设计:Scale-down/Scale-up。它的特点是联合优化的神经网络下采样和上采样,分别部署在编码端和解码端,提高现有语音通话系统的语音质量。有实验结果表明,X-net的表现优于常见的音频带宽扩展方法。将X-net应用于EVS (Enhanced Voice Services) 语音通话场景中,即便只有1k的网络参数,POLQA MOS(平均意见评分)有着显著提升。我们也注意到三星电子在论文结语中,表示会进一步研究X-net对于Codec性能的提升,甚至于设计新的Codec。
参考链接:
https://www.isca-speech.org/archive/interspeech_2021/wen21_interspeech.html
http://epub.cnipa.gov.cn/tdcdesc.action?strWhere=CN112885363A&8kt2YOWWXQBD=1631348218704
感谢三星电子音频负责人,王立众老师对本文进行技术审校。
扫描图中二维码了解大会更多信息
三星电子推出X-net架构用于语音通话相关推荐
- iOS 基于LinPhone的语音通话
语音通话涉及到的概念介绍: VoIP(Voice over Internet Protocol)即首先数字化语音信号并压缩成帧,转换为IP数据包在网络上传输,以此完成语音通话的业务,是一种利用IP协议 ...
- 苹果遭集体诉讼;华为或年底推出鸿蒙系统中低端智能手机;Facebook雇人记录用户语音通话以改善AI技术……...
戳蓝字"CSDN云计算"关注我们哦! 嗨,大家好,重磅君带来的[云重磅]特别栏目,如期而至,每周五第一时间为大家带来重磅新闻.把握技术风向标,了解行业应用与实践,就交给我重磅君吧! ...
- 5G笔记| 概述:5G网络架构(NSA/SA组网)、无线资源控制RRC、语音通话
名词解释 新空口NR(New Radio):指5G的无线网 空口即空中接口,对应无线网络的概念,泛指手机和基站之间一系列传输规范,因为无线网是5G速率突破的关键,故也把5G直接叫做NR ps. 3G无 ...
- Lyra——开启下一个十亿用户的语音通话
Lyra--开启下一个十亿用户的语音通话 前言 过去的一年已经表明,在线交流对我们的生活至关重要.无论你身在何处.可用的网络条件如何,清楚地了解彼此之间的联系变得前所未有地重要.因此,我们在2月推出了 ...
- 智能会议系统(34)---Android语音通话实现方案及相关技术介绍
Android语音通话实现方案及相关技术介绍 Android语音通话实现方案及相关技术介绍 语音通话 Step1语音采集和输出 Step2编解码方式 Step3网络传输 Step4去噪声消回音 语音通 ...
- 从语音通话和视频通话两个方面搭建专属于自己的私有化部署的视频会议通话系统
召开远程视频会议,可大大提高工作效率,节省与会人员的工作时间和会议费用.视频会议通话系统应用在政府.军队.教育.金融.交通.能源.医疗等行业及跨国.跨地区的企业中逐步普及. EasyRTC视频通话系统 ...
- Lyra:助力下一批十亿用户的语音通话
文 / Andrew Storus 和 Michael Chinen (Chrome) 在过去的一年里,在线通信已表明对我们生活有多么重要.无论您身处何地,也无论网络条件怎样,在线沟通时清晰理解彼此的 ...
- Android语音通话实现方案及相关技术介绍
Android语音通话实现方案及相关技术介绍 Android语音通话实现方案及相关技术介绍 语音通话 Step1语音采集和输出 Step2编解码方式 Step3网络传输 Step4去噪声消回音 语音通 ...
- 【iOS】iOS语音通话回音消除(AEC)技术实现
一.前言 在语音聊天.语音通话.互动直播.语音转文字类应用或者游戏中,需要采集用户的麦克风音频数据,然后将音频数据发送给其它终端或者语音识别服务.如果直接使用采集的麦克风数据,就会存在回音问题.所谓回 ...
最新文章
- 爬虫与浏览器的区别,爬虫产生(出自简书)
- redis:RDM连接阿里云redis服务器
- sql server中对xml进行操作
- P3338-[ZJOI2014]力【FFT】
- jquery修改a标签的href链接和文字
- 用python画机器猫代码_如何用Python画一只机器猫?| 原力计划
- 荣耀v20、荣耀20Pro、mate20、Nova5Pro选哪个?
- 10.看板方法---设置在制品限额
- 13. Use Objects to manage resources.
- 洛谷 1315 观光公交——贪心
- ASP.NET 实现简单的注册界面(使用asp控件)
- linux命令— head
- 零基础学习人工智能如何入门?
- radare2 和 EVM
- PS故障风海报制作技术分享
- FS78P372N单片机替代义隆EM78P372N
- CC3200学习笔记02-芯片简介
- IBM x230笔记本 电路图 逻辑图 运行逻辑图 X230 11232-1_final_r4.pdf 电路板图
- Struts2 异常处理机制
- GIt版本回滚的两种方法reset、revert
热门文章
- 指定版本的python运行和指定python版本的pip
- linux ../的含义
- 我的ASP.NET AJAX控件——PopupNotificationExtender:实现OWA或Messenger样式的信息提示窗口...
- Python问答环节(2)
- JavaScript高级程序设计(第三版)学习笔记1~5章
- 猫猫学IOS(二十一)UIApplication设置程序图标右上⾓红⾊数字_联⺴指⽰器等
- 【Android UI设计与开发】3.引导界面(三)实现应用程序只启动一次引导界面
- aspcms各版本漏洞0day集合
- 拦截Activity的后退键处理
- CodeForces - 1400F x-prime Substrings(AC自动机+dp)