作为语音处理技术领域的旗舰国际会议,ISCSLP2022(International Symposium on Chinese Spoken Language Processing)将于12月11-14日在新加坡举办。

西工大音频语音与语言处理研究组(ASLP@NPU)本届会议将携合作伙伴宣读论文8篇,涉及智能语音处理领域的众多研究方向,包括语音识别、说话人日志、语音合成、语音转换等。论文的合作单位包括:腾讯美团传音控股马上金融等。此外在本届会议上,实验室联合希尔贝壳天津大学南洋理工大学WeNet开源社区理想汽车等多家单位成功举办智能座舱语音识别挑战赛(ICSRC)。值得一提的是,实验室参赛队获得中英混语音识别挑战赛(CSASR)第二名,同时实验室与传音控股合作获得对话短语音说话人日志挑战赛(CSSD)第三名的优异成绩。以下是本届会议发表论文的相关信息。

#1

AccentSpeech: Learning Accent from Crowd-sourced Data for Target Speaker TTS with Accents

作者列表:张雍茂,王智超,杨培基,孙闳绅,王智圣,谢磊

合作单位:腾讯IEG

论文摘要:从众包数据中学习口音来让目标说话人带有口音是一种可行的构建带口音语音合成系统的途径。为了实现这个目的,有两个具有挑战性的问题需要解决。第一,如果直接使用质量较低的众包口音数据和目标说话人的高质量非口音数据来训练口音迁移模型会导致合成质量明显低于目标说话人的原始数据。为了缓解这个问题,我们采用以神经网络瓶颈特征(BN)为中间特征的语音合成方案,将语音合成的声学模型分为Text-to-BN(T2BN)和BN-to-Mel(BN2Mel)来分别建模口音和目标说话人音色,同时基于神经网络提取的BN具有噪声鲁棒性。第二,如果直接使用众包数据训练上述两段式模型将会导致目标说话人的发音韵律较差,这是由于众包数据都是由非专业播音的普通人提供的。为了解决这个问题,我们将两段式的模型更新为三段式模型,使用目标说话人的高质量数据训练上述T2BN和BN2Mel模块,并在两个模块中间加入一个BN-to-BN(BN2BN)模块来进行口音迁移任务。我们通过数据扩充的方式生成了非口音的BN和带有口音的BN平行数据来训练BN2BN模块。最终,我们提出的三段式模型实现了合成目标说话人的带口音的语音,因为合成语音的韵律是从专业播音的目标说话人数据中学习的,所以最终语音的发音韵律较好。我们提出的AccentSpeech的效果在中文口音迁移任务上得到了验证。

论文Arxiv网址:

https://arxiv.org/abs/2210.17305

#2

End-to-End Voice Conversion with Information Perturbation

作者列表:谢启聪,阳珊,雷怡,谢磊,苏丹

合作单位:腾讯TEG

论文摘要:语音转换的目标是将源语音中的音色转换目标说话人音色,同时保持源语音中的内容信息不变。然而,目前的方法在说话人相似度和韵律方面有所欠缺,而且由于声学模型和声码器之间的特征不匹配的问题,导致了的转换语音质量的下降。本文利用信息扰动的方式,提出一种完全端到端的方法来进行高质量的语音转换。首先采用信息扰动来去除源语音中与说话人相关的信息,以解耦说话人的音色信息和语言内容信息。为了更好地将源语音的韵律转移到目标语音上,本文引入了说话人相关的韵律编码器,来保持和源说话人的一致的韵律模式。通过直接对语音样点进行建模提升音质,避免了借助梅尔谱的中间表征而带来的声学模型和声码器之间的特征不匹配的问题。最后,通过连续的说话人空间建模,使模型能够实现Zero Shot的语音转换。实验结果表明,所提出的端到端方法在可懂度、自然度和说话人相似度方面明显优于其他对比模型。

论文Arxiv网址:

https://arxiv.org/abs/2206.07569

#3

Multi-speaker Multi-style Text-to-speech Synthesis with Single-speaker Single-style Training Data Scenarios

作者列表:谢启聪,李涛,王新升,王智超,谢磊,虞国桥,万广鲁

合作单位:美团

论文摘要:语音合成的风格迁移主要让说话人合成该说话人本不具有的风格的语音,比如,让普通说话人合成故事、新闻、广播、朗读等等风格语音。为了使合成系统能够学习风格信息,以往的研究所使用的语料是一位说话人要具备多种风格的语料,这将对说话人提出较高的要求。本文为了解决以上的问题,设计了单人单风格场景下的风格迁移方案,训练语料的每位说话人只要具备一种风格即可。同时本文对音素级别的细粒度韵律进行控制,从而更容易实现对风格强度进行控制。

论文Arxiv网址:

https://arxiv.org/abs/2112.12743

#4

Robust MelGAN: A robust universal neural vocoder for high-fidelity TTS

作者列表:宋堃,从坚,王新升,张雍茂,谢磊,蒋宁,吴海英

合作单位:马上金融

论文摘要:在当前主流的两段式TTS框架中,理想情况是拥有一个通用声码器,其只需要训练一次而不需要对目标数据进行微调,并对声学模型生成的mel谱具备鲁棒性。基于此目的,我们在multi-band MelGAN的基础上作出改进,提出Robust MelGAN模型,缓解multi-band MelGAN在对接声学模型生成的Mel谱而产生的电音问题,并提高了其泛化能力。首先,我们在生成器中引入了细粒度的网络dropout策略,通过将语音信号中的周期和非周期成分分离并对非周期成分施加网络dropout策略,避免电音的同时保证了稳定的音色相似度。为了提高模型的泛化能力,我们使用了多种数据增强方法以扩充判别器中的虚假数据,包括谐波偏移、谐波噪声和相位噪声。实验表明,Robust MelGAN作为通用声码器,可以适配基于多种数据训练的声学模型,保持了良好的音质。

论文Arxiv网址:

https://arxiv.org/abs/2210.17349

#5

AdaVITS: Tiny VITS for Low Computing Resource Speaker Adaptation

作者列表:宋堃,薛鹤洋,王新升,从坚,张雍茂,谢磊,杨兵,张雄,苏丹

合作单位:腾讯CSIG

论文摘要:说话人自适应任务旨在预训练的TTS模型上使用少量的目标说话人数据进行自适应而获得目标说话人的TTS系统。在这一任务上已经有很多相关工作,但是很少有针对于低计算资源场景的轻量化说话人自适应模型。本文提出一种基于VITS模型的轻量化说话人自适应模型AdaVITS。为了有效的减少VITS模型的参数和计算量,我们首先提出了一种基于逆傅立叶变换 (iSTFT) 的解码器以替代原始结构中计算量占比较大的上采样网络解码器;其次我们引入NanoFlow中的共享概率估计流 (flow) 模块替代原始的流模块,从而减少参数量;另外我们在文本编码器中引入线性注意力机制以代替原始的点积注意力从而降低计算量。为了提高VITS模型的稳定性,我们使用PPG特征作为中间语言学表征监督文本到谱特征的学习过程。实验表明,在说话人自适应任务上,AdaVITS可以生成稳定自然的语音,并且只有8.97M 的模型参数量和 0.72 GFlops的计算量。

论文Arxiv网址:

https://arxiv.org/abs/2206.00208

#6

The NPU-ASLP System for The ISCSLP 2022 Magichub Code-Swiching ASR Challenge

作者列表:梁宇颢,陈培坤,俞帆,朱新发,徐天翼,谢磊

论文摘要:本文描述了西工大ASLP实验室在ISCSLP2022中英混语音识别挑战赛上提交的系统方案。在这次竞赛中,我们首先探索了bi-encoder,language-aware encoder(LAE)与mixture of experts(MoE)等多种ASR模型结构以及训练策略。为了增强系统的语言建模能力,我们进一步尝试了internal language model (ILM)与long context language model (LCLM)。此外,我们使用了多种数据扩充方式包括变速、变调、音频编解码、语音合成来克服竞赛数据稀缺的问题。最后我们使用ROVER的方式融合了不同模型的识别结果。我们提交的系统在测试集上排名第二,实现了16.87%的MER。

论文Arxiv网址:

https://arxiv.org/abs/2210.14448

#7

TSUP Speaker Diarization System for Conversational Short-phrase Speaker Diarization Challenge

作者列表:庞博文,赵欢,张高升,杨啸悦,孙杨,张丽,王晴,谢磊

合作单位:传音控股

论文摘要:本文描述了西工大和传音控股合作队伍在ISCSLP 2022会话短句说话人日志(CSSD)竞赛中使用的方案。该竞赛重点关注短句对话场景,并采用了一种新的评价指标CDER。在这次竞赛中,我们探索了三种经典的说话人日志方案,分别是基于谱聚类(SC)系统、基于目标说话人检测(TS-VAD)的系统以及端到端系统。我们的主要结论总结如下。首先,在新的CDER指标下,基于谱聚类的传统方法比其他两种方法效果更好。其次,对于所有三种类型的说话人日志方案,调整超参对于CDER指标至关重要。比如当分割子段的长度设置得更长时,CDER会变得更小。最后,通过DOVER-LAP的多系统融合并没有取得更理想的结果。我们提交的系统最终在竞赛结果中排名第三。

论文Arxiv网址:

https://arxiv.org/abs/2210.14653

#8

The ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge (ICSRC):Dataset, Tracks, Baseline and Results

作者列表:张奥, 俞帆, 黄凯勋,谢磊, 王龙标, Eng Siong Chng, 卜辉, 张彬彬, 陈伟, 徐昕

合作单位:天津大学,南洋理工大学,希尔贝克,理想汽车,WeNet社区

论文摘要:本文总结了ISCSLP2022车载语音识别挑战赛(ICSRC)的产出。我们首先阐述了这个竞赛的必要性并介绍竞赛数据集。本次竞赛的数据集在新能源汽车上录制,覆盖智能座舱的声学场景和语音交互的语言特点。之后,我们介绍本次竞赛的赛道设置,本次竞赛分为模型大小受限和不受限两个赛道,分别对应车载端侧和云侧语音识别场景。最后我们总结竞赛的结果和提交系统所采用的主要方法。

论文Arxiv网址:

https://arxiv.org/abs/2211.01585

ISCSLP 2022 | NPU-ASLP实验室8篇论文被录用相关推荐

  1. ICASSP 2022丨希尔贝壳1篇论文被录用

    ICASSP(英文全称International Conference on Acoustics, Speech and Signal Processing)即国际声学.语音与信号处理会议,是全世界最 ...

  2. 小米AI实验室4篇论文入选语音技术顶会INTERSPEECH 2022

    滴滴--重磅消息新鲜出炉!!  全球语音领域顶级会议 INTERSPEECH 2022公布了论文入选名单,小米 AI 实验室4篇论文被接收.INTERSPEECH 是由国际语音通信协会ISCA组织的语 ...

  3. 小米AI实验室六篇论文获 ICASSP 2022收录,多模态语音唤醒挑战赛夺冠

    近日,全球语音.声学顶级会议ICASSP 2022公布了论文入选名单,小米AI实验室6篇学术论文被接收.同时,小米"自由说"系统在MISP(基于多模态信息的语音处理)挑战赛中荣获多 ...

  4. CVPR 2022 | 腾讯优图实验室30篇论文入选,含场景文本语义识别、3D人脸重建、目标检测、视频场景分割和视频插帧等领域...

    关注公众号,发现CV技术之美 本文转载自腾讯优图 近日,CVPR 2022官方公布了接收论文列表(CVPR 2022 接收论文公布! 总计2067篇!),来自腾讯优图实验室共计30篇论文被CVPR收录 ...

  5. 小米AI实验室六篇论文获ICASSP2022收录,多模态语音唤醒挑战赛夺冠

    1月22日,全球语音.声学顶级会议ICASSP 2022公布了论文入选名单,小米AI实验室6篇学术论文被接收.小米"自由说"系统在MISP(基于多模态信息的语音处理)挑战赛中荣获多 ...

  6. 2022年11月10篇论文推荐

    随着最大的人工智能研究会议(NeurIPS 2022)即将到来,我们进入了2022年的最后阶段.让我们回顾一下人工智能世界最近发生了什么. 在介绍推荐论文之前,先说一个很有意思的项目: img-to- ...

  7. AAAI 2023 | 腾讯优图实验室16篇论文入选,含多标签分类、姿态估计、目标检测、HOI、小样本学习等研究方向...

    关注并星标 从此不迷路 计算机视觉研究院 转自腾讯优图 近日,AAAI 2023(Association for the Advancement of Artificial Intelligence) ...

  8. 重磅!悉尼科大ReLER实验室13篇论文入选CVPR 2021

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文作者:Pablo   |  来源:知乎(已授权) https://zhuanlan.zhihu.com/ ...

  9. ICCV 2023 | 腾讯优图实验室16篇论文入选,含掌纹生成,人脸隐私保护,图像和谐化等研究方向...

    关注公众号,发现CV技术之美 本文转自腾讯优图实验室. 作为全球计算机领域顶级的学术会议之一,ICCV2023(International Conference on Computer Vision) ...

最新文章

  1. hssfworkbook 单元格合并后宽度不生效_Excel表格“假”合并,有多牛?
  2. IOS开发基础知识--碎片8
  3. 奥巴马:乔布斯改变我们每个人看世界的方式
  4. 总结开发Silverlight 注意事项
  5. mysql 命令 字符集_MySQL的字符集操作命令总结
  6. openstack排错
  7. 当要写验证性的代码时,利用git进行代码管理
  8. oom killer lmkd killer
  9. 远程桌面管理助手有哪些?11款最好的远程桌面软件推荐。
  10. 电阻元件、电感元件、电容元件
  11. 全球定位实景导航 iOS实用应用周排行
  12. 桌面图标白色大块异常恢复
  13. 商业智能BI与业务管理决策思维之三:业务质量分析
  14. 哈佛结构和冯诺伊曼结构
  15. Python:seaborn的散点图矩阵(Pairs Plots)可视化数据
  16. Reliable, Scalable, and Maintainable Applications 高可靠、易扩展、易运维应用
  17. Springboot旅游管理系统 08841计算机毕业设计-课程设计-期末作业-毕设程序代做
  18. sensei鼠标测试软件,「硬核测试:游戏鼠标精准度」赛睿SENSEI 310
  19. sublime3 一直用的好好,sftp同步文件时忽然提示encoding error,Validating remote folder “/var” failure (Encoding error)
  20. 软件测试课堂作业+期末整理【超实用】

热门文章

  1. Vue源码之计算属性watcher
  2. 1688关键词搜索api(附可用)
  3. 【操作系统实验】各种幺蛾子
  4. Python爬虫技巧一之设置ADSL拨号服务器代理
  5. armbian linux装AdGuard Home 广告拦截反追踪
  6. 【2020版冲刺年薪30W】超全大数据学习路线+思维导图
  7. Spring面试专题
  8. 201421440018王坤的作业一
  9. Layui提示说明弹框
  10. python+scrapy爬取斗鱼图片