ISCSLP 2022 | NPU-ASLP实验室8篇论文被录用

作为语音处理技术领域的旗舰国际会议，ISCSLP2022（International Symposium on Chinese Spoken Language Processing）将于12月11-14日在新加坡举办。

西工大音频语音与语言处理研究组(ASLP@NPU)本届会议将携合作伙伴宣读论文8篇，涉及智能语音处理领域的众多研究方向，包括语音识别、说话人日志、语音合成、语音转换等。论文的合作单位包括：腾讯、美团、传音控股、马上金融等。此外在本届会议上，实验室联合希尔贝壳、天津大学、南洋理工大学、WeNet开源社区、理想汽车等多家单位成功举办智能座舱语音识别挑战赛(ICSRC)。值得一提的是，实验室参赛队获得中英混语音识别挑战赛(CSASR)第二名，同时实验室与传音控股合作获得对话短语音说话人日志挑战赛(CSSD)第三名的优异成绩。以下是本届会议发表论文的相关信息。

#1

AccentSpeech: Learning Accent from Crowd-sourced Data for Target Speaker TTS with Accents

作者列表：张雍茂，王智超，杨培基，孙闳绅，王智圣，谢磊

合作单位：腾讯IEG

论文摘要：从众包数据中学习口音来让目标说话人带有口音是一种可行的构建带口音语音合成系统的途径。为了实现这个目的，有两个具有挑战性的问题需要解决。第一，如果直接使用质量较低的众包口音数据和目标说话人的高质量非口音数据来训练口音迁移模型会导致合成质量明显低于目标说话人的原始数据。为了缓解这个问题，我们采用以神经网络瓶颈特征（BN）为中间特征的语音合成方案，将语音合成的声学模型分为Text-to-BN（T2BN）和BN-to-Mel（BN2Mel）来分别建模口音和目标说话人音色，同时基于神经网络提取的BN具有噪声鲁棒性。第二，如果直接使用众包数据训练上述两段式模型将会导致目标说话人的发音韵律较差，这是由于众包数据都是由非专业播音的普通人提供的。为了解决这个问题，我们将两段式的模型更新为三段式模型，使用目标说话人的高质量数据训练上述T2BN和BN2Mel模块，并在两个模块中间加入一个BN-to-BN（BN2BN）模块来进行口音迁移任务。我们通过数据扩充的方式生成了非口音的BN和带有口音的BN平行数据来训练BN2BN模块。最终，我们提出的三段式模型实现了合成目标说话人的带口音的语音，因为合成语音的韵律是从专业播音的目标说话人数据中学习的，所以最终语音的发音韵律较好。我们提出的AccentSpeech的效果在中文口音迁移任务上得到了验证。

论文Arxiv网址：

https://arxiv.org/abs/2210.17305

#2

End-to-End Voice Conversion with Information Perturbation

作者列表：谢启聪，阳珊，雷怡，谢磊，苏丹

合作单位：腾讯TEG

论文摘要：语音转换的目标是将源语音中的音色转换目标说话人音色，同时保持源语音中的内容信息不变。然而，目前的方法在说话人相似度和韵律方面有所欠缺，而且由于声学模型和声码器之间的特征不匹配的问题，导致了的转换语音质量的下降。本文利用信息扰动的方式，提出一种完全端到端的方法来进行高质量的语音转换。首先采用信息扰动来去除源语音中与说话人相关的信息，以解耦说话人的音色信息和语言内容信息。为了更好地将源语音的韵律转移到目标语音上，本文引入了说话人相关的韵律编码器，来保持和源说话人的一致的韵律模式。通过直接对语音样点进行建模提升音质，避免了借助梅尔谱的中间表征而带来的声学模型和声码器之间的特征不匹配的问题。最后，通过连续的说话人空间建模，使模型能够实现Zero Shot的语音转换。实验结果表明，所提出的端到端方法在可懂度、自然度和说话人相似度方面明显优于其他对比模型。

论文Arxiv网址：

https://arxiv.org/abs/2206.07569

#3

Multi-speaker Multi-style Text-to-speech Synthesis with Single-speaker Single-style Training Data Scenarios

作者列表：谢启聪，李涛，王新升，王智超，谢磊，虞国桥，万广鲁

合作单位：美团

论文摘要：语音合成的风格迁移主要让说话人合成该说话人本不具有的风格的语音，比如，让普通说话人合成故事、新闻、广播、朗读等等风格语音。为了使合成系统能够学习风格信息，以往的研究所使用的语料是一位说话人要具备多种风格的语料，这将对说话人提出较高的要求。本文为了解决以上的问题，设计了单人单风格场景下的风格迁移方案，训练语料的每位说话人只要具备一种风格即可。同时本文对音素级别的细粒度韵律进行控制，从而更容易实现对风格强度进行控制。

论文Arxiv网址：

https://arxiv.org/abs/2112.12743

#4

Robust MelGAN: A robust universal neural vocoder for high-fidelity TTS

作者列表：宋堃，从坚，王新升，张雍茂，谢磊，蒋宁，吴海英

合作单位：马上金融

论文摘要：在当前主流的两段式TTS框架中，理想情况是拥有一个通用声码器，其只需要训练一次而不需要对目标数据进行微调，并对声学模型生成的mel谱具备鲁棒性。基于此目的，我们在multi-band MelGAN的基础上作出改进，提出Robust MelGAN模型，缓解multi-band MelGAN在对接声学模型生成的Mel谱而产生的电音问题，并提高了其泛化能力。首先，我们在生成器中引入了细粒度的网络dropout策略，通过将语音信号中的周期和非周期成分分离并对非周期成分施加网络dropout策略，避免电音的同时保证了稳定的音色相似度。为了提高模型的泛化能力，我们使用了多种数据增强方法以扩充判别器中的虚假数据，包括谐波偏移、谐波噪声和相位噪声。实验表明，Robust MelGAN作为通用声码器，可以适配基于多种数据训练的声学模型，保持了良好的音质。

论文Arxiv网址：

https://arxiv.org/abs/2210.17349

#5

AdaVITS: Tiny VITS for Low Computing Resource Speaker Adaptation

作者列表：宋堃，薛鹤洋，王新升，从坚，张雍茂，谢磊，杨兵，张雄，苏丹

合作单位：腾讯CSIG

论文摘要：说话人自适应任务旨在预训练的TTS模型上使用少量的目标说话人数据进行自适应而获得目标说话人的TTS系统。在这一任务上已经有很多相关工作，但是很少有针对于低计算资源场景的轻量化说话人自适应模型。本文提出一种基于VITS模型的轻量化说话人自适应模型AdaVITS。为了有效的减少VITS模型的参数和计算量，我们首先提出了一种基于逆傅立叶变换 (iSTFT) 的解码器以替代原始结构中计算量占比较大的上采样网络解码器；其次我们引入NanoFlow中的共享概率估计流 (flow) 模块替代原始的流模块，从而减少参数量；另外我们在文本编码器中引入线性注意力机制以代替原始的点积注意力从而降低计算量。为了提高VITS模型的稳定性，我们使用PPG特征作为中间语言学表征监督文本到谱特征的学习过程。实验表明，在说话人自适应任务上，AdaVITS可以生成稳定自然的语音，并且只有8.97M 的模型参数量和 0.72 GFlops的计算量。

论文Arxiv网址：

https://arxiv.org/abs/2206.00208

#6

The NPU-ASLP System for The ISCSLP 2022 Magichub Code-Swiching ASR Challenge

作者列表：梁宇颢，陈培坤，俞帆，朱新发，徐天翼，谢磊

论文摘要：本文描述了西工大ASLP实验室在ISCSLP2022中英混语音识别挑战赛上提交的系统方案。在这次竞赛中，我们首先探索了bi-encoder，language-aware encoder(LAE)与mixture of experts(MoE)等多种ASR模型结构以及训练策略。为了增强系统的语言建模能力，我们进一步尝试了internal language model (ILM)与long context language model (LCLM)。此外，我们使用了多种数据扩充方式包括变速、变调、音频编解码、语音合成来克服竞赛数据稀缺的问题。最后我们使用ROVER的方式融合了不同模型的识别结果。我们提交的系统在测试集上排名第二，实现了16.87%的MER。

论文Arxiv网址：

https://arxiv.org/abs/2210.14448

#7

TSUP Speaker Diarization System for Conversational Short-phrase Speaker Diarization Challenge

作者列表：庞博文，赵欢，张高升，杨啸悦，孙杨，张丽，王晴，谢磊

合作单位：传音控股

论文摘要：本文描述了西工大和传音控股合作队伍在ISCSLP 2022会话短句说话人日志（CSSD）竞赛中使用的方案。该竞赛重点关注短句对话场景，并采用了一种新的评价指标CDER。在这次竞赛中，我们探索了三种经典的说话人日志方案，分别是基于谱聚类（SC）系统、基于目标说话人检测（TS-VAD）的系统以及端到端系统。我们的主要结论总结如下。首先，在新的CDER指标下，基于谱聚类的传统方法比其他两种方法效果更好。其次，对于所有三种类型的说话人日志方案，调整超参对于CDER指标至关重要。比如当分割子段的长度设置得更长时，CDER会变得更小。最后，通过DOVER-LAP的多系统融合并没有取得更理想的结果。我们提交的系统最终在竞赛结果中排名第三。

论文Arxiv网址：

https://arxiv.org/abs/2210.14653

#8

The ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge (ICSRC):Dataset, Tracks, Baseline and Results

作者列表：张奥，俞帆，黄凯勋，谢磊，王龙标， Eng Siong Chng，卜辉，张彬彬，陈伟，徐昕

合作单位：天津大学，南洋理工大学，希尔贝克，理想汽车，WeNet社区

论文摘要：本文总结了ISCSLP2022车载语音识别挑战赛（ICSRC）的产出。我们首先阐述了这个竞赛的必要性并介绍竞赛数据集。本次竞赛的数据集在新能源汽车上录制，覆盖智能座舱的声学场景和语音交互的语言特点。之后，我们介绍本次竞赛的赛道设置，本次竞赛分为模型大小受限和不受限两个赛道，分别对应车载端侧和云侧语音识别场景。最后我们总结竞赛的结果和提交系统所采用的主要方法。

论文Arxiv网址：

https://arxiv.org/abs/2211.01585