系统调研450篇文献，微软亚洲研究院推出超详尽语音合成综述

（本文阅读时间：10 分钟）

编者按：语音合成一直以来是语言、语音、深度学习及人工智能等领域的热门研究方向，受到了学术界和工业界广泛的关注。尽管语音合成技术的研究已有几十年的历史，基于神经网络的语音合成技术也有近十年历史，且已产出了大量的优质研究成果，但针对神经语音合成不同研究方向的整合型综述论文却十分匮乏。近日，微软亚洲研究院的研究员们通过调研了450余篇语音合成领域的文献，发表了迄今为止语音合成领域几乎最详尽的综述论文 “A Survey on Neural Speech Synthesis”。在文中，研究员们还整理收集了语音合成领域的相关资源如数据集、开源实现、演讲教程等，同时也对语音合成领域未来的研究方向进行了探讨和展望。希望本文能对相关工作的研究人员提供具有价值的参考。

文本到语音合成旨在从文本合成高可懂度和自然度的语音，很久以来一直是语言、语音、深度学习、人工智能等领域热门的研究方向，受到了学术界和工业界的广泛关注。近年来，随着深度学习的发展，基于神经网络的语音合成极大地提高了合成语音的质量。尽管语音合成技术的研究已有几十年的历史，基于神经网络的语音合成技术也有近十年的发展，领域内产出了大量的优质研究成果，但针对不同研究方向的整合型综述论文却十分匮乏。

因此，微软亚洲研究院的研究员们发表了一篇综述论文 “A Survey on Neural Speech Synthesis”，全面梳理、总结了神经语音合成领域的发展现状以及未来发展方向。该文章可谓是迄今为止语音合成领域几乎最为详尽的综述论文。研究员们共调研了450多篇文献，分别从语音合成的核心模块（文本分析、声学模型、声码器）以及进阶主题（快速语音合成、低资源语音合成、鲁棒语音合成、富有表现力的语音合成、可适配语音合成）两大方面对该领域的工作进行了梳理总结。同时，研究员们还收集了语音合成领域的相关资源（数据集、开源实现、演讲教程等）并且讨论了未来研究方向。

论文链接：https://arxiv.org/pdf/2106.15561.pdf

论文从两个方面对神经语音合成领域的发展现状进行了梳理总结（逻辑框架如图1所示）：

核心模块：分别从文本分析（textanalysis）、声学模型（acoustic model）、声码器（vocoder）、完全端到端模型（fully end-to-end model）等方面进行介绍。
进阶主题：分别从快速语音合成（fast TTS）、低资源语音合成（low-resourceTTS）、鲁棒语音合成（robust TTS）、富有表现力的语音合成（expressive TTS）、可适配语音合成（adaptive TTS）等方面进行介绍。

图1：论文逻辑框架

TTS 核心模块

研究员们根据神经语音合成系统的核心模块提出了一个分类体系。每个模块分别对应特定的数据转换流程：

1）文本分析模块将文本字符转换成音素或语言学特征；

2）声学模型将语言学特征、音素或字符序列转换成声学特征；

3）声码器将语言学特征或声学特征转换成语音波形；

4）完全端到端模型将字符或音素序列转换成语音波形。

图2：（a）TTS核心框架，（b）数据转换流程

文本分析

文章总结了文本分析模块几个常见的任务，包括文本归一化、分词、词性标注、韵律预测、字形转音形以及多音字消歧等。

表1：文本分析模块中的常见任务

声学模型

在声学模型部分，文章首先简要介绍了在统计参数合成里用到的基于神经网络的声学模型，然后重点介绍了端到端模型的神经声学模型，包括基于 RNN、CNN 和Transformer 的声学模型以及其它基于 Flow、GAN、VAE、Diffusion 的声学模型。

表2：不同声学模型及其特征

声码器

声码器的发展分为两个阶段，包括传统参数合成里的声码器如 STRAIGHT和 WORLD，以及基于神经网络的声码器。论文重点介绍了基于神经网络的声码器，并把相关工作分为以下几类，包括：

1）自回归声码器（WaveNet，SampleRNN，WaveRNN，LPCNet 等）；

2）基于 Flow 的声码器（WaveGlow，FloWaveNet，WaveFlow，Par. WaveNet 等）；

3）基于 GAN 的声码器（WaveGAN，GAN-TTS，MelGAN，Par. WaveGAN，HiFi-GAN，VocGAN，GED，Fre-GAN 等）；

4）基于 VAE 的声码器（WaveVAE等）；

5）基于 Diffusion 的声码器（DiffWave，WaveGrad，PriorGrad 等）。

表3：不同声码器及其特征

本文还针对基于 Flow 和 GAN 的声码器做了详细分析，如表4和表5所示。

表4：基于Flow的声码器

表5：基于GAN的声码器

最后研究员们还统一分析、比较了基于不同生成模型的声码器的优缺点，如表6所示。

表6：基于不同生成模型的声码器分析结果

完全端到端模型

端到端模型的发展经历了以下几个阶段：

阶段0：在统计参数合成方法中，使用文本分析、声学模型和声码器三个模块级联；

阶段1：在统计参数合成方法中，将前两个模块合起来形成一个声学模型；

阶段2：直接从语言学特征生成最终的波形，例如 WaveNet；

阶段3：声学模型直接从字符或音素生成声学模型，然后利用神经声码器生成波形；

阶段4：完全端到端的神经网络模型。

图3：端到端模型发展过程

其它分类体系

除了上述按照 TTS 模型的核心模块进行分类的方法，论文中还有从其它角度对 TTS 模型进行分类的方法，如图4所示，包括：1）自回归 vs 非自回归；2）生成模型的类型；3）网络结构的类型。

图4：从其它角度对TTS模型进行分类

同时，本文还绘制了相关 TTS 工作随着时间变化的关系图，方便读者更直观地理解各个 TTS 模型及其在 TTS 发展中的位置。

图5：相关 TTS 工作随时间演化的关系图

TTS 进阶课题

研究员们还针对 TTS 面临的各种挑战，介绍了相关的进阶课题，包括快速语音合成（fast TTS）、低资源语音合成（low-resource TTS）、鲁棒语音合成（robust TTS）、富有表现力的语音合成（expressive TTS）、可适配语音合成（adaptive TTS）等。

图6：TTS 相关的进阶课题

快速语音合成

为了实现快速语音合成，常用的技术一般有以下几种：1）并行生成；2）轻量级模型设计；3）利用领域知识进行加速。其中，并行生成技术的分类以及相关工作可见表7。

表7：并行生成技术的分类以及相关工作

低资源语音合成

低资源语音合成相关技术以及相关工作，如表8所示。

表8：低资源语音合成相关技术以及相关工作

鲁棒语音合成

鲁棒语音合成相关技术分类，可见表9。

表9：鲁棒语音合成相关技术分类

富有表现力的语音合成

富有表现力的语音合成的关键在于对可变信息的建模，表10从不同角度总结了可变信息建模的相关工作。

表10：富有表现力的语音合成

可适配语音合成

可适配语音合成相关的技术分类见表11。

表11：可适配语音合成

最后，研究员们还收集了 TTS 领域相关的资源，包括开源代码、TTS 教程、公开比赛以及数据集等。同时，文章也指出了 TTS 领域的潜在研究挑战，并且根据 TTS 要实现的最终远景和目标，将其分为两个大方向：高质量的语音合成以及高效率的语音合成。

在高质量的语音合成方面，包括以下研究课题：更加强大的生成模型，更好的面向文本和语音的表征学习，鲁棒的语音合成，富有表现力/可控/风格可迁移的语音合成，更符合人类表达风格的语音合成。在更高效的语音合成方面，包括在数据、模型参数、计算等方面设计更高效、利用资源更少的语音合成系统。

研究员们希望这篇综述论文能对语音合成领域的相关工作人员提供有价值的参考，也希望这个领域的同行能提供意见和建议，一起共同维护、更新这篇综述论文。欢迎将反馈提交到 GitHub 页面 https://github.com/tts-tutorial/survey 或者发邮件至 xuta@microsoft.com。

系统调研450篇文献，微软亚洲研究院推出超详尽语音合成综述相关推荐

预见未来: 微软亚洲研究院看下一个二十年
(上图为微软全球资深副总裁.微软亚太研发集团主席.微软亚洲研究院院长洪小文) 2018年11月8日,微软亚洲研究院迎来了二十周年庆典.1998年11月,微软亚洲研究院正式在北京成立,是微软设在美国本土 ...
NeurIPS 2020 | 微软亚洲研究院论文摘录之目标检测篇
编者按:12月6日至12日,国际人工智能顶级会议 NeurIPS 2020(Conference and Workshop on Neural Information Processing Syste ...
AAAI 2020 | 微软亚洲研究院6篇精选论文在家看
点击我爱计算机视觉标星,更快获取CVML新技术编者按:AAAI 2020 明天将在纽约开幕,然而这次的情况有些许不同,许多国内的小伙伴因疫情影响无法到现场参加会议.各位小伙伴在家中做好日常防护的同时 ...
NeurlPS 2019丨微软亚洲研究院 5 篇精选论文解读
点击我爱计算机视觉标星,更快获取CVML新技术编者按:NeurlPS 2019 正于12月8-14日在加拿大温哥华举行.微软亚洲研究院有11篇论文入选本届 NeurlPS,内容涵盖社交网络影响力最大 ...
NeurIPS 2020 | 微软亚洲研究院论文摘录之强化学习GAN篇
编者按:12月6日至12日,国际人工智能顶级会议 NeurIPS 2020 在线上举办.相比前几年,NeurIPS2020 无论是论文的投稿数量还是接收率都创下了记录:论文投稿数量创历史最高记录,相比 ...
CVPR 2019 | 微软亚洲研究院 7 篇精选论文解读
点击我爱计算机视觉标星,更快获取CVML新技术编者按:计算机视觉顶会CVPR 2019于6月15-21日在加州长滩举行.微软亚洲研究院共有21篇论文入选本届CVPR,覆盖了姿态估计.对象检测.目标跟 ...
华裔计算机科学家晟,微软亚洲研究院发表了超过5000篇科研论文:晟最受赞许的企业研究院游戏电脑问题解决分享！...
11月22日消息今天下面是文章全文: 最近,我在北京与洪小文博士一起参加了微软亚洲研究院(MSRA)建院二十周年庆典.洪小文博士作为微软亚洲研究院的院长,在过去十多年中带领微软亚洲研究院创造了令人 ...
微软亚洲研究院（MSRA）副院长周明：未来5-10年，NLP将走向成熟
近日,微软亚洲研究院(MSRA)副院长周明在「自然语言处理前沿技术分享会」上,与大家讲解了自然语言处理(NLP)的最新进展,以及未来的研究方向,以下内容由CSDN记者根据周明博士的演讲内容编写,略有删 ...
微软亚洲研究院副院长刘铁岩：以计算之矛攻新冠之盾
智源导读:新冠肆虐以来,全世界众多计算机科学家都在研究利用计算机模拟新冠传播,制定防控策略,其中SEIR模型作为常用的流行病预测模型,被广泛讨论.微软亚洲研究院副院长刘铁岩近期在北京智源大会上发表了题 ...

系统调研450篇文献，微软亚洲研究院推出超详尽语音合成综述

系统调研450篇文献，微软亚洲研究院推出超详尽语音合成综述相关推荐

最新文章

热门文章