0. 题目

LIGHTSPEECH: LIGHTWEIGHT NON-AUTOREGRESSIVE MULTI-SPEAKER TEXT-TO-SPEECH

轻量思必驰：轻量，非自回归的多说话者文本到语音

1. 摘要

随着深度学习的发展，端到端的神经文本语音转换系统在高质量语音合成方面取得了显着进步。但是，这些系统大多数都是基于注意力的自回归模型，导致合成速度较慢且模型参数较大。在本文中，我们提出了一种名为LightSpeech的新型轻量级非自回归多说话人语音合成系统，该系统利用轻量级前馈神经网络来加速合成并减少参数数量。通过嵌入多说话人向量，LightSpeech可以非常快速地实现多扬声器语音合成。在LibriTTS数据集上进行的实验表明，与FastSpeech相比，我们最小的LightSpeech模型在CPU上实现了9.27倍Mel谱图生成加速，并且模型大小和参数分别压缩了37.06x和37.36x

关键词: End-to-end, multi-speaker speech synthesis, non-autoregressive, lightweight neural network

端到端，多说话人语音合成，非自回归轻量级神经网络

2. 简介

近年来，端到端的文本语音转换（TTS）系统已经超越了传统的多级手动工程系统，简化了系统流程并提供了高质量的合成语音。与传统的统计参数语音合成[1-5]相比，端到端TTS [6-11]直接通过纯神经网络学习文本到语音的映射，而无需复杂的文本前端处理和各种语言功能提取和广泛的领域专业知识。但是，当前主流的端到端TTS系统大多采用各种注意机制来隐式学习文本到语音的对齐方式，这会带来很大的计算成本。同时，在这些系统中使用自回归生成方式，这要求在前一个时间步中生成的语音帧作为后一个时间步的输入，从而使这些系统存在训练效率低的问题，不能并行合成语音

为了加速端到端语音合成，研究人员提出了一系列注意机制的替代方法，用于学习文本到语音的对齐方式以及自回归生成方式。 Durian [12]使用在语音识别中广泛使用的强制对齐来获得文本和语音之间的对齐，因此不再需要注意机制。但是Durian仍然使用自回归生成方式来生成语音。非自回归架构首先在ParaNet [13]中采用，以并行生成语音，但是它仍然需要注意机制来学习文本和语音之间的对齐方式。上述两个TTS系统还没有完全放弃注意力机制（用于获得对齐）和自回归生成方式，从而限制了语音合成速度的提高。最近，一个名为FastSpeech [14]的新系统从预先训练的自回归Transformer TTS [8]模型的注意力比对矩阵中提取音素持续时间序列，以训练持续时间预测因子，因此无需注意机制来学习文本-语音对齐。另外，FastSpeech中采用了前馈Transformer结构来并行合成语音，从而大大加快了语音合成速度

尽管FastSpeech的前馈Transformer结构加快了语音合成的速度，但自注意力层的计算复杂度却是输入要素长度的平方，这需要大量的内存。在本文中，我们提出了一种新的轻量级非自回归语音合成系统，名为LightSpeech，它可以降低计算复杂度和模型参数。在LightSpeech中使用卷积神经网络来实现上述目的。然而，常规卷积网络结构的参数和计算复杂度仍然相对较大。与常规卷积网络结构相比，深度卷积[15]通过在每个通道上独立卷积来减少参数数量，并使计算复杂度呈线性。为了进一步减少LightSpeech的参数，采用了轻量级的[16]和动态卷积[16]的体系结构。基于深度卷积，它们通过在组之间共享卷积核的权重来减少参数。动态卷积是轻型卷积的一种变体，它可以在每个时间步长通过附加的线性层动态预测卷积权重。与自我注意不同，这些卷积结构仅关注有限的上下文，这可能会降低模型性能。有鉴于此，我们考虑使用卷积和自注意分别提取局部和全局特征，并将其融合以提高模型表征能力

近年来，多说话人表达语音合成一直是研究的热点[17-22]。但是，这些体系结构仍基于自回归Tacotron2 [7]模型进行设计，因此语音合成速度较慢。我们的LightSpeech旨在以非自回归的方式快速合成多说话人语音。对于训练数据集中看不见的说话者，可以使用端到端TTS模型以零镜头方式通过只使用说话者嵌入来适应目标说话者的声音，而无需微调整个模型。因此，我们将x-vector [23]（一种高级的说话人表征方法）引入了我们针对多说话人TTS的LightSpeech中。另外，不同说话人的语音音调被用作附加的韵律信息来合成表达性语音

通常具有更好性能的神经网络模型具有较大的参数，这会导致巨大的计算量和内存消耗。因此，为了减少参数数量并使模型能够部署在资源较少的设备（例如嵌入式系统）中，轻型神经网络的设计至关重要。在本文中，我们使用知识蒸馏技术来压缩LightSpeech，并具有良好的性能。据我们所知，这是用于语音合成模型的轻量级神经网络的第一个实现。轻量级的网络架构使我们的LightSpeech可以轻松地部署在移动设备中，因此语音合成不仅限于云

3. 其他-容易懂

首先, 采用表达力强的多说话者教师模型. 用教师模型来指导LightSpeech. LightSpeech是为了并行生成目标mel-光谱并压缩模型参数，我们设计了的轻量级前馈结构. 她无需注意机制来学习文本到语音的对齐方式

此外，为了减轻由不稳定和不正确的对齐方式引起的音素或单词重复，跳过和错误发音，引入了端到端自动语音识别（ASR）模型作为辅助约束，从生成的mel重构输入文本光谱，以获得更精确的对准

X向量是一种先进的说话人表征方法通过时延神经网络（TDNN）提取说话人嵌入[25]，并且不同的说话人嵌入代表不同的说话人。我们将x向量引入我们的教师模型中，以实现多说话者语音合成。具体来说，为了消除x向量携带的文本信息，我们使用与文本无关的训练策略来训练TDNNs模型。然后，我们将x矢量与每个编码器输出串联在一起作为附加条件，以控制解码器生成不同扬声器的语音

实际上，不同说话者的语音带有不同的节奏信息。固定长度的向量（例如x向量）不足以同时建模说话者和节奏信息。为了进一步分解说话者和节奏信息，因此x矢量仅用作判断不同说话者而不控制不同节奏的条件。受到Mellotron [26]的启发，我们通过一个由一维卷积层组成的音调预网提取不同语音的音调并获得高级音调特征，然后将音调特征与在传递到PostNet之前的每个解码时间步长，以控制不同的节奏

轻量级卷积（LC）和动态卷积（DC）通过深度卷积和组卷积减少了参数数量，允许并行计算不同的特征通道，从而导致线性计算复杂性

4. 其他-不容易懂

K是轻量级内核的大小卷积，d是词嵌入的维数，H是组数。轻量级卷积将嵌入的输入句子沿通道维度划分为不同的组，并且不同的颜色表示不同的组。同一组的权重在组卷积中共享，并且每个组可以并行计算，从而可以有效地减少模型参数。在组卷积的基础上，轻量级卷积在每个组中引入深度卷积，从而可以并行计算同一组内的不同通道，从而进一步降低了参数和计算复杂度

动态卷积继承了轻量级卷积的所有优点，并基于当前输入的每个单词的嵌入来动态预测每个卷积核的权重。卷积核权重的这种动态预测类似于自我注意（SA）中注意分数的生成，只是有限数量的上下文集中在动态卷积中

我们提出的LightSpeech继承了FastSpeech的所有优点，包括快速的语音合成速度，所生成语音的可控性以及很少的跳字问题。 LightSpeech的结构如图3所示。 LightSpeech的编码器和解码器是通过堆叠我们的Lightweight前馈块形成的。鉴于Transformer的出色性能，我们的轻量级前馈网络模块是基于Transformer的编码器进行修改的。为了降低计算复杂度和模型参数，设计了两种前馈网络体系结构。第一个方法是使用轻量级卷积或动态卷积完全替代自我注意力，但是由于卷积仅关注有限的上下文，因此该体系结构可能会降低合成语音的质量。另一个首先将输入文本特征通道分为两部分，以简化计算，然后使用轻量级卷积或动态卷积提取局部上下文，并使用自注意力提取全局上下文，最后融合它们。由于特征通道上的掩码操作，此处的自注意力计算量也减少了，并且该体系结构（DC-SA，LC-SA）可以融合局部和全局上下文信息，以提高模型的表示能力。另外，为了进一步减少参数，我们在上述结构中用深度卷积和群卷积替换了Transformer结构中的前馈网络。此外，在LightSpeech中引入了持续时间预测网络以预测每个字符的持续时间，该网络用于通过长度调节器将编码器输出扩展到与mel频谱相同的长度，而无需注意机制来学习文本到文本。语音对齐

序列级知识蒸馏

SLT2021: LIGHTSPEECH: LIGHTWEIGHT NON-AUTOREGRESSIVE MULTI-SPEAKER TEXT-TO-SPEECH相关推荐

语音合成（TTS）论文优选：过平滑问题分析及优化Revisiting Over-Smoothness in Text to Speech
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
Windows phone 应用开发[1]-Text To Speech
最近几个月一直在专注Windows phone产品设计和项目开发.在其中团队磨合和产品定位上也出现不少问题.一直难以抽出成块的时间来思考梳理.至此博客更新也从此中断.这两天因病在家休息.上周在微博[F ...
微软文本转语音小工具（Text to speech）网页版
之前在52破解上看到有人发布了一个文本转语音的小软件,使用微软提供的免费的文本转语音接口,自己闲着没事做了一个网页版的,用php调用微软接口生成语音.感兴趣的同学可以看下. 地址:www.text-t ...
Revisiting Over-Smoothness in Text to Speech
ACL2022 Ren yi 文章目录 abstract 多峰问题证明数据简化模型建模附录 Fastspeech2+Gan abstract 非自回归TTS的生成结果有over-smooth的问 ...
人工智能的嘴巴——语音合成（Text to Speech | TTS）
本文首发在--easyAI--人工智能知识库小白版本语音合成就是让机器模仿人类说话.即输入一段文字,最终输出一段语音. 做个比较,当机器的"脑子"里想到了一段内容时,或者是看到 ...
【转载】开源且免费软件包分类列表
2019独角兽企业重金招聘Python工程师标准>>> 转载自:http://my.oschina.net/u/617889/blog/86688 This is a list of ...
java开源tts_开源TTS（Text To Speah）的选择和使用
TTS是Text To Speech的缩写,即"从文本到语音",是人机对话的一部分,让机器能够说话. TTS是语音合成应用的一种,它将文件内容或应用上的文字等,如应用菜单或者网页, ...
END-TO-END DNN BASED SPEAKER RECOGNITION INSPIRED BY I-VECTOR AND PLDA
END-TO-END DNN BASED SPEAKER RECOGNITION INSPIRED BY I-VECTOR AND PLDA Johan Rohdin, Anna Silnova, M ...
【论文学习】ASVspoof 2015 the First Automatic Speaker Verification Spoofing and Countermeasures Challenge
<ASVspoof 2015: the First Automatic Speaker Verification Spoofing and Countermeasures Challenge&g ...
使用 JavaScript 进行单词发音 Use JavaScript to Speech Your Text
在w3c草案中增加了对Web Speech Api的支持;主要作用在两个非常重要的方面: 语音识别 (将所说的转换成文本文字 / speech to text); 语音合成 (将文本文字读出来 / ...

SLT2021: LIGHTSPEECH: LIGHTWEIGHT NON-AUTOREGRESSIVE MULTI-SPEAKER TEXT-TO-SPEECH