TACOTRON-端到端的语音合成模型

1 简介

本文根据2017年《TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS》翻译总结的。如题所述，是一个端到端的语音合成模型。

一个文本到语音的合成系统通常包括多个步骤，包括文本分析、声学模型、声音合成模块等。建立这些单元通常需要广泛的专业领域知识，可能包含脆弱的设计选择。本文，我们呈现了一个端到端的生成模型TACOTRON，直接从文本字符生成语音。给定<text,audio（声音）>，模型可以直接完全训练。

另外，一个单独的端到端模型会比多步骤模型更加健壮，多步骤模型的每个单元错误可能复合。

2 相关工作

WaveNet 是一个非常好的语音合成模型，但它比较慢，因为其样本水平的自回归特性。同时其再TTS前，需要语言特征的条件，所以不太是端到端的。

3 模型结构

如下图，由左边部分的encoder、中间部分的decoder、后处理网络和波形生成构成。

3.1 CBHG

CBHG是从文本序列中提取表达信息，灵感来源于机器翻译。如上图，包括一组（bank）1-D卷积过滤器、highway layers、和bidirectional gated recurrent unit (GRU) (Chung et al., 2014) recurrent neural net (RNN)。highway layers提高高级别的特征。GRU RNN从两个方向（向前与向后）提取序列特征。

3.2 Encoder

Encoder是用来提取健壮的连续的文本表达。Encoder的输入是一个字符序列，其中每个字符用一个one-hot编码表达，然后embed到一个连续向量。然后应用一组非线性转换（我们陈为pre-net）到每个embedding。我们采用带有dropout的 bottleneck layer作为pre-net，这有助于收敛和提高泛化。CBHG将pre-net的输出转换为最终的encoder输出。

我们发现CBHG-based encoder 不仅减少了过拟合，而且比标准的多层RNN encoder产生较少的发音错误。

3.3 Decoder

我们使用content-based tanh attention decoder。使用了一系列带有垂直残差连接的GRU，有助于收敛。在每一个decoder步骤，预测多个、非重叠的输出frame。第一个decoder步骤是基于 frame.

3.4 POST-PROCESSING NET AND WAVEFORM SYNTHESIS

post-processing net将seq2seq的输出转换为可以合成声音波形的spectrogram。使用CBHG作为post-processing net。

我们采用Griffin-Lim算法将spectrogram合成声音波形。

4 实验结果

可以看到tacotron比parametric的方法表现较好。Tacotron是端到端的方法。