Expressive TTS 相关论文阶段性总结

从三月末定了TTS情感方向(Expressive TTS)之后，便把大多数的注意力放在了看相关方面的论文，趁着今天周末忙里偷闲，顺便把几周摸的鱼收一收网，总结上大概按照时间线方式进行
（论文前的标记代表作者，时间和技术手段）。

0.首先感谢一下网络上各路大神的笔记和博客，拾前人牙慧实打实使我避免走了很多弯路，因为有先驱者的笔耕不辍，才会使后继者前进的道路更加清晰

知乎的星辰漫游者，wx公众号的低调奋进，还有CSDN的赫凯|林林宋，B站的数学家是我理想等等

1.GST—2017年 Yuxuan Wang《Uncovering Latent Style Factors for Expressive Speech Synthesis》

既然要提到情感TTS，首先就是王宇轩大佬在GST(global style token)还未提出时发表的一篇论文
paper的中心想法就是从tacotron的基础上引入了风格标记(style token)来捕获潜在的韵律变化，而韵律的学习是在纯数据驱动的方式下进行的。相比于传统模型只在声学模型中捕捉信息，paper中可以在整个模型中捕捉这些潜在的因素。
其次，风格标记是从一个注意机制中计算出来的，它有助于学习一组相互独立的韵律特征，然后可以根据用户的需要灵活地进行组合从而合成出不同情感的语音。(这里的相互独立只是一个相对泛泛的概念，近些年的论文开始对Decoupling解耦合方法提出了更多的方法)

2.GST—2018年 Yuxuan Wang《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》

在这一篇paper中，王大佬正式提出了GST的概念，提出了Reference encoder对变长的音频信号进行压缩到定长向量，然后送入style token layer作注意力机制，但是这里attention的作用是学习Reference encoder输出的定长向量和随机初始化的style token的相似度，最后使用其学习到的权重和作为学习到的style embedding作为文本训练的辅助向量参与训练。
优点是reference encoder的损失从tacotron损失驱动，且不需要明确的风格或者标签。在inference时也可以选择指定某个token的权重来进行风格控制或者输入不同的音频学习权重系数来进行风格迁移。

3.GST—2018年 Yuxuan Wang《PREDICTING EXPRESSIVE SPEAKING STYLE FROM TEXT IN END-TO END SPEECH SYNTHESIS》

这篇paper也是王大佬GST的续作，本文提出了TP-GST，它仅从文本预测风格，在训练过程中不需要明确的标签，training和inference时也不需要额外的输入。
TP-GST在前文的基础上增加了两种inference的方法：
（1）TPCM—对训练时候学到的GST进行线性插值，使用仅由文本预测的combination weights，对CBHG的输出进行时间整合，输出一个定长的序列。然后通过fc层预测的combination weights和GST的权重进行CE loss
（2）TPSE—忽视style token和combination weight，直接由text feature预测style embedding，training时GST作为target，和直接求得的style-embedding prediction做L1 loss。inference时GST没有作用，仅通过text-feature预测style embedding。

4.Transformer—2018《Neural Speech Synthesis with Transformer Network》

这篇paper的逻辑就相对来说简单了很多，就是做了一个将transformer和tacotron2结合的一个操作，模型的主体还是以Original Transformer为主，只是在输入和输出阶段为了配合语音数据而做了特定的改变。文中还提出了一个小的trick，在训练stop token时，正负样本的数量分布是远远不一致的，所以采取给正样本加权的方式防止模型"偷懒",造成生成语音后半段效果差
附上一些当时的整理和理解：

5.VAE—2018《Hierarchical Generative Modeling for Controllable Speech Synthesis》

VAE—2018 《Learning Latent Representations for Style Control and Transfer in End-to-end Speech Synthesis》

既然分离和控制style的潜在变量是TTS情感表现的重头戏，那么VAE的使用在解耦独立token方面能力是相当强的，原因在于VAE有着神经网络没有的严格的数学证明过程，具备强逻辑性使我等汗颜。第一篇文章我是真的看不懂，加上网络上资料较少所以暂时搁置，这里主要介绍一下第二篇paper

在了解VAE-TTS前建议读者先去阅读这篇讲解 KL的文章，这是理解VAE损失的基础知识。链接: 点这里.

VAE loss = reconstruct loss - KLD
reconstruct loss: 作用在decoder上，预测样本和真实样本
KLD： encoder预测结果z和高斯分布的交叉熵
encoder先输出两个值，分别指代为均值，方差，然后通计算得到z

文章中还介绍了训练时会存在的一个问题就是KL Loss的收敛速度很快，收敛为0附近的时候重建损失还没有收敛，因此encoder会无效，为了避免这个问题，使用两个trick：
（1）KL annealing ：KL Loss加一个权重，初始是0，然后慢慢增加；
（2）每k步考虑一次KL Loss
最后的实验结果自然是分离的latent representation的不同维度可以单独控制不同的风格
（其实本人的数学基础也是差的出奇，但是发现论文代码中VAE的训练部分是可以直接引用的，所以也算松了一口气）

6.BERT—2019《Towards Transfer Learning for End-to-End Speech Synthesis from Deep Pre-Trained Language Models》

本文使用BERT作为辅助信息输入，作者认为使用预训练好的Bert可以从未被标记的文本数据中可以学习文本非常丰富的语法和语义信息，可以被TTS系统用来降低对高质量数据的依赖程度。
encoder的目标是将输入文本转换成鲁棒的文本序列表示，然后由基于注意的解码器使用这些表示来预测光谱特征。
最后发现BERT的加入使模型在知道何时停止解码方面明显更好，因此在合成音频的结尾处有更少的胡言乱语，并且在训练期间有更快的收敛。除此之外并没有对模型有更多的改进之处

7.GST—2020《Controllable Emotion Transfer For End-to-End Speech Synthesis》

这篇文章提出了叫做Emotion embedding network的结构，一个在参考编码器之后增强情感空间的识别能力，一个在解码器输出之后，增强情感嵌入和预测mel谱的情感识别能力。
并且整合四个loss损失来训练模型：LOSS_total=tacotron MSE loss+style loss+情感嵌入网络loss+辅助分类网络loss
在训练style loss时文章引用了Gram Matrix（Gram矩阵被认为可以捕捉音频信号在频域和时域的局部统计信息，如响度、重音、速度、音调等，这些特征与情感表达高度相关。）风格信息被度量为特征映射之间存在的相关量，Gram矩阵本质上是一组特征映射的特征分布。通过最小化两个gram矩阵之间的风格损失，基本上匹配了两个情感嵌入之间的特征分布。
实验inference使用一个情感标量乘以情感嵌入来控制情感传递强度，对一些scale参数调大时会使生成语音语速加快，调至0.1时会使语气趋于中性

小结

其实目前的想法大多集中在如何从文本和语音信息中提取更多的风格信息并且进行解耦合，从而更准确的inference情感，但是大多数研究并没有考虑合成所处的语境信息，如对话或者句子在文章中的位置(文章的基调)等，所以前路仍然是任重道远。