从三月末定了TTS情感方向(Expressive TTS)之后,便把大多数的注意力放在了看相关方面的论文,趁着今天周末忙里偷闲,顺便把几周摸的鱼收一收网,总结上大概按照时间线方式进行
(论文前的标记代表作者,时间和技术手段)。

0.首先感谢一下网络上各路大神的笔记和博客,拾前人牙慧实打实使我避免走了很多弯路,因为有先驱者的笔耕不辍,才会使后继者前进的道路更加清晰

知乎的星辰漫游者,wx公众号的低调奋进,还有CSDN的赫凯|林林宋,B站的数学家是我理想等等

1.GST—2017年 Yuxuan Wang《Uncovering Latent Style Factors for Expressive Speech Synthesis》


既然要提到情感TTS,首先就是王宇轩大佬在GST(global style token)还未提出时发表的一篇论文
paper的中心想法就是从tacotron的基础上引入了风格标记(style token)来捕获潜在的韵律变化,而韵律的学习是在纯数据驱动的方式下进行的。相比于传统模型只在声学模型中捕捉信息,paper中可以在整个模型中捕捉这些潜在的因素。
其次,风格标记是从一个注意机制中计算出来的,它有助于学习一组相互独立的韵律特征,然后可以根据用户的需要灵活地进行组合从而合成出不同情感的语音。(这里的相互独立只是一个相对泛泛的概念,近些年的论文开始对Decoupling解耦合方法提出了更多的方法)

2.GST—2018年 Yuxuan Wang《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》

在这一篇paper中,王大佬正式提出了GST的概念,提出了Reference encoder对变长的音频信号进行压缩到定长向量,然后送入style token layer作注意力机制,但是这里attention的作用是学习Reference encoder输出的定长向量和随机初始化的style token的相似度,最后使用其学习到的权重和作为学习到的style embedding作为文本训练的辅助向量参与训练。
优点是reference encoder的损失从tacotron损失驱动,且不需要明确的风格或者标签。在inference时也可以选择指定某个token的权重来进行风格控制或者输入不同的音频学习权重系数来进行风格迁移。

3.GST—2018年 Yuxuan Wang《PREDICTING EXPRESSIVE SPEAKING STYLE FROM TEXT IN END-TO END SPEECH SYNTHESIS》



这篇paper也是王大佬GST的续作,本文提出了TP-GST,它仅从文本预测风格,在训练过程中不需要明确的标签,training和inference时也不需要额外的输入。
TP-GST在前文的基础上增加了两种inference的方法:
(1)TPCM—对训练时候学到的GST进行线性插值,使用仅由文本预测的combination weights,对CBHG的输出进行时间整合,输出一个定长的序列。然后通过fc层预测的combination weights和GST的权重进行CE loss
(2)TPSE—忽视style token和combination weight,直接由text feature预测style embedding,training时GST作为target,和直接求得的style-embedding prediction做L1 loss。inference时GST没有作用,仅通过text-feature预测style embedding。

4.Transformer—2018《Neural Speech Synthesis with Transformer Network》

这篇paper的逻辑就相对来说简单了很多,就是做了一个将transformer和tacotron2结合的一个操作,模型的主体还是以Original Transformer为主,只是在输入和输出阶段为了配合语音数据而做了特定的改变。文中还提出了一个小的trick,在训练stop token时,正负样本的数量分布是远远不一致的,所以采取给正样本加权的方式防止模型"偷懒",造成生成语音后半段效果差
附上一些当时的整理和理解:

5.VAE—2018《Hierarchical Generative Modeling for Controllable Speech Synthesis》

VAE—2018 《Learning Latent Representations for Style Control and Transfer in End-to-end Speech Synthesis》

既然分离和控制style的潜在变量是TTS情感表现的重头戏,那么VAE的使用在解耦独立token方面能力是相当强的,原因在于VAE有着神经网络没有的严格的数学证明过程,具备强逻辑性使我等汗颜。第一篇文章我是真的看不懂,加上网络上资料较少所以暂时搁置,这里主要介绍一下第二篇paper

在了解VAE-TTS前建议读者先去阅读这篇讲解 KL的文章,这是理解VAE损失的基础知识。链接: 点这里.

VAE loss = reconstruct loss - KLD
reconstruct loss: 作用在decoder上,预测样本和真实样本
KLD: encoder预测结果z和高斯分布的交叉熵
encoder先输出两个值,分别指代为均值,方差,然后通计算得到z

文章中还介绍了训练时会存在的一个问题就是KL Loss的收敛速度很快,收敛为0附近的时候重建损失还没有收敛,因此encoder会无效,为了避免这个问题,使用两个trick:
(1)KL annealing :KL Loss加一个权重,初始是0,然后慢慢增加;
(2)每k步考虑一次KL Loss
最后的实验结果自然是分离的latent representation的不同维度可以单独控制不同的风格
(其实本人的数学基础也是差的出奇,但是发现论文代码中VAE的训练部分是可以直接引用的,所以也算松了一口气)

6.BERT—2019《Towards Transfer Learning for End-to-End Speech Synthesis from Deep Pre-Trained Language Models》

本文使用BERT作为辅助信息输入,作者认为使用预训练好的Bert可以从未被标记的文本数据中可以学习文本非常丰富的语法和语义信息,可以被TTS系统用来降低对高质量数据的依赖程度
encoder的目标是将输入文本转换成鲁棒的文本序列表示,然后由基于注意的解码器使用这些表示来预测光谱特征。
最后发现BERT的加入使模型在知道何时停止解码方面明显更好,因此在合成音频的结尾处有更少的胡言乱语,并且在训练期间有更快的收敛。除此之外并没有对模型有更多的改进之处

7.GST—2020《Controllable Emotion Transfer For End-to-End Speech Synthesis》

这篇文章提出了叫做Emotion embedding network的结构,一个在参考编码器之后增强情感空间的识别能力,一个在解码器输出之后,增强情感嵌入和预测mel谱的情感识别能力。
并且整合四个loss损失来训练模型:LOSS_total=tacotron MSE loss+style loss+情感嵌入网络loss+辅助分类网络loss
在训练style loss时文章引用了Gram Matrix(Gram矩阵被认为可以捕捉音频信号在频域和时域的局部统计信息,如响度、重音、速度、音调等,这些特征与情感表达高度相关。)风格信息被度量为特征映射之间存在的相关量,Gram矩阵本质上是一组特征映射的特征分布。通过最小化两个gram矩阵之间的风格损失,基本上匹配了两个情感嵌入之间的特征分布。
实验inference使用一个情感标量乘以情感嵌入来控制情感传递强度,对一些scale参数调大时会使生成语音语速加快,调至0.1时会使语气趋于中性

小结

其实目前的想法大多集中在如何从文本和语音信息中提取更多的风格信息并且进行解耦合,从而更准确的inference情感,但是大多数研究并没有考虑合成所处的语境信息,如对话或者句子在文章中的位置(文章的基调)等,所以前路仍然是任重道远。

Expressive TTS 相关论文阶段性总结相关推荐

  1. ML之GB:GB算法相关论文、相关思路、关键步骤、代码实现、配图集合、案例应用之详细攻略

    ML之GB:GB算法相关论文.相关思路.关键步骤.代码实现.配图集合.案例应用之详细攻略 目录 GB算法相关文献.论文 GB算法关键步骤 GB算法代码实现 GB案例应用 1.GB用于回归 2.GB用于 ...

  2. 【radar】毫米波雷达-相机-激光雷达融合相关论文汇总(特征融合、RPN融合、弱监督融合、决策融合、深度估计、跟踪)(5)

    [radar]毫米波雷达-相机-激光雷达融合相关论文汇总(特征融合.RPN融合.弱监督融合.决策融合.深度估计.跟踪)(5) Radar Camera Fusion Feature-level Fus ...

  3. 【radar】毫米波雷达动态障碍物检测相关论文汇总(聚类、分类、稀疏2D点、4D点、雷达成像、原始数据处理)(4)

    [radar]毫米波雷达动态障碍物检测相关论文汇总(聚类.分类.稀疏2D点.4D点.雷达成像.原始数据处理)(4) Detection of Dynamic Objects Clustering 20 ...

  4. sift论文_卷积神经网络设计相关论文

    最近梳理了一下卷积神经网络设计相关的论文(这个repo现在只列出了最重要的一些论文,后面会持续补充): Neural network architecture design​github.com 1. ...

  5. 2018 CVPR GAN 相关论文调研 (自己分了下类,附地址哦)

    2018 CVPR GAN 相关论文调研 风格迁移 1. PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Mak ...

  6. 区块链相关论文研读7:通过分片(Sharding)扩展区块链

    本文首发在https://zhuanlan.zhihu.com/p/89933683 这篇论文发表在顶会SIGMOD 2019上,题目为<Towards Scaling Blockchain S ...

  7. 区块链相关论文研读5:分布式隐私保护可审计的账本,zkLedger

    这篇文章首发于知乎专栏:https://zhuanlan.zhihu.com/p/87900715 这篇论文在2018年发表在顶会NSDI上面,题目为<zkLedger: Privacy-Pre ...

  8. 图上的对抗与攻击精选论文列表(​2021相关论文一览)

    来源:深度学习与图网络本文约1400字,建议阅读5分钟本文为你分享图上的对抗与攻击精选论文. 2021相关论文一览 大规模攻击图神经网络 图神经网络的黑盒梯度攻击: 更深入洞察图的攻击和防御 增强多路 ...

  9. 顶会「扩招」,一地鸡毛:ICLR2020近半数审稿人未发过相关论文

    机器之心报道 机器之心编辑部 昨日,ICLR 2020 评审结果放出,被大量作者吐槽,甚至有开发者统计,本次大会近半数审稿人没有在相关领域发过论文.这把不久之前刚被清华列为人工智能 A 类顶会的 IC ...

  10. 一片哗然!ICLR 2020被曝47%的审稿人没发过相关论文

    乾明 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 决定你论文是否中选顶会的人,可能自己都没有发过相关论文. 这不是开玩笑,而是正在发生的事情. 出现这种情况的,正是深度学习领域的顶级会 ...

最新文章

  1. centos下axel安装与使用
  2. xilinxaxi ethernet 硬件时间戳告警
  3. nginx负载均衡的session共享问题的解决方法
  4. linux服务器上如何显示工作路径
  5. 5、urllib.request.urlopen()
  6. python 滚动字幕_Python pygame绘制文字制作滚动文字过程解析
  7. Oracle 11g R1(11.1) Joins表连接
  8. ue4是什么意思_UE4 C++基础教程 - 资源常见名词解释
  9. 挑战云主机战:学习使用云端服器象棋云库
  10. VIM教程与学习资料汇总(转载自善用佳软)
  11. 较完整的 bean生命周期
  12. esp8266控制ws2812b
  13. JSP相关练习题及答案(有详解)
  14. snapchat 登录不上_如何在Snapchat上阻止某人
  15. flask web开发 Set it to True to suppress this warning问题
  16. ubuntu 下使用 Python 和 SL4A 的 Android 应用程序构建您自己的android开发环境
  17. CPU乱序发射与内存屏障
  18. slf4j无法写入日志文件问题
  19. 域名怎么卖:建站出售
  20. 解决Angular Kendo UI 导出PDF中文乱码

热门文章

  1. 对象赋值-深拷贝-浅拷贝
  2. ssh publisher_3种Microsoft Publisher的开源替代品
  3. The kernel appears to have died. It will restart automatically.
  4. 【iOS取证篇】iOS设备进入DFU模式方法汇总
  5. Opencv多版本共存问题
  6. 石像鬼 openwrt chinadns dns-forwarder 开机无法自动启动
  7. JAVA多线程模拟火车站售票大厅
  8. 百度GOALS比赛总结
  9. 如何修改IDM下载器的临时文件夹位置
  10. 去掉window.print()去除页眉页脚及网址