完全端到端语音合成JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text toSpeech 简单解读

abstract部分简单说了一下，一般的TTS系统都有声学部分和vocoder，通过中间特征mel谱连接，这个模型是e2e的，所以中间的声学特征不会mismatch，也不用finetune。而且移除了额外的alignment tool，实现在了espnet2上

流程图如上，和fs2+hifigan没有什么区别

不过在variance adaptor中，写的结构和开源的代码是一致的，也就是pitch和energy是音素级的，在fastspeech原始论文中是帧级的

下面简介了一下fastspeech，其中的pitch和energy是通过平均音素内的帧得到的（这个是根据duration来的），而且在upsample这个过程中，论文中使用了高斯上采样，也是就基于softmax的aligner，而不是通过普通的repeat上采样。

而且这个fastspeech部分没有mel loss，因为它要端到端，不需要中间变量mel谱，只计算了duration、pitch、energy的loss

Hfi-GAN部分没有什么特殊的，GAN部分是最小二乘的损失。

下面介绍了Alignment Learning Framework

其中h代表text embedding，m代表mel spectrogram

h_enc, m_enc就是通过1D卷积层提取出来的特征

A_soft是通过softmax得到的alignment分布

下面用的小技巧还是比较多的

首先是通过

计算了A_soft

这段是L_forward_sum的计算，稍微有点绕，这个s就是一个分割的结果，比如第一帧就是对应第一个音素， S(h)是有效分割的结果。

通过上面的解释，p(s_t|m_t)很好理解了，简单解释一下连乘和累加符号代表什么

当然熟悉ctc loss的同学可能早就明白了

这个连乘代表着从t1到t_max的一条路径，而累加呢，代表着所有可能出现的路径。

如果还不明白可以自己画个图，或者网上搜一下ctc loss，有很多讲解的文章，讲的很明白

这里注意一点，虽然公式这么写，但是真正实现时候可不能这样，时间复杂度太高，要用动态规划来优化一下。论文里也写了，Notably it can be efficiently trained with offthe-shelf CTC [25] loss implementation，就是他也是用的写好的ctc loss

然后通过MAS（glowtts和vits用的那个），算出了单调的A_hard

为了让A_hard和A_soft尽量匹配，最小化了他们的kl距离，也就是L_bin这个损失

最后把这两部分损失加一起，就成为了L_align

我们把所有的损失总结一下：

没有mel损失的fastspeech损失

对抗+特征匹配+mel损失的hifigan生成器损失

CTC和KL损失组成的align损失

总损失：

里面的系数我没有具体写出来，大家可以对照论文看一下

实验部分：

一般论文的实验部分我基本是不怎么翻译的，但是这个论文要看一下，没有看这个论文时候我也尝试复现过这样的结构，但是没有用align部分，可是效果出奇的差，主要原因是通过fastspeech生成的mel在前期是不稳定的，G和D很容易训练炸掉，然后影响fastspeech生成不好mel，形成一个恶行循环，看看这个论文怎么解决的这个问题。

用了LJSpeech 12600的train、250的val和250的eval，22k采样率，16bit。用的g2p-en的音素输入

mel谱是用于hifigan的mel loss和align的输入

80维mel，1024 fft size、256 hop size都是很常规的参数

用的结构依然是transformer，没有用conformer。256的attention dim和1024的encoder、decoder feedforward dim。Align模块也是引用了别人的文章，用的是One tts alignment to rule them all 这个论文的。vocoder一般都是截取一段进行训练，这个无论是fs2s、vits都是这样做的，全用一般显存也不够，这个论文截取了64。

对比试验选了3个，其中两个结构都是conformer的fs2+hifigan，区别：ft的是分别训练，联合finetuen，tr的是从0开始联合训练，第三个是vits

（每次新出一个模型，老模型的mos打分都会莫名降下去）。

论文竟然就结束了，并没有解决掉我之前的问题，回来还是去espnet的代码里看看espnet怎么做的吧，怎么从0进行训练的（未完待续

完全端到端语音合成JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text toSpeech 简单解读相关推荐

百度推出完全端到端的并行音频波形生成模型，比WaveNet快千倍 | 论文
稿件来源:百度硅谷研究院量子位授权转载 | 公众号 QbitAI 语音合成(Text-to-Speech,TTS)是将自然语言文本转换成语音音频输出的技术,在AI时代的人机交互中扮演至关重要的角色. ...
NUS 联合 Sea AI Lab 发表 Multi-view Pose Transformer，完全端到端学习，超强可扩展性...
关注公众号,发现CV技术之美 ✎ 编者言从多视角估计多人三维人体姿态是一个比较challenge的研究方向,目前的方法都采用了多阶段的模式,整个框架比较复杂.最近NUS联合Sea AI Lab ...
基于端到端语音合成_基于语音的电子医疗应用
基于端到端语音合成 Healthcare has been one of the countless beneficiaries of the revolutionary advances that ...
zabbix搭建完，web端显示“zabbix服务器端运行中不”
zabbix搭建完,web端显示"zabbix服务器端运行中不"如下图: 但是查看服务器的状态是running 然后查日志/var/log/zabbix/zabbix-serve ...
LLMs之InstructGPT：《Training language models to follow instructions with human feedback》翻译与解读
LLMs之InstructGPT:<Training language models to follow instructions with human feedback>翻译与解读导读 ...
qchart画完以后删除_冬天的夜晚很难画？老师分步骤教你画，简单易学，收藏起来临摹...
今日绘画主题:冬天的夜晚冬天是美好的,也是很多画家喜欢创作的题材之一,但是,冬天的夜晚却是很难画,今天分步骤图解教大家画冬天的夜晚,快收藏起来临摹吧. >>>[第一步]:先来画线稿 ...
100个句子记完7000个雅思词汇，实际只有1043个词汇（包括 I and you 等简单词汇）
两三月前买了本100个句子记完初中2000词汇,这书对我来说完全无用: 主要还是怪我没看仔细,不是100个句子记完,实际是100个句子+联想记完:我希望的是提供100个句子,然后100个句子里边包括2 ...
Deformable DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION（论文阅读）
Deformable DETR 是商汤Jifeng Dai 团队于2021年发表在ICLR 上的文章,是针对Detr 的改进. 论文:<DEFORMABLE DETR: DEFORMABLE T ...
将端到端文本转语音速度提高38倍，全新语音合成系统FastSpeech 梅尔谱的生成速度提升270倍，微软和浙大联合推出
将端到端文本转语音速度提高38倍,全新语音合成系统FastSpeech 梅尔谱的生成速度提升270倍,微软和浙大联合推出目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题--合成 ...
论文笔记《End-to-End Training of Hybrid CNN-CRF Models for Stereo》用于立体评估的端到端训练的混合CNN-CRF模型
论文作者提供的源码 https://github.com/VLOGroup 摘要: 1. 介绍 2. 相关工作 3. CNN-CRF 模型 3.1 Unary CNN 3.2 Correlation ...

完全端到端语音合成JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text toSpeech 简单解读

完全端到端语音合成JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text toSpeech 简单解读相关推荐

最新文章

热门文章