完全端到端语音合成JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text toSpeech 简单解读
abstract部分简单说了一下,一般的TTS系统都有声学部分和vocoder,通过中间特征mel谱连接,这个模型是e2e的,所以中间的声学特征不会mismatch,也不用finetune。而且移除了额外的alignment tool,实现在了espnet2上
流程图如上,和fs2+hifigan没有什么区别
不过在variance adaptor中,写的结构和开源的代码是一致的,也就是pitch和energy是音素级的,在fastspeech原始论文中是帧级的
下面简介了一下fastspeech,其中的pitch和energy是通过平均音素内的帧得到的(这个是根据duration来的),而且在upsample这个过程中,论文中使用了高斯上采样,也是就基于softmax的aligner,而不是通过普通的repeat上采样。
而且这个fastspeech部分没有mel loss,因为它要端到端,不需要中间变量mel谱,只计算了duration、pitch、energy的loss
Hfi-GAN部分没有什么特殊的,GAN部分是最小二乘的损失。
下面介绍了Alignment Learning Framework
其中h代表text embedding,m代表mel spectrogram
h_enc, m_enc就是通过1D卷积层提取出来的特征
A_soft是通过softmax得到的alignment分布
下面用的小技巧还是比较多的
首先是通过
计算了A_soft
这段是L_forward_sum的计算,稍微有点绕,这个s就是一个分割的结果,比如第一帧就是对应第一个音素, S(h)是有效分割的结果。
通过上面的解释,p(s_t|m_t)很好理解了,简单解释一下连乘和累加符号代表什么
当然熟悉ctc loss的同学可能早就明白了
这个连乘代表着从t1到t_max的一条路径,而累加呢,代表着所有可能出现的路径。
如果还不明白可以自己画个图,或者网上搜一下ctc loss,有很多讲解的文章,讲的很明白
这里注意一点,虽然公式这么写,但是真正实现时候可不能这样,时间复杂度太高,要用动态规划来优化一下。论文里也写了,Notably it can be efficiently trained with offthe-shelf CTC [25] loss implementation,就是他也是用的写好的ctc loss
然后通过MAS(glowtts和vits用的那个),算出了单调的A_hard
为了让A_hard和A_soft尽量匹配,最小化了他们的kl距离,也就是L_bin这个损失
最后把这两部分损失加一起,就成为了L_align
我们把所有的损失总结一下:
没有mel损失的fastspeech损失
对抗+特征匹配+mel损失的hifigan生成器损失
CTC和KL损失组成的align损失
总损失:
里面的系数我没有具体写出来,大家可以对照论文看一下
实验部分:
一般论文的实验部分我基本是不怎么翻译的,但是这个论文要看一下,没有看这个论文时候我也尝试复现过这样的结构,但是没有用align部分,可是效果出奇的差,主要原因是通过fastspeech生成的mel在前期是不稳定的,G和D很容易训练炸掉,然后影响fastspeech生成不好mel,形成一个恶行循环,看看这个论文怎么解决的这个问题。
用了LJSpeech 12600的train、250的val和250的eval,22k采样率,16bit。用的g2p-en的音素输入
mel谱是用于hifigan的mel loss和align的输入
80维mel,1024 fft size、256 hop size都是很常规的参数
用的结构依然是transformer,没有用conformer。256的attention dim和1024的encoder、decoder feedforward dim。Align模块也是引用了别人的文章,用的是One tts alignment to rule them all 这个论文的。vocoder一般都是截取一段进行训练,这个无论是fs2s、vits都是这样做的,全用一般显存也不够,这个论文截取了64。
对比试验选了3个,其中两个结构都是conformer的fs2+hifigan,区别:ft的是分别训练,联合finetuen,tr的是从0开始联合训练,第三个是vits
(每次新出一个模型,老模型的mos打分都会莫名降下去)。
论文竟然就结束了,并没有解决掉我之前的问题,回来还是去espnet的代码里看看espnet怎么做的吧,怎么从0进行训练的(未完待续
完全端到端语音合成JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text toSpeech 简单解读相关推荐
- 百度推出完全端到端的并行音频波形生成模型,比WaveNet快千倍 | 论文
稿件来源:百度硅谷研究院 量子位授权转载 | 公众号 QbitAI 语音合成(Text-to-Speech,TTS)是将自然语言文本转换成语音音频输出的技术,在AI时代的人机交互中扮演至关重要的角色. ...
- NUS 联合 Sea AI Lab 发表 Multi-view Pose Transformer,完全端到端学习,超强可扩展性...
关注公众号,发现CV技术之美 ✎ 编 者 言 从多视角估计多人三维人体姿态是一个比较challenge的研究方向,目前的方法都采用了多阶段的模式,整个框架比较复杂.最近NUS联合Sea AI Lab ...
- 基于端到端 语音合成_基于语音的电子医疗应用
基于端到端 语音合成 Healthcare has been one of the countless beneficiaries of the revolutionary advances that ...
- zabbix搭建完,web端显示“zabbix服务器端运行中 不”
zabbix搭建完,web端显示"zabbix服务器端运行中 不"如下图: 但是查看服务器的状态是running 然后查日志/var/log/zabbix/zabbix-serve ...
- LLMs之InstructGPT:《Training language models to follow instructions with human feedback》翻译与解读
LLMs之InstructGPT:<Training language models to follow instructions with human feedback>翻译与解读 导读 ...
- qchart画完以后删除_冬天的夜晚很难画?老师分步骤教你画,简单易学,收藏起来临摹...
今日绘画主题:冬天的夜晚 冬天是美好的,也是很多画家喜欢创作的题材之一,但是,冬天的夜晚却是很难画,今天分步骤图解教大家画冬天的夜晚,快收藏起来临摹吧. >>>[第一步]:先来画线稿 ...
- 100个句子记完7000个雅思词汇,实际只有1043个词汇(包括 I and you 等简单词汇)
两三月前买了本100个句子记完初中2000词汇,这书对我来说完全无用: 主要还是怪我没看仔细,不是100个句子记完,实际是100个句子+联想记完:我希望的是提供100个句子,然后100个句子里边包括2 ...
- Deformable DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION(论文阅读)
Deformable DETR 是商汤Jifeng Dai 团队于2021年发表在ICLR 上的文章,是针对Detr 的改进. 论文:<DEFORMABLE DETR: DEFORMABLE T ...
- 将端到端文本转语音速度提高38倍,全新语音合成系统FastSpeech 梅尔谱的生成速度提升270倍,微软和浙大联合推出
将端到端文本转语音速度提高38倍,全新语音合成系统FastSpeech 梅尔谱的生成速度提升270倍,微软和浙大联合推出 目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题--合成 ...
- 论文笔记《End-to-End Training of Hybrid CNN-CRF Models for Stereo》用于立体评估的端到端训练的混合CNN-CRF模型
论文作者提供的源码 https://github.com/VLOGroup 摘要: 1. 介绍 2. 相关工作 3. CNN-CRF 模型 3.1 Unary CNN 3.2 Correlation ...
最新文章
- PlayMaker GUI的Normalized
- Java中使用Observer接口和Observable类实践Observer观察者模式
- 【解决方案】OpenCV配置【Win10+VS2017】(本人于2018年3月30日完成)
- BS程序代码与安全与基本攻击/防御模式
- 大容量导入或导出的数据格式 -- Unicode字符格式
- 基于ARQ反馈的无人机通信中继自主选择研究
- 如何修改Vs2008环境变量
- 收缩sqlserver事务日志
- Linux学习(lesson1)
- git push 冲突
- express下使用ES6
- NVIDIA硬编码方式:omxh264enc和nvv4l2h264enc
- 剑指offer——面试题45:圆圈中最后剩下的数字(孩子们的游戏)
- 通过saltapi接口安装实例(modules)
- 应朋友死皮白咧地邀请贴一个招聘广告
- 教你如何免费下载中国知网、万方学术论文?这份资源请收好!
- AtCoder Beginner Contest 162 D.RGB Triplets
- 牛客网——B-栈和排序
- 家用路由器常见之基本概念
- mathtype在word出现宏被禁止的错误 终于解决