abstract部分简单说了一下,一般的TTS系统都有声学部分和vocoder,通过中间特征mel谱连接,这个模型是e2e的,所以中间的声学特征不会mismatch,也不用finetune。而且移除了额外的alignment tool,实现在了espnet2上

流程图如上,和fs2+hifigan没有什么区别

不过在variance adaptor中,写的结构和开源的代码是一致的,也就是pitch和energy是音素级的,在fastspeech原始论文中是帧级的

下面简介了一下fastspeech,其中的pitch和energy是通过平均音素内的帧得到的(这个是根据duration来的),而且在upsample这个过程中,论文中使用了高斯上采样,也是就基于softmax的aligner,而不是通过普通的repeat上采样。

而且这个fastspeech部分没有mel loss,因为它要端到端,不需要中间变量mel谱,只计算了duration、pitch、energy的loss

Hfi-GAN部分没有什么特殊的,GAN部分是最小二乘的损失。


下面介绍了Alignment Learning Framework

其中h代表text embedding,m代表mel spectrogram

h_enc, m_enc就是通过1D卷积层提取出来的特征

A_soft是通过softmax得到的alignment分布

下面用的小技巧还是比较多的

首先是通过

计算了A_soft

这段是L_forward_sum的计算,稍微有点绕,这个s就是一个分割的结果,比如第一帧就是对应第一个音素, S(h)是有效分割的结果。

通过上面的解释,p(s_t|m_t)很好理解了,简单解释一下连乘和累加符号代表什么

当然熟悉ctc loss的同学可能早就明白了

这个连乘代表着从t1到t_max的一条路径,而累加呢,代表着所有可能出现的路径。

如果还不明白可以自己画个图,或者网上搜一下ctc loss,有很多讲解的文章,讲的很明白

这里注意一点,虽然公式这么写,但是真正实现时候可不能这样,时间复杂度太高,要用动态规划来优化一下。论文里也写了,Notably it can be efficiently trained with offthe-shelf CTC [25] loss implementation,就是他也是用的写好的ctc loss

然后通过MAS(glowtts和vits用的那个),算出了单调的A_hard

为了让A_hard和A_soft尽量匹配,最小化了他们的kl距离,也就是L_bin这个损失

最后把这两部分损失加一起,就成为了L_align


我们把所有的损失总结一下:

没有mel损失的fastspeech损失

对抗+特征匹配+mel损失的hifigan生成器损失

CTC和KL损失组成的align损失

总损失:

里面的系数我没有具体写出来,大家可以对照论文看一下


实验部分:

一般论文的实验部分我基本是不怎么翻译的,但是这个论文要看一下,没有看这个论文时候我也尝试复现过这样的结构,但是没有用align部分,可是效果出奇的差,主要原因是通过fastspeech生成的mel在前期是不稳定的,G和D很容易训练炸掉,然后影响fastspeech生成不好mel,形成一个恶行循环,看看这个论文怎么解决的这个问题。

用了LJSpeech 12600的train、250的val和250的eval,22k采样率,16bit。用的g2p-en的音素输入

mel谱是用于hifigan的mel loss和align的输入

80维mel,1024 fft size、256 hop size都是很常规的参数

用的结构依然是transformer,没有用conformer。256的attention dim和1024的encoder、decoder feedforward dim。Align模块也是引用了别人的文章,用的是One tts alignment to rule them all 这个论文的。vocoder一般都是截取一段进行训练,这个无论是fs2s、vits都是这样做的,全用一般显存也不够,这个论文截取了64。

对比试验选了3个,其中两个结构都是conformer的fs2+hifigan,区别:ft的是分别训练,联合finetuen,tr的是从0开始联合训练,第三个是vits

(每次新出一个模型,老模型的mos打分都会莫名降下去)。

论文竟然就结束了,并没有解决掉我之前的问题,回来还是去espnet的代码里看看espnet怎么做的吧,怎么从0进行训练的(未完待续

完全端到端语音合成JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text toSpeech 简单解读相关推荐

  1. 百度推出完全端到端的并行音频波形生成模型,比WaveNet快千倍 | 论文

    稿件来源:百度硅谷研究院 量子位授权转载 | 公众号 QbitAI 语音合成(Text-to-Speech,TTS)是将自然语言文本转换成语音音频输出的技术,在AI时代的人机交互中扮演至关重要的角色. ...

  2. NUS 联合 Sea AI Lab 发表 Multi-view Pose Transformer,完全端到端学习,超强可扩展性...

    关注公众号,发现CV技术之美 ✎ 编 者 言  从多视角估计多人三维人体姿态是一个比较challenge的研究方向,目前的方法都采用了多阶段的模式,整个框架比较复杂.最近NUS联合Sea AI Lab ...

  3. 基于端到端 语音合成_基于语音的电子医疗应用

    基于端到端 语音合成 Healthcare has been one of the countless beneficiaries of the revolutionary advances that ...

  4. zabbix搭建完,web端显示“zabbix服务器端运行中 不”

    zabbix搭建完,web端显示"zabbix服务器端运行中 不"如下图: 但是查看服务器的状态是running 然后查日志/var/log/zabbix/zabbix-serve ...

  5. LLMs之InstructGPT:《Training language models to follow instructions with human feedback》翻译与解读

    LLMs之InstructGPT:<Training language models to follow instructions with human feedback>翻译与解读 导读 ...

  6. qchart画完以后删除_冬天的夜晚很难画?老师分步骤教你画,简单易学,收藏起来临摹...

    今日绘画主题:冬天的夜晚 冬天是美好的,也是很多画家喜欢创作的题材之一,但是,冬天的夜晚却是很难画,今天分步骤图解教大家画冬天的夜晚,快收藏起来临摹吧. >>>[第一步]:先来画线稿 ...

  7. 100个句子记完7000个雅思词汇,实际只有1043个词汇(包括 I and you 等简单词汇)

    两三月前买了本100个句子记完初中2000词汇,这书对我来说完全无用: 主要还是怪我没看仔细,不是100个句子记完,实际是100个句子+联想记完:我希望的是提供100个句子,然后100个句子里边包括2 ...

  8. Deformable DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION(论文阅读)

    Deformable DETR 是商汤Jifeng Dai 团队于2021年发表在ICLR 上的文章,是针对Detr 的改进. 论文:<DEFORMABLE DETR: DEFORMABLE T ...

  9. 将端到端文本转语音速度提高38倍,全新语音合成系统FastSpeech 梅尔谱的生成速度提升270倍,微软和浙大联合推出

    将端到端文本转语音速度提高38倍,全新语音合成系统FastSpeech 梅尔谱的生成速度提升270倍,微软和浙大联合推出 目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题--合成 ...

  10. 论文笔记《End-to-End Training of Hybrid CNN-CRF Models for Stereo》用于立体评估的端到端训练的混合CNN-CRF模型

    论文作者提供的源码 https://github.com/VLOGroup 摘要: 1. 介绍 2. 相关工作 3. CNN-CRF 模型 3.1 Unary CNN 3.2 Correlation ...

最新文章

  1. PlayMaker GUI的Normalized
  2. Java中使用Observer接口和Observable类实践Observer观察者模式
  3. 【解决方案】OpenCV配置【Win10+VS2017】(本人于2018年3月30日完成)
  4. BS程序代码与安全与基本攻击/防御模式
  5. 大容量导入或导出的数据格式 -- Unicode字符格式
  6. 基于ARQ反馈的无人机通信中继自主选择研究
  7. 如何修改Vs2008环境变量
  8. 收缩sqlserver事务日志
  9. Linux学习(lesson1)
  10. git push 冲突
  11. express下使用ES6
  12. NVIDIA硬编码方式:omxh264enc和nvv4l2h264enc
  13. 剑指offer——面试题45:圆圈中最后剩下的数字(孩子们的游戏)
  14. 通过saltapi接口安装实例(modules)
  15. 应朋友死皮白咧地邀请贴一个招聘广告
  16. 教你如何免费下载中国知网、万方学术论文?这份资源请收好!
  17. AtCoder Beginner Contest 162 D.RGB Triplets
  18. 牛客网——B-栈和排序
  19. 家用路由器常见之基本概念
  20. mathtype在word出现宏被禁止的错误 终于解决

热门文章

  1. 怎么样用计算机弹出小星星,【钢琴入门自写教程 1】小星星弹奏
  2. 彻悟人生555句金玉良言
  3. OA、CRM、ERP、BPM系统
  4. 摩尔庄园怎么显示全部服务器,摩尔庄园手游服务器查看区别方法
  5. 高等代数笔记4:线性空间
  6. 小技巧 - 查询微信被谁投诉方法技巧
  7. 蓝牙相关Profiles
  8. 袁腾飞讲述西方古代哲学思想
  9. [转]如何高效迅速地进入500强外企
  10. xp系统怎么创建服务器新用户,xp系统ftp服务器创建用户