声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Network

本文章2020.07.30由韩国NCSOFT语音AI实验室发表,主要在声码器Melgan基础上提出的多刻度的声码器VocGan,解决了Melgan合成音质不高的问题,具体的文章链接

http://yqli.tech/pdf/tts_paper/VocGAN-%20A%20High-Fidelity%20Real-time%20Vocoder%20with%20a%20Hierarchically%20nested%20Adversarial%20Network.pdf

1 研究背景

现有的声码器自从wavnet被提出以来发生翻天覆地的变化,使合成的音质更加自然。然而wavenet的复杂度很高,无法满足实时系统需求。为解决wavenet问题提出了很多类别的声码器:parallel声码器,基于flow声码器和基于Gan的声码器。其中melgan是具有代表性的基于Gan的声码器,该声码器可以在单核Cpu上3倍实时率合成音频,但合成的音频质量下降。为了解决melGan存在的问题,本文提出了Vocgan,该声码器可以保持相同的合成实时率的条件下,大大提高合成的音频质量。

2 详细的系统设计

先看一下melgan的vocgan的大体架构,如图1所示,vocgan在每一步的生成器G的输出都存在辨别器D,此为多刻度生成器。多刻度的生成器如图2所示,生成器的输入为mel spectrogram,该特征经过不同刻度的上采样后,经过res stack和对应的conv层生成不同刻度的波形。而辨别器的输入是ground truth waveform经过不同下采样生成音频和生成器生成不同刻度的音频。在不同刻度进行对比,从而提高合成质量。

另外本文主要提出了多种LOSS函数如下:

Hierarchically-nested structure:

Joint conditional and unconditional loss:

Feature matching loss:

添加 Multi-resolution STFT loss的总的LOSS:

3 实验结果

本文的实验主要在客观和主观两个方面做评测。首先测试每个部分的影响程度,结果如table 1所示(MCD :mel cepstrum distance,f0 rmse:F0 root mean square error 越小越好,PESQ:perceptual evaluation of speech quality越大越好):baseline Melgan效果最差,添加本文每一策略都可以提升质量,VocGan效果最好。图3表示基频F0轨迹可知,vocgan生成的音频比melgan更贴切真实值。Table2显示在主观方面,Vocgan的mos值比melgan值提升0.3个点,而且速度几乎保持不变。

4 总结

本文提出的VocGan可以保持melgan合成速度的前提下提高音质,其中Loss的设计可以借鉴到其它声码器中,比如multiband系列声码器。

语音合成(TTS论文优选:VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw相关推荐

  1. 语音合成TTS论文优选:A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A HYBRID TEXT ...

  2. 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...

  3. 语音合成(TTS)论文优选:End-to-End Code-Switching TTS with Cross-Lingual Language  Model

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 End-to-End Cod ...

  4. 语音合成(TTS)论文优选:Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Location-Relat ...

  5. 语音合成(TTS)论文优选:ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-De

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 ByteSing: A Ch ...

  6. 语音合成 | 精选论文汇总(197篇)

    ​语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...

  7. 语音信号处理(DSP)论文优选:Interactive Modeling for Speech Enhancement

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Interactive Sp ...

  8. 语音合成论文优选:Unified Mandarin TTS Front-end Based on Distilled BERT Model

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Unified Mandarin TT ...

  9. 语音合成(TTS)论文优选:过平滑问题分析及优化Revisiting Over-Smoothness in Text to Speech

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

最新文章

  1. :before和::before的区别
  2. 单(liu_runda学长的神题)
  3. Android提醒微技巧,你真的了解Dialog、Toast和Snackbar吗?
  4. Jenkins 技术篇-jenkins的下载、安装与配置
  5. PHP 使用 AES/ECB/PKCS7 padding 加密
  6. 2020级C语言大作业 - 王国保卫战
  7. mysql 储存过程放到哪_MySQL储存过程
  8. python中导入模块的方式_在python中导入模块中的对象有哪几种方式
  9. git pull冲突:commit your changes or stash them before you can merge.
  10. 如何集中远程管理各种USB设备,还不了解一下?
  11. 已知坐标增量求坐标方位角_全站仪坐标导线测量及平差方法的比较
  12. 台式计算机运行慢怎么样能提高速度,电脑配置低怎么办 如何让电脑运行速度加快...
  13. 世链投研|链游操作指南之MIR4
  14. 小米10等UFS字库备份与基带分区说明
  15. 任意大小 内存池 c语言,C语言内存池使用模型-1 - Mr.南柯 - 51Testing软件测试网 51Testing软件测试网-软件测试人的精神家园...
  16. Zookeeper安装部署调试命令
  17. 根据IP进行城市定位
  18. 60903鱼植共生缸
  19. 电销接通率低,深圳外呼系统应该怎么选择?
  20. for...in 列表时,删除列表元素中的陷阱和解释

热门文章

  1. 计算机辅助教育中的评价标准有,计算机辅助教育习题集
  2. 小狼毫输入法 五笔定制
  3. EXCEL隔行选取操作
  4. geo数据差异分析_GEO数据分析之差异基因分析
  5. 使用51单片机的矩阵键盘和LCD1602做一个密码锁
  6. 满帮Q1稳了,数字货运依然难解?
  7. PS中将一块区域更改为想要的颜色
  8. mysql除去一段字符串_mysql如何除去一段字符串
  9. Android-Kotlin-印章类
  10. 基于STC15系列单片机的串口中断例程