声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

Revisiting Over-Smoothness in Text to Speech

本文为浙江大学和微软在2022.02.26更新的文章,主要分析语音合成过平滑问题以及解决方案,具体的文章链接https://arxiv.org/pdf/2202.13066.pdf


1 背景

非自回归语音合成模型由于其快速的生成速度从而引起了学术界和工业界的广泛关注,但该模型的一个限制是它们在生成语音梅尔谱图时忽略了时域和频域的相关性,从而导致合成结果模糊和过度平滑。本文从一个新的角度重新审视了语音合成过度平滑的问题:过度平滑的程度取决于数据分布的复杂性和建模方法的能力之间的差距。简化数据分布和改进建模方法都可以缓解这个问题。

2 问题分析及解决方案

本文首先分析过平滑的问题是由于复杂的数据分布和建模方法之间的​差距,即建模方法不能够对相互依赖和多峰的数据进行很好的建模​。作者首先对建模数据的多峰及相互依赖进行可视化展示,结果如图1和图2所示​。图1展示了mel-spectrogram的数据是多峰分布,尤其在高频部分​。图2展示了数据分布不仅具有多峰分布而且有很强的相关性,因此常用的MAE or MSE loss不能够很好的​对其建模。本文总结了解决过平滑问题​的方案主要分为两类:simplifying data distributions和enhancing modeling methods​,具体方案总结参照table 1​。simplifying data distributions主要包括分解复杂的依赖分布为简单的条件分布(比如自回归)和提供更多的​条件变量信息来预测mel-spectrogram(比如pitch, duration, energy等)。enhancing modeling methods方案包括SSIM、GAN、Glow等等​。

3 实验分析

本部分将对以上的解决方案进行试验分析,使用的baseline 模型图​3所示。图4展示不同建模方法​。首先验证simplifying data distributions的实验,具体的结果如图5和table 2所示,使用自回归的FreqAR和TimeAR好于基准MAE,使用多变量信息的Fastspeech2​效果最好。接下来看一下建模方法的实验,本文列举的方法如table 3所示,其实验结果如图6和table4所示,虽然GAN和​Glow效果较好但其训练速度较为缓慢。本文结合以上的两类方案在单发音人和多发音人上进行试验,具体结果如table 5和table6所示,结合的方案可以提高合成的音频质量​。​

4 总结

本文是第一个对语音合成的过平滑问题进行系统分析总结,并对相应的解决方案进行试验总结,期望可以为语音社区设计更有的模型提供新颖的视角。

语音合成(TTS)论文优选:过平滑问题分析及优化Revisiting Over-Smoothness in Text to Speech相关推荐

  1. 语音合成TTS论文优选:A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A HYBRID TEXT ...

  2. 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...

  3. 语音合成(TTS)论文优选:End-to-End Code-Switching TTS with Cross-Lingual Language  Model

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 End-to-End Cod ...

  4. 语音合成(TTS)论文优选:Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Location-Relat ...

  5. 语音合成(TTS论文优选:VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 VocGAN: A High ...

  6. 语音合成(TTS)论文优选:ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-De

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 ByteSing: A Ch ...

  7. 语音识别(ASR)论文优选:A comparison of streaming models and data augmentation methods for robust speech recog

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  8. 语音信号处理(DSP)论文优选:Interactive Modeling for Speech Enhancement

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Interactive Sp ...

  9. 语音合成论文优选:Unified Mandarin TTS Front-end Based on Distilled BERT Model

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Unified Mandarin TT ...

最新文章

  1. loadrunner中错误为27796的一个解决方法
  2. 例解基于UML的面向对象分析与设计
  3. redis-server.exe redis.windows.conf 报错
  4. 《深入理解Nginx 模块开发与架构解析》之高级数据结构摘录
  5. 拆 米家台灯_全网首拆:众筹价169元的米家屏幕挂灯拆解评测!柔光罩或成败笔...
  6. 要不要买保险,看这篇就够了
  7. minifilter 与用户态的通信
  8. pytorch-分类任务训练loss不变
  9. 《你有多少问题要请示》精华集粹
  10. java解析魔兽争霸3录像_GitHub - wucao/jw3gparser: Java Warcraft Ⅲ Replay Parser(Java解析《魔兽争霸3》游戏录像工具)...
  11. java gd库_PHP GD库是什么
  12. 计算机科学与技术代码0812,一级学科代码及名称0812计算机科学与技术(2007年)本.doc...
  13. 直通车点击软件测试自学,如何用直通车测出高点击好图
  14. vue树形权限菜单_基于Vue的树形菜单之两种方式实现
  15. 如东人院附近一网吧转让
  16. 【仿真建模】第一课:AnyLogic入门基础教程 - 行人库入门讲解
  17. 【分区助手】如何扩大C盘容量?
  18. 儿童学编程的原因以及方法
  19. CSS-div水平居左-居右-居中显示
  20. 解读《电子劳动合同订立指引》,规范签订电子劳动合同

热门文章

  1. 【顺丰一面】2020/4/5_顺丰第一次技术面试_20分钟
  2. 钢笔工具使用目前的最高水平
  3. 如何用post方法请求数据?
  4. 2021抖音数据报告
  5. 使用超终端连接Cisco 2950交换机步骤,通过console口
  6. 在Word2003中打开Word2007文档的方法及教程下载
  7. JMeter发送数据到Kafka
  8. 宽容那些与我们不同的人
  9. 非精确线搜索 matlab,使用非精确线搜索Armijo算法确定步长的最速下降法(MATLAB)...
  10. QTextStream 类(文本流)和 QDataStream 类(数据流)