• ACL2022
  • Ren yi

文章目录

  • abstract
  • 多峰问题证明
  • 数据简化
  • 模型建模
  • 附录
    • Fastspeech2+Gan

abstract

  • 非自回归TTS的生成结果有over-smooth的问题。有两个解决思路:(1)提供更多的先验数据以简化数据分布;(2)增强模型的建模下能力,比如使用laplace mix loss。
  • 理由:MAE/MSE loss的假设是基于梅尔谱各帧相互独立,并且是一个单峰问题(uni-modal)——MSE从高斯分布演化而来,MAE从laplace演化而来,都是单峰分布;但是实际上语音的分布是一个时频相关并且多峰分布(multi-modal distribution2)的问题——通过不同频率范围的phn-mel数据画联合概率密度分布图证明。
  • 在FastSpeech上分别添加Laplacian mixture loss, structural similarity index (SSIM) ,GAN,Glow,都取得了质量改进的效果。
  • 多人数据上Glow表现的不好,但是补充了额外的输入信息之后有明显的改善。

多峰问题证明

数据简化

模型建模

  • dependent & multi-modal的假设对应的模型下锅更好,但是GAN/Glow都会有额外的训练代价。

附录

Fastspeech2+Gan

  • 生成的mel-spec被裁减成3个不同长度的片段,送入三个不同的判别器中。判别器2*CNN+linear

Revisiting Over-Smoothness in Text to Speech相关推荐

  1. 语音合成(TTS)论文优选:过平滑问题分析及优化Revisiting Over-Smoothness in Text to Speech

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  2. Windows phone 应用开发[1]-Text To Speech

    最近几个月一直在专注Windows phone产品设计和项目开发.在其中团队磨合和产品定位上也出现不少问题.一直难以抽出成块的时间来思考梳理.至此博客更新也从此中断.这两天因病在家休息.上周在微博[F ...

  3. 微软文本转语音小工具(Text to speech)网页版

    之前在52破解上看到有人发布了一个文本转语音的小软件,使用微软提供的免费的文本转语音接口,自己闲着没事做了一个网页版的,用php调用微软接口生成语音.感兴趣的同学可以看下. 地址:www.text-t ...

  4. 人工智能的嘴巴——语音合成(Text to Speech | TTS)

    本文首发在--easyAI--人工智能知识库 小白版本 语音合成就是让机器模仿人类说话.即输入一段文字,最终输出一段语音. 做个比较,当机器的"脑子"里想到了一段内容时,或者是看到 ...

  5. 使用 JavaScript 进行单词发音 Use JavaScript to Speech Your Text

    在w3c草案中增加了对Web Speech Api的支持;主要作用在 两个非常重要的方面: 语音识别 (将所说的转换成文本文字 / speech to text); 语音合成 (将文本文字读出来 / ...

  6. java开源tts_开源TTS(Text To Speah)的选择和使用

    TTS是Text To Speech的缩写,即"从文本到语音",是人机对话的一部分,让机器能够说话. TTS是语音合成应用的一种,它将文件内容或应用上的文字等,如应用菜单或者网页, ...

  7. C++实现TTS文字语音朗读Microsoft Speech SDK

    转自http://www.zhimax.com/article/vc/ttsvoice.html 一. TTS概述 随着语音技术的发展,微软也推出了相应的语音开发工具,即Microsoft Speec ...

  8. 【论文学习】《A Survey on Neural Speech Synthesis》

    <A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...

  9. Qt Speech来到Qt 6.4

    Qt Speech coming to Qt 6.4 Qt Speech来到Qt 6.4 Thursday May 05, 2022 by Volker Hilsheimer | Comments ​ ...

最新文章

  1. CBC2020 第五届中国计算机学会生物信息学会议(The Fifth CCF Bioinformatics Conference,简称CBC 2020) 2020年10月16日-10月18日在哈尔滨
  2. 在java中对null的理解
  3. 贝壳:计算绝对值(暴力破解)
  4. foreach和while的区别(编译之后)_C++学习大纲:条件编译
  5. pygame精灵组有哪些方法_利用 pygame 开发一款游戏:「跳跳兔」(六)
  6. Android View框架总结(七)View事件分发机制
  7. 小程序停止html5音乐,微信小程序-音乐播放器+背景播放
  8. delphi mysql ado_delphi2010利用ADO连接MySQL数据库
  9. Javaweb实现简易的留言板项目
  10. yum 下载并切换到本地源(银河麒麟V10,中标麒麟V5)
  11. UWA DAY 2021 精彩盘点 | 35场技术议题掀起的思维浪潮
  12. 下方点击出项上方对应的插件_sketch必备插件Craft功能详解(下)
  13. 反客为主?00 后大学生 “反向背调” 雇主,Z 世代要重塑职场
  14. wps表格宏被禁用如何解禁_(wps表格怎么设置宏)为什么每次打开excel文件都要提示启用或者禁用宏?...
  15. 使用 Python 和可视化编程控制树莓派机械臂myCobot
  16. iOS 使用 Fastlane 打包上传 App 到蒲公英
  17. 高可用集群(HAC)
  18. Python计算机视觉——SIFT描述子
  19. 2018-07-05 第六十天 JavaScript
  20. 基于 ESP32 的蜘蛛机器人

热门文章

  1. Android adb: failed to install 0.apk: Failure [null]
  2. iPhone指环贴:你手机的防盗专家
  3. 【数据分析师_04_Python数据分析基础】006_Pandas时序分析(df.tz_localize 时区位置、df.tz_convert 时区转换)
  4. JavaScript词汇表
  5. Java进度条(excel文件解析)的实现
  6. HTML中的单行注释标签是,html如何单行和多行注释呢 ?
  7. CSAPP HITICS 大作业 hello's P2P by zsz
  8. 具名元组的使用方法总结
  9. 跳转到新页面并清除当前页面的history记录
  10. iOS高级面试题及部分答案