Revisiting Over-Smoothness in Text to Speech
- ACL2022
- Ren yi
文章目录
- abstract
- 多峰问题证明
- 数据简化
- 模型建模
- 附录
- Fastspeech2+Gan
abstract
- 非自回归TTS的生成结果有over-smooth的问题。有两个解决思路:(1)提供更多的先验数据以简化数据分布;(2)增强模型的建模下能力,比如使用laplace mix loss。
- 理由:MAE/MSE loss的假设是基于梅尔谱各帧相互独立,并且是一个单峰问题(uni-modal)——MSE从高斯分布演化而来,MAE从laplace演化而来,都是单峰分布;但是实际上语音的分布是一个时频相关并且多峰分布(multi-modal distribution2)的问题——通过不同频率范围的phn-mel数据画联合概率密度分布图证明。
- 在FastSpeech上分别添加Laplacian mixture loss, structural similarity index (SSIM) ,GAN,Glow,都取得了质量改进的效果。
- 多人数据上Glow表现的不好,但是补充了额外的输入信息之后有明显的改善。
多峰问题证明
数据简化
模型建模
- dependent & multi-modal的假设对应的模型下锅更好,但是GAN/Glow都会有额外的训练代价。
附录
Fastspeech2+Gan
- 生成的mel-spec被裁减成3个不同长度的片段,送入三个不同的判别器中。判别器2*CNN+linear
Revisiting Over-Smoothness in Text to Speech相关推荐
- 语音合成(TTS)论文优选:过平滑问题分析及优化Revisiting Over-Smoothness in Text to Speech
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- Windows phone 应用开发[1]-Text To Speech
最近几个月一直在专注Windows phone产品设计和项目开发.在其中团队磨合和产品定位上也出现不少问题.一直难以抽出成块的时间来思考梳理.至此博客更新也从此中断.这两天因病在家休息.上周在微博[F ...
- 微软文本转语音小工具(Text to speech)网页版
之前在52破解上看到有人发布了一个文本转语音的小软件,使用微软提供的免费的文本转语音接口,自己闲着没事做了一个网页版的,用php调用微软接口生成语音.感兴趣的同学可以看下. 地址:www.text-t ...
- 人工智能的嘴巴——语音合成(Text to Speech | TTS)
本文首发在--easyAI--人工智能知识库 小白版本 语音合成就是让机器模仿人类说话.即输入一段文字,最终输出一段语音. 做个比较,当机器的"脑子"里想到了一段内容时,或者是看到 ...
- 使用 JavaScript 进行单词发音 Use JavaScript to Speech Your Text
在w3c草案中增加了对Web Speech Api的支持;主要作用在 两个非常重要的方面: 语音识别 (将所说的转换成文本文字 / speech to text); 语音合成 (将文本文字读出来 / ...
- java开源tts_开源TTS(Text To Speah)的选择和使用
TTS是Text To Speech的缩写,即"从文本到语音",是人机对话的一部分,让机器能够说话. TTS是语音合成应用的一种,它将文件内容或应用上的文字等,如应用菜单或者网页, ...
- C++实现TTS文字语音朗读Microsoft Speech SDK
转自http://www.zhimax.com/article/vc/ttsvoice.html 一. TTS概述 随着语音技术的发展,微软也推出了相应的语音开发工具,即Microsoft Speec ...
- 【论文学习】《A Survey on Neural Speech Synthesis》
<A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...
- Qt Speech来到Qt 6.4
Qt Speech coming to Qt 6.4 Qt Speech来到Qt 6.4 Thursday May 05, 2022 by Volker Hilsheimer | Comments ...
最新文章
- CBC2020 第五届中国计算机学会生物信息学会议(The Fifth CCF Bioinformatics Conference,简称CBC 2020) 2020年10月16日-10月18日在哈尔滨
- 在java中对null的理解
- 贝壳:计算绝对值(暴力破解)
- foreach和while的区别(编译之后)_C++学习大纲:条件编译
- pygame精灵组有哪些方法_利用 pygame 开发一款游戏:「跳跳兔」(六)
- Android View框架总结(七)View事件分发机制
- 小程序停止html5音乐,微信小程序-音乐播放器+背景播放
- delphi mysql ado_delphi2010利用ADO连接MySQL数据库
- Javaweb实现简易的留言板项目
- yum 下载并切换到本地源(银河麒麟V10,中标麒麟V5)
- UWA DAY 2021 精彩盘点 | 35场技术议题掀起的思维浪潮
- 下方点击出项上方对应的插件_sketch必备插件Craft功能详解(下)
- 反客为主?00 后大学生 “反向背调” 雇主,Z 世代要重塑职场
- wps表格宏被禁用如何解禁_(wps表格怎么设置宏)为什么每次打开excel文件都要提示启用或者禁用宏?...
- 使用 Python 和可视化编程控制树莓派机械臂myCobot
- iOS 使用 Fastlane 打包上传 App 到蒲公英
- 高可用集群(HAC)
- Python计算机视觉——SIFT描述子
- 2018-07-05 第六十天 JavaScript
- 基于 ESP32 的蜘蛛机器人
热门文章
- Android adb: failed to install 0.apk: Failure [null]
- iPhone指环贴:你手机的防盗专家
- 【数据分析师_04_Python数据分析基础】006_Pandas时序分析(df.tz_localize 时区位置、df.tz_convert 时区转换)
- JavaScript词汇表
- Java进度条(excel文件解析)的实现
- HTML中的单行注释标签是,html如何单行和多行注释呢 ?
- CSAPP HITICS 大作业 hello's P2P by zsz
- 具名元组的使用方法总结
- 跳转到新页面并清除当前页面的history记录
- iOS高级面试题及部分答案