语音合成论文优选STYLER: Style Modeling with Rapidity and Robustness via Speech Decomposition for Expressive
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
STYLER: Style Modeling with Rapidity and Robustness via Speech Decomposition for Expressive and Controllable Neural Text to Speech
本文是韩国科学技术院数据工程与分析实验室在2021.03.17号更新的文章,主要在非自回归合成系统上添加可控的style factor模块,以及对noise的去除模块,具体的文章链接
https://arxiv.org/pdf/2103.09474.pdf
1 背景
通常的情感TTS从语音中抽取style factors,例如global style token或者隐变量。本文提到现有的方法不能很好的从音频中分离出style factors,因此本文使用SpeechSplit来进行style factors的分离,诸如:duration, pitch,timbre等等。从而本文提出了STYLER,该系统能够更加快速快速和鲁棒的进行情感语音合成。
2 详细设计
本文STYLER的系统架构如图1所示,其基础架构为FastSpeech2,其style factors的encoder为SpeechSplit。本文style factors主要包含:text, duration, pitch, speaker, enery 和 noise。比较有意思的是noise的residual decoding,当decoder接入noise信息zn,则为带noise的语音。另外为了其它factors与noise进行解耦,则每个encoder需要添加DAT模块。
3 实验
table1展示了本系统STYLER和其它参考系统对比,其中-P代表文本和原始语言内容一致,-NP则代表本和原始语言内容不一致。由此可知STYLE的MOS在自然度都好于mellotron。另外在unseen的数据好于竞品。table2展示了本文的style迁移好于fastspeech和mellotron。图2展示本文noise模块的作用。
4 总结
本文为了解决现有的情感TTS不能很好的从音频中分离出style factors,因此使用SpeechSplit来进行style factors的分离,并提出了更加鲁棒和快速的系统STYLER。
语音合成论文优选STYLER: Style Modeling with Rapidity and Robustness via Speech Decomposition for Expressive相关推荐
- 语音合成论文优选:M2voc大赛总结The M2voc Challenge 2021
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 The Multi-speaker M ...
- 语音合成论文优选:Unified Mandarin TTS Front-end Based on Distilled BERT Model
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Unified Mandarin TT ...
- 语音合成论文优选:Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Flavored Tacotron: ...
- 语音合成论文优选:唇语Speaker disentanglement in video-to-speech conversion
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Speaker disentangle ...
- 语音合成论文优选:Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guide
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Efficiently Trainab ...
- 语音信号处理(DSP)论文优选:Interactive Modeling for Speech Enhancement
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Interactive Sp ...
- 语音合成论文优选:语音合成综述(2021)
声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...
- 语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis
和这篇文章是前后两天出来的 <Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron& ...
- 语音信号处理论文优选:神农Shennong: a Python toolbox for audio speech features extraction
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
最新文章
- mysql sql 事务写作_mysql中的事务
- python语言中一切皆对象_2 python 中一切皆对象
- 军训分批(codevs 2751)
- leetcode —— 面试题68 - II. 二叉树的最近公共祖先
- 带锚点进度条android,Axure:实现可拖动进度条
- c语言 由函数组成的数组,学生的记录由学号和成绩组成,N名学生的数据已在主函数中放入结构体数组s中,请编写函数fun(),它的_考题宝...
- EditPlus 4.3.2583 中文版已经发布
- (转)android拨打电话崩溃6.0以上实时动态权限申请
- 1078 Hashing (25 分) 解决冲突采用正向增加的二次探查法
- 网络安全之DOS攻击
- 【干货】|800份实战经验PPT免费下载
- PreparedStatement 简介
- 机械工程c语言第一学期考试题,科学出版社机械工程图学习题集1~10章答案.ppt
- 怎么尽可能将pdf文件压缩到最小
- HDU 5855-最大权闭合图(-最小割应用)
- python获取图像灰度极值点_opencv-python读取tiff影像上任意点的灰度值和RBG值
- 新版“大伦敦规划”中的交通发展策略
- php doctrine,Doctrine学习笔记 —— 1
- python棋盘格_python实现张正友棋盘格标定法
- 核心单词Word List 48