声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进


STYLER: Style Modeling with Rapidity and Robustness via Speech Decomposition for Expressive and Controllable Neural Text to Speech

本文是韩国科学技术院数据工程与分析实验室在2021.03.17号更新的文章,主要在非自回归合成系统上添加可控的style factor模块,以及对noise的去除模块,具体的文章链接

https://arxiv.org/pdf/2103.09474.pdf


1 背景

通常的情感TTS从语音中抽取style factors,例如global style token或者隐变量。本文提到现有的方法不能很好的从音频中分离出style factors,因此本文使用SpeechSplit来进行style factors的分离,诸如:duration, pitch,timbre等等。​从而本文提出了STYLER,该系统能够更加快速快速和鲁棒的进行情感语音合成。

2 详细设计

本文STYLER的系统架构如图1所示,其基础架构为FastSpeech2,其style factors的encoder为SpeechSplit。本文style factors主要包含:text, duration, pitch, speaker, enery 和 noise。比较有意思的是noise的residual decoding,当decoder接入noise信息zn,则为带noise的语音。另外为了其它factors与noise进行解耦,则每个encoder需要添加DAT模块。

3 实验

table1展示了本系统STYLER和其它参考系统对比,其中-P代表文本和原始语言内容一致,-NP则代表本和原始语言内容不一致。由此可知STYLE的MOS在自然度都好于mellotron。另外在unseen的数据好于竞品。table2展示了本文的style迁移好于fastspeech和mellotron。图2展示本文noise模块的作用。

4 总结

本文为了解决现有的情感TTS不能很好的从音频中分离出style factors,因此使用SpeechSplit来进行style factors的分离,并提出了更加鲁棒和快速的系统STYLER。

语音合成论文优选STYLER: Style Modeling with Rapidity and Robustness via Speech Decomposition for Expressive相关推荐

  1. 语音合成论文优选:M2voc大赛总结The M2voc Challenge 2021

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 The Multi-speaker M ...

  2. 语音合成论文优选:Unified Mandarin TTS Front-end Based on Distilled BERT Model

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Unified Mandarin TT ...

  3. 语音合成论文优选:Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Flavored Tacotron: ...

  4. 语音合成论文优选:唇语Speaker disentanglement in video-to-speech conversion

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Speaker disentangle ...

  5. 语音合成论文优选:Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guide

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Efficiently Trainab ...

  6. 语音信号处理(DSP)论文优选:Interactive Modeling for Speech Enhancement

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Interactive Sp ...

  7. 语音合成论文优选:语音合成综述(2021)

    声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...

  8. 语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  9. GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

    和这篇文章是前后两天出来的 <Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron& ...

  10. 语音信号处理论文优选:神农Shennong: a Python toolbox for audio speech features extraction​

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

最新文章

  1. mysql sql 事务写作_mysql中的事务
  2. python语言中一切皆对象_2 python 中一切皆对象
  3. 军训分批(codevs 2751)
  4. leetcode —— 面试题68 - II. 二叉树的最近公共祖先
  5. 带锚点进度条android,Axure:实现可拖动进度条
  6. c语言 由函数组成的数组,学生的记录由学号和成绩组成,N名学生的数据已在主函数中放入结构体数组s中,请编写函数fun(),它的_考题宝...
  7. EditPlus 4.3.2583 中文版已经发布
  8. (转)android拨打电话崩溃6.0以上实时动态权限申请
  9. 1078 Hashing (25 分) 解决冲突采用正向增加的二次探查法
  10. 网络安全之DOS攻击
  11. 【干货】|800份实战经验PPT免费下载
  12. PreparedStatement 简介
  13. 机械工程c语言第一学期考试题,科学出版社机械工程图学习题集1~10章答案.ppt
  14. 怎么尽可能将pdf文件压缩到最小
  15. HDU 5855-最大权闭合图(-最小割应用)
  16. python获取图像灰度极值点_opencv-python读取tiff影像上任意点的灰度值和RBG值
  17. 新版“大伦敦规划”中的交通发展策略
  18. php doctrine,Doctrine学习笔记 —— 1
  19. python棋盘格_python实现张正友棋盘格标定法
  20. 核心单词Word List 48

热门文章

  1. batchsize和数据量设置比例_设置BatchSize
  2. c语言句子后移两位加密,用C语言实现对输入的引英文句子进行加密
  3. 导弹防御系统(LIS+dfs)
  4. rhcsa第二天作业9道题
  5. 图神经网络(GNN)资源帖视频及必读论文
  6. 2015062602 - 星际迷航.红杉书评
  7. 查询语句 group by 分组
  8. Unity游戏引擎介绍及相关学习资源
  9. 如果延迟退休势在必行,区块链如何助力“养老助老”?
  10. arduino 44键盘制作简易计算器