Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis
会议:SLT2021
单位:台湾国立
作者:Chung-Ming Chien Hung-yi Lee
demo page
文章目录
- abstract
- introduction
- method
- Prosody extraction
- Rule-based prosody extractors
- Neural-based prosody extractors
- Hierarchical prosody modeling
- experiment
abstract
motivation:TTS模型训练时候可以加入各种预先提取的特征(pitch, energy,etc),但是infer时候准确的预测这些特征还是比较难的。对于非自回归的TTS,提供fine-grained prosody feature本身就减少了TTS任务的复杂度。
method:提出一个层级结构,基于word-level prosody预测phn-level prosody。作者认为,word-level prosody可以更好的建模meaning of the sentence, and the speaker’s intention or sentiment(句子的语义,说话的情绪)。
main contribution:
- 支出合成质量和prosody预测的准确度之间是trade off的关系;
- 比较了不同方法提取基频对于语音质量和韵律自然度的关系;
- 提出层级结构,phn level proosdy conditioned on word-level prosody
introduction
training:之前工作的prosody features可以从以下方法获得
- 额外的工具包提取的基频;
- reference encoder提取的prosody feature,将feature的维度设置的尽可能小,以使其主要包含韵律信息,而不要包含其他的文本相关信息(phn seq会提供)。
inference:需要生成需要的韵律信息 - 从phn seq中预测韵律信息;
- 从word-level features中预测韵律信息;
- 从ref utt中提取韵律信息进行模仿,而不考虑输入的文本是什么,主要用于风格迁移的任务中。
- 从先验分布中采样韵律信息。
韵律的特征本身是和语言有关的,之前的工作提出了多层级的韵律建模,但是infer时候prosody emb的生成是和文本无关的,而本文是相关的。我们的模型与任何预训练的词嵌入兼容,因此词级韵律预测受益于广泛开发的从大量未标记文本中预训练的词表示模型。
method
Prosody extraction
从GT mel从提取韵律信息,然后处理成和phn-level feature一样维度的特征,相加之后送入FastSpeech decoder。
Rule-based prosody extractors
提取每一帧的F0和energy,然后按照token duration进行平均(token是phn/word的定义)。具体求平均的方式见ref【7】,然后将平均值量化为256 bins,然后通过LUT的方式转换成prosody embedding。
Neural-based prosody extractors
根据prosody extractor的结果训练prosody predictor,固定reference encoder的参数,而且在infer的时候不许呀reference encoder。
Hierarchical prosody modeling
- word level feature可以比phn-level进行更加准确的韵律预测,但是分辨率低,如果没有足够的信息补充,预测的mel spec会比较模糊。因此设计层级结构,将两个维度的特征结合起来。
experiment
- 数据集:LJSpeech
Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis相关推荐
- 【论文学习】《A Survey on Neural Speech Synthesis》
<A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...
- 语音合成(speech synthesis)方向八:韵律迁移和建模
声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...
- GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis
和这篇文章是前后两天出来的 <Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron& ...
- 语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》
<"Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the Real World>论文 ...
- A Survey on Neural Speech Synthesis
TTS发展历程 早期基于计算机的语音合成方法 发音合成 工作方式:通过模拟人类发音器(如嘴唇.舌头.声门和运动声道)的行为来产生语音. 缺点:合成语音质量差 共振峰合成 工作方式:基于控制简化源滤波器 ...
- 语音合成(speech synthesis)方向十一:聊一聊增量式语音合成(iTTS)进化史
声明:工作以来主要从事TTS,VC以及ASR等等相关工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tec ...
- 李宏毅DLHLP.14.Speech Synthesis.2/2.More than Tacotron
文章目录 介绍 Beyond Tacotron Mispronunciation Syntactic information Attention Guided Attention Monotonic ...
- 【论文学习】《Tacotron: Towards End-to-End Speech Synthesis》
<Tacotron: Towards End-to-End Speech Synthesis>论文学习 文章目录 <Tacotron: Towards End-to-End Spee ...
- 语音合成(speech synthesis)方向一:双重学习Dual Learning
声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...
最新文章
- [20181015]为什么是3秒.txt
- RedisCluster读写分离改造
- java 下对字符串的格式化
- React.Component(V16.8.6)
- mac 黑窗口连接mysql_mac上终端起动MySQL的方法
- php支持哪8种数据类型,PHP八种数据类型+使用实例
- 3d在调试区输出坐标_CSS3如何实现一个 3D 效果的魔方
- 【题解】跳房子-C++
- 地推HTTP成长介绍
- 页面报错500是什么意思_解决方案:品牌备案后,上传产品报错5461,A+页面报错...
- 音频格式G711转PCM的代码
- oracle中文转全拼音,(转)oracle下,把中文转为拼音函数编写
- 安卓原生镜像(中国网站)
- ES部分查询方法,elasticsearch查询方法
- Codeforces1221 C. Perfect Team
- bash: No such file or directory
- 滴滴裁员2000人启示:牛逼的人,都有铁饭碗
- 尚硅谷-SpringBoot1.5.9(已过时,直接学2)
- 基于SpringBoot+Vue的酒店管理系统(免费获取源码+项目介绍+运行介绍+运行截图+论文)
- 如何快速有效的推广微信公众帐号