Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis

2024-04-14 18:33:37

会议：SLT2021
单位：台湾国立
作者：Chung-Ming Chien Hung-yi Lee
demo page

文章目录

abstract
introduction
method
- Prosody extraction
- Rule-based prosody extractors
- Neural-based prosody extractors
- Hierarchical prosody modeling
experiment

abstract

motivation：TTS模型训练时候可以加入各种预先提取的特征（pitch， energy，etc），但是infer时候准确的预测这些特征还是比较难的。对于非自回归的TTS，提供fine-grained prosody feature本身就减少了TTS任务的复杂度。
method：提出一个层级结构，基于word-level prosody预测phn-level prosody。作者认为，word-level prosody可以更好的建模meaning of the sentence, and the speaker’s intention or sentiment（句子的语义，说话的情绪）。
main contribution：

支出合成质量和prosody预测的准确度之间是trade off的关系；
比较了不同方法提取基频对于语音质量和韵律自然度的关系；
提出层级结构，phn level proosdy conditioned on word-level prosody

introduction

training：之前工作的prosody features可以从以下方法获得

额外的工具包提取的基频；
reference encoder提取的prosody feature，将feature的维度设置的尽可能小，以使其主要包含韵律信息，而不要包含其他的文本相关信息（phn seq会提供）。
inference：需要生成需要的韵律信息
从phn seq中预测韵律信息；
从word-level features中预测韵律信息；
从ref utt中提取韵律信息进行模仿，而不考虑输入的文本是什么，主要用于风格迁移的任务中。
从先验分布中采样韵律信息。

韵律的特征本身是和语言有关的，之前的工作提出了多层级的韵律建模，但是infer时候prosody emb的生成是和文本无关的，而本文是相关的。我们的模型与任何预训练的词嵌入兼容，因此词级韵律预测受益于广泛开发的从大量未标记文本中预训练的词表示模型。

method

Prosody extraction

从GT mel从提取韵律信息，然后处理成和phn-level feature一样维度的特征，相加之后送入FastSpeech decoder。

Rule-based prosody extractors

提取每一帧的F0和energy，然后按照token duration进行平均（token是phn/word的定义）。具体求平均的方式见ref【7】，然后将平均值量化为256 bins，然后通过LUT的方式转换成prosody embedding。

Neural-based prosody extractors

根据prosody extractor的结果训练prosody predictor，固定reference encoder的参数，而且在infer的时候不许呀reference encoder。

Hierarchical prosody modeling

word level feature可以比phn-level进行更加准确的韵律预测，但是分辨率低，如果没有足够的信息补充，预测的mel spec会比较模糊。因此设计层级结构，将两个维度的特征结合起来。

experiment

数据集：LJSpeech

Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis相关推荐

【论文学习】《A Survey on Neural Speech Synthesis》
<A Survey on Neural Speech Synthesis>论文学习文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...
语音合成（speech synthesis）方向八：韵律迁移和建模
声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...
GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis
和这篇文章是前后两天出来的 <Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron& ...
语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》
<"Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the Real World>论文 ...
A Survey on Neural Speech Synthesis
TTS发展历程早期基于计算机的语音合成方法发音合成工作方式:通过模拟人类发音器(如嘴唇.舌头.声门和运动声道)的行为来产生语音. 缺点:合成语音质量差共振峰合成工作方式:基于控制简化源滤波器 ...
语音合成（speech synthesis）方向十一：聊一聊增量式语音合成（iTTS）进化史
声明:工作以来主要从事TTS,VC以及ASR等等相关工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tec ...
李宏毅DLHLP.14.Speech Synthesis.2/2.More than Tacotron
文章目录介绍 Beyond Tacotron Mispronunciation Syntactic information Attention Guided Attention Monotonic ...
【论文学习】《Tacotron: Towards End-to-End Speech Synthesis》
<Tacotron: Towards End-to-End Speech Synthesis>论文学习文章目录 <Tacotron: Towards End-to-End Spee ...
语音合成（speech synthesis）方向一：双重学习Dual Learning
声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...

最新文章

热门文章