Fine-grained prosody modeling in neural speech synthesis using ToBI representation

作者：Yuxiang Zou
单位：Bytedance AI

文章目录

abstract
proposed method
- front-end
- TTS
experiment

abstract

ToBI (Tones and Break Indices)，英文的韵律标记
本文在做英文语音合成，引入ToBI (Tones and Break Indices)进行细粒度的韵律建模，使用预训练的NLP模型ELECTRA，基于ToBI标签finetune，预测四种标签。然后和tacotron系统配合，完成韵律粒度更细致可控的英文合成。

proposed method

包含两个部分，文本前端（预测ToBI label），以及TTS声学模型。

front-end

预测四种标记（word level），因此是一个序列建模的问题

Pitch accents 对单词的音节标记轻/重读音，L∗/H∗/L∗+H/H∗+LL^* /H^*/L^*+H/H^*+LL∗/H∗/L∗+H/H∗+L
Boundary tones：每一个完整的语调短语边界，默认是H%/L%H\%/L\%H%/L%
Phrase accents：pitch accent和boundary tone的边界，默认是H−/L−H-/L-H−/L−
Break indices：4/3/2/1，不同程度的停顿

虽然无监督的方法在NLP任务中已经广泛应用，但是因为ToBI的数据量比较少，因此本任务采用ELECTRA结构。ELECTRA是一个预训练的text encoder，后边会接判别器，判断输入的token是real or false。对ELECTRA进行finetune，输入768-d的WordPiece token ，CE loss预测上述四种label。

TTS

-tacotron结构

因为输入的韵律格式有多种粒度，因此可以更加自如的进行韵律控制。

experiment

dataset：1.5w句的native speaker，专家标注的ToBI标签

Fine-grained prosody modeling in neural speech synthesis using ToBI representation相关推荐

【论文学习】《A Survey on Neural Speech Synthesis》
<A Survey on Neural Speech Synthesis>论文学习文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...
A Survey on Neural Speech Synthesis
TTS发展历程早期基于计算机的语音合成方法发音合成工作方式:通过模拟人类发音器(如嘴唇.舌头.声门和运动声道)的行为来产生语音. 缺点:合成语音质量差共振峰合成工作方式:基于控制简化源滤波器 ...
语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
论文阅读笔记：Neural Speech Synthesis with Transformer Network
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录前言介绍相关知识模型结构实验结果总结前言标题:Neural Speech Synth ...
语音合成（speech synthesis）方向八：韵律迁移和建模
声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...
GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis
和这篇文章是前后两天出来的 <Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron& ...
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》
<"Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the Real World>论文 ...
语音合成（speech synthesis）方向十一：聊一聊增量式语音合成（iTTS）进化史
声明:工作以来主要从事TTS,VC以及ASR等等相关工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tec ...
【论文学习】《Tacotron: Towards End-to-End Speech Synthesis》
<Tacotron: Towards End-to-End Speech Synthesis>论文学习文章目录 <Tacotron: Towards End-to-End Spee ...
李宏毅DLHLP.14.Speech Synthesis.2/2.More than Tacotron
文章目录介绍 Beyond Tacotron Mispronunciation Syntactic information Attention Guided Attention Monotonic ...