Fine-grained prosody modeling in neural speech synthesis using ToBI representation
作者:Yuxiang Zou
单位:Bytedance AI
文章目录
- abstract
- proposed method
- front-end
- TTS
- experiment
abstract
- ToBI (Tones and Break Indices),英文的韵律标记
本文在做英文语音合成,引入ToBI (Tones and Break Indices)进行细粒度的韵律建模 ,使用预训练的NLP模型ELECTRA,基于ToBI标签finetune,预测四种标签。然后和tacotron系统配合,完成韵律粒度更细致可控的英文合成。
proposed method
- 包含两个部分,文本前端(预测ToBI label),以及TTS声学模型。
front-end
预测四种标记(word level),因此是一个序列建模的问题
- Pitch accents 对单词的音节标记轻/重读音,L∗/H∗/L∗+H/H∗+LL^* /H^*/L^*+H/H^*+LL∗/H∗/L∗+H/H∗+L
- Boundary tones:每一个完整的语调短语边界,默认是H%/L%H\%/L\%H%/L%
- Phrase accents:pitch accent和boundary tone的边界,默认是H−/L−H-/L-H−/L−
- Break indices:4/3/2/1,不同程度的停顿
虽然无监督的方法在NLP任务中已经广泛应用,但是因为ToBI的数据量比较少,因此本任务采用ELECTRA结构。ELECTRA是一个预训练的text encoder,后边会接判别器,判断输入的token是real or false。对ELECTRA进行finetune,输入768-d的WordPiece token ,CE loss预测上述四种label。
TTS
-tacotron结构
- 因为输入的韵律格式有多种粒度,因此可以更加自如的进行韵律控制。
experiment
- dataset:1.5w句的native speaker,专家标注的ToBI标签
Fine-grained prosody modeling in neural speech synthesis using ToBI representation相关推荐
- 【论文学习】《A Survey on Neural Speech Synthesis》
<A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...
- A Survey on Neural Speech Synthesis
TTS发展历程 早期基于计算机的语音合成方法 发音合成 工作方式:通过模拟人类发音器(如嘴唇.舌头.声门和运动声道)的行为来产生语音. 缺点:合成语音质量差 共振峰合成 工作方式:基于控制简化源滤波器 ...
- 语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 论文阅读笔记:Neural Speech Synthesis with Transformer Network
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 相关知识 模型结构 实验结果 总结 前言 标题:Neural Speech Synth ...
- 语音合成(speech synthesis)方向八:韵律迁移和建模
声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...
- GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis
和这篇文章是前后两天出来的 <Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron& ...
- 【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》
<"Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the Real World>论文 ...
- 语音合成(speech synthesis)方向十一:聊一聊增量式语音合成(iTTS)进化史
声明:工作以来主要从事TTS,VC以及ASR等等相关工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tec ...
- 【论文学习】《Tacotron: Towards End-to-End Speech Synthesis》
<Tacotron: Towards End-to-End Speech Synthesis>论文学习 文章目录 <Tacotron: Towards End-to-End Spee ...
- 李宏毅DLHLP.14.Speech Synthesis.2/2.More than Tacotron
文章目录 介绍 Beyond Tacotron Mispronunciation Syntactic information Attention Guided Attention Monotonic ...
最新文章
- python搭建环境是什么_python虚拟环境是什么?python虚拟环境的介绍
- 快速寻找满足条件的两个数
- 实例详解 EJB 中的六大事务传播属性--转
- datagridview输入字符串的格式不正确_Python3试学:输入和输出(1)
- 理解 Delphi 的类(十) - 深入方法[4] - 共同类型的参数的简化写法
- 【渝粤教育】广东开放大学 动画概论 形成性考核 (44)
- linux内核网络新特性,Linux内核4.4版本带来的网络新特性
- pyv8的使用基本方法
- 用时一个半个月,七月刚入职字节跳动的测试开发面试题,内附答案
- TTL转RS232电路
- 我家猫老喜欢和我躲猫猫,我用Python赶忙写了个猫脸检测器。在哪里都逃不出我的手心。
- OPPO技术开放日第六期丨OPPO安全解析“应用与数据安全防护”背后的技术
- 中泰资管天团丨如何用量化复制巴菲特?
- 台式计算机的配置怎么看,台式电脑配置怎么看
- 6T SRAM的基本结构及其读写操作
- 论Python中注释的重要性
- 每日一道Leetcode - 5. 最长回文子串 【动态规划】
- 堆和栈的区别 (BY 任我行)
- VM Centos7 Minimal 简单初始化操作
- 图木舒克市谷歌高清卫星地图下载