作者:Yuxiang Zou
单位:Bytedance AI

文章目录

  • abstract
  • proposed method
    • front-end
    • TTS
  • experiment

abstract

  • ToBI (Tones and Break Indices),英文的韵律标记
    本文在做英文语音合成,引入ToBI (Tones and Break Indices)进行细粒度的韵律建模 ,使用预训练的NLP模型ELECTRA,基于ToBI标签finetune,预测四种标签。然后和tacotron系统配合,完成韵律粒度更细致可控的英文合成。

proposed method

  • 包含两个部分,文本前端(预测ToBI label),以及TTS声学模型。

front-end


预测四种标记(word level),因此是一个序列建模的问题

  • Pitch accents 对单词的音节标记轻/重读音,L∗/H∗/L∗+H/H∗+LL^* /H^*/L^*+H/H^*+LL∗/H∗/L∗+H/H∗+L
  • Boundary tones:每一个完整的语调短语边界,默认是H%/L%H\%/L\%H%/L%
  • Phrase accents:pitch accent和boundary tone的边界,默认是H−/L−H-/L-H−/L−
  • Break indices:4/3/2/1,不同程度的停顿

虽然无监督的方法在NLP任务中已经广泛应用,但是因为ToBI的数据量比较少,因此本任务采用ELECTRA结构。ELECTRA是一个预训练的text encoder,后边会接判别器,判断输入的token是real or false。对ELECTRA进行finetune,输入768-d的WordPiece token ,CE loss预测上述四种label。

TTS


-tacotron结构

  • 因为输入的韵律格式有多种粒度,因此可以更加自如的进行韵律控制。

experiment

  • dataset:1.5w句的native speaker,专家标注的ToBI标签

Fine-grained prosody modeling in neural speech synthesis using ToBI representation相关推荐

  1. 【论文学习】《A Survey on Neural Speech Synthesis》

    <A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...

  2. A Survey on Neural Speech Synthesis

    TTS发展历程 早期基于计算机的语音合成方法 发音合成 工作方式:通过模拟人类发音器(如嘴唇.舌头.声门和运动声道)的行为来产生语音. 缺点:合成语音质量差 共振峰合成 工作方式:基于控制简化源滤波器 ...

  3. 语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  4. 论文阅读笔记:Neural Speech Synthesis with Transformer Network

    提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 相关知识 模型结构 实验结果 总结 前言 标题:Neural Speech Synth ...

  5. 语音合成(speech synthesis)方向八:韵律迁移和建模

    声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...

  6. GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

    和这篇文章是前后两天出来的 <Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron& ...

  7. 【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》

    <"Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the Real World>论文 ...

  8. 语音合成(speech synthesis)方向十一:聊一聊增量式语音合成(iTTS)进化史

    声明:工作以来主要从事TTS,VC以及ASR等等相关工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tec ...

  9. 【论文学习】《Tacotron: Towards End-to-End Speech Synthesis》

    <Tacotron: Towards End-to-End Speech Synthesis>论文学习 文章目录 <Tacotron: Towards End-to-End Spee ...

  10. 李宏毅DLHLP.14.Speech Synthesis.2/2.More than Tacotron

    文章目录 介绍 Beyond Tacotron Mispronunciation Syntactic information Attention Guided Attention Monotonic ...

最新文章

  1. python搭建环境是什么_python虚拟环境是什么?python虚拟环境的介绍
  2. 快速寻找满足条件的两个数
  3. 实例详解 EJB 中的六大事务传播属性--转
  4. datagridview输入字符串的格式不正确_Python3试学:输入和输出(1)
  5. 理解 Delphi 的类(十) - 深入方法[4] - 共同类型的参数的简化写法
  6. 【渝粤教育】广东开放大学 动画概论 形成性考核 (44)
  7. linux内核网络新特性,Linux内核4.4版本带来的网络新特性
  8. pyv8的使用基本方法
  9. 用时一个半个月,七月刚入职字节跳动的测试开发面试题,内附答案
  10. TTL转RS232电路
  11. 我家猫老喜欢和我躲猫猫,我用Python赶忙写了个猫脸检测器。在哪里都逃不出我的手心。
  12. OPPO技术开放日第六期丨OPPO安全解析“应用与数据安全防护”背后的技术
  13. 中泰资管天团丨如何用量化复制巴菲特?
  14. 台式计算机的配置怎么看,台式电脑配置怎么看
  15. 6T SRAM的基本结构及其读写操作
  16. 论Python中注释的重要性
  17. 每日一道Leetcode - 5. 最长回文子串 【动态规划】
  18. 堆和栈的区别 (BY 任我行)
  19. VM Centos7 Minimal 简单初始化操作
  20. 图木舒克市谷歌高清卫星地图下载

热门文章

  1. STC15系列单片机-I/O口小结
  2. 计算机报时间校准错误无法启动,【北京时间同步如何校准?】电脑时间同步服务器地址出错怎么办?...
  3. 分享一个我常用的信息差赚钱渠道
  4. Cron每年1月5号 4月5号 7月5号 10月5号 00:00:00执行任务
  5. 百旺如何看是否清卡_百旺税控怎么看反写成功
  6. JPA使用nativeQuery多参数查询注意点
  7. 解决mac上复制粘贴失效问题
  8. 同比和环比分别是什么,一分钟告诉你。
  9. 【计算机体系结构】实验4指令调度与分支延迟
  10. 一些游戏用到的渲染技术