声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis

本文为三星企业在2021.11.19更新的文章,主要对音素级别的韵律进行调控,具体的文章链接

https://arxiv.org/pdf/2111.10177.pdf


1 研究背景

上半年我做过语音合成韵律迁移和建模做过一次总结,相关的背景就不再做介绍,大家有兴趣可以参考文章

语音合成(speech synthesis)方向八:韵律迁移和建模(https://mp.weixin.qq.com/s/3M9-bfOrh-jHvrJMyCg1vA)。本文使用f0和duration对音素进行聚类,然后使用单独的韵律encoder和attention进行编码对齐,从而可以调控语音合成的韵律情感。

2 详细设计

本文整体思想还比较简单,整体的思路如下:1)先通过对齐工具把每帧和音素进行对齐;2)求取音素的时长和f0; 3)然后使用k-means进行聚类,本文实验把f0聚类为12类,duration聚类15类;4)然后使用如下图1所示的系统进行训练和推理,该系统整体架构为tacotron架构。该系统的输入为音素序列和音素对应的韵律序列,韵律序列即聚类分类。

3 实验

本实验训练三个系统:仅使用f0分类训练的F0 model,仅使用duration训练的Duration model和同时使用f0和duration的joint model。图1测试了三个系统随着调节f0和duration分类的系统情况,可以看出单独模型和联合模型可以控制系统韵律变化。图3展示单独调节f0和duration对MOS值的影响,图4是同时调节f0和duration对整体系统MOS的影响。图5展示了音符上进行的聚类情况。

4 总结

本文章设计了一种使用f0和duration进行聚类来进行音素级别的韵律控制​。​

语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis相关推荐

  1. 语音合成论文优选:Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Flavored Tacotron: ...

  2. 语音合成论文优选:Unified Mandarin TTS Front-end Based on Distilled BERT Model

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Unified Mandarin TT ...

  3. 语音合成论文优选:唇语Speaker disentanglement in video-to-speech conversion

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Speaker disentangle ...

  4. 语音合成论文优选:Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guide

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Efficiently Trainab ...

  5. 语音合成论文优选:M2voc大赛总结The M2voc Challenge 2021

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 The Multi-speaker M ...

  6. 语音合成论文优选:语音合成综述(2021)

    声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...

  7. 【论文学习】《A Survey on Neural Speech Synthesis》

    <A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...

  8. 语音合成(speech synthesis)方向八:韵律迁移和建模

    声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...

  9. 语音合成(speech synthesis)方向十一:聊一聊增量式语音合成(iTTS)进化史

    声明:工作以来主要从事TTS,VC以及ASR等等相关工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tec ...

最新文章

  1. TensorFlow之图结构与TensorBoard可视化
  2. ActiveMQ消息中间件简明笔记(1)——理论知识点整理
  3. WTL中CMemDC与CDC、CDCHandle的联系
  4. webpack配置模块的查找范围
  5. CentOS7Jenkins安装
  6. MyEclipse for Windows 关于 java、jsp、xml、js、html 等文件的注释快捷键及注释格式介绍
  7. 通过这个免费的,由23部分组成的互动课程,学习ES6 +
  8. [开源] 使用 Python 轻松操作已存在的表
  9. #CSP 201509-1 数列分段(100分)
  10. 不同路径(I和II)--动态规划
  11. 一个通用的VB磁盘文件搜索引擎类
  12. Percona Toolkit工具箱的安装与使用--完成复杂的mysql操作。
  13. 三角形的几何公式大全_2020高中数学必备公式大全
  14. vue 数组中的元素 渲染到一行
  15. java中实现工厂日历_Java实现的日历功能完整示例
  16. 用Python每天自动给女朋友免费发短信,谁说程序员不懂浪漫?
  17. 基于51单片机的俄罗斯方块小游戏
  18. php echo,print,print_r,var_dum的区别
  19. 运筹学实验_最短路径
  20. 怎么理解cpu load?

热门文章

  1. 不负好时光——《Netty in Action》中文版《Netty实战》翻译手记
  2. apache tomcat 闪退
  3. 《MTP中层干部管理技能提升训练》--司铭宇老师
  4. TP-Link无线路由器HTTP/TFTP后门漏洞
  5. mysql select 指定列_MySQL使用select语句查询指定表中指定列(字段)的数据
  6. linux单个IP地址绑定多个域名详解
  7. 003 CMOS功耗分析
  8. Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition
  9. vue中实现锚点定位平滑滚动
  10. 瑞友天翼应用虚拟化系统RCE漏洞复现+利用