• 会议:2020 icassp
  • 单位:Google brain
  • 在此文基础上的层级建模改进CSDN解说:Robust and fine-grained prosody control of end-to-end speech synthesis

    文章目录

    • abstract
    • introduction
    • multi-level prosody modeling structure
    • Interpretable CVAE

abstract

  • 对韵律进行多粒度建模,使用CVAE提取hierarchical, fine-grained , interpretable的隐向量。
  • 韵律和其他很多特征耦合在一起,本文尝试对韵律控制进行层级建模,使得latent prosody model的过程可解释性增强,每一维的向量都有对应的物理含义。

introduction

ref【13】Robust and fine-grained prosody control of end-to-end speech synthesis

本文的prosody是对pitch,energy,duration的统称。【13】提出可以建模phn粒度的prosody embedding,但是某些特征(比如字级别发音的连贯性、noise level以及声道特性)都不能仅仅从phn prosody embedding中得到。因此本文提出多层级的解耦控制——utterance level & word level & phone level。

不和真实的latent factor结合而学习独立分布的隐变量,这一方向已经取得了很大的进展。但是【25】证明没有任何inductive bias下无监督学习得到解耦特征是不可能的。【25】中证明了相同边界分布的两个空间具有无限的双向映射关系(两个空间高度耦和)。

multi-level prosody modeling structure

  1. 首先根据tacotron2的Location-sensitive attention得到对齐信息。
  2. 然后根据phn-word align信息,计算得到词边界,average spec以得到计算word-level prosody embedding
  3. 然后根据已经得到的word-level prosody embedding,预测更细粒度的phn level prosody embedding。
  4. phn prosody和word prosody拼接(根据phn-word align扩帧),送给decoder用于特征重建。
  • 因为zf(n)wz^w_{f(n)}zf(n)w的分布也是变量,所以要乘期望,但是实际上,这个期望的分布在模型计算的时候,每个batch内自动求了,并不需要体现在损失函数中。

Interpretable CVAE

  • 如图所示,假设VAE建模的多维向量之间彼此不相关(对角高斯分布),train/infer stage可以表示为left (1)/(2);z1z_1z1不会给z2,z3z_2, z_3z2,z3提供任何的信息;

  • 但是如果特征没有解耦干净,比如z1z_1z1提取的是能量信息,它会告诉z2,z3z_2, z_3z2,z3提取能量之外的信息(further info),变成了有相关性的韵律建模,这个关系表示为left (3)——预测过程有相关性。
    因为【13】text-side 的实验结果说明各个维度的特征之间还有耦合关系,因此在模型设计的时候进行层级的设计。

  • 每次预测一维latent embedding,在预测第k维latent embedding的时候,VAE的输入是aligned spec + sum(previously extracted latent features),这样的目的是让第k维latent embedding更多的编码其他维度之外(previous extracted latent features)还没有表示的信息,然后输入到decoder帮助重建,

  • trick:实验发现,解耦得到的特征依次会是energy-duration-F0 ,首先只打开第一维训练若干steps稳定之后,再打开第二维,在已经energy先验之后会更主动的去学习duration信息。

Fully-hierarchical fine-grained prosody modeling for interpretable speech synthesis相关推荐

  1. 语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  2. GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

    和这篇文章是前后两天出来的 <Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron& ...

  3. 语音合成 | 精选论文汇总(197篇)

    ​语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...

  4. 【论文学习】《A Survey on Neural Speech Synthesis》

    <A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...

  5. 语音合成(speech synthesis)方向八:韵律迁移和建模

    声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...

  6. 2020年 ICLR 国际会议最终接受论文(poster-paper)列表(二)

    来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2020-02-21     2020年的ICLR会议将于今年的4月26日-4月30日在Mil ...

  7. 【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》

    <An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...

  8. 【ICLR2019】Poster 论文汇总

    ICLR2019 Poster 文章汇总, 共478 papers Convolutional Neural Networks on Non-uniform Geometrical Signals U ...

  9. 顶会速递 | ICLR 2020录用论文全集

    由深度学习三巨头Yoshua Bengio和Yann LeCun牵头创办的人工智能顶会ICLR今年最终收到2594篇投稿,共687篇论文被接收,其中48篇orals,108篇spotlights,53 ...

  10. ICML 2018 paper(oral)

    参考链接 icml 2018 oral Paperlist Optimal Tuning for Divide-and-conquer Kernel Ridge Regression with Mas ...

最新文章

  1. html的基本网页界面的画法video src=video/myz.mp4 controls=controls/video
  2. 十款让 Web 前端开发人员更轻松的实用工具
  3. SpringBoot(2)之自定义配置
  4. oracle专用服务器模式与共享服务器模式
  5. matlab 格式化文件,格式化matlab文件01_新建普通文件
  6. Django(part31)--admin后台数据库管理
  7. 【VB测绘程序设计】第三章 VB结构化程序设计(顺序、选择、循环)
  8. C语言小案例_10天从小白到入门C语言编程的学习秘籍
  9. 第二讲 数学模型方法
  10. LeetCode(657)——机器人能否返回原点(JavaScript)
  11. [JZOJ3347] 【NOI2013模拟】树的难题
  12. 09年职称计算机考试,09年职称计算机考试试题A.doc
  13. 基于java的药品管理系统_基于Java药品管理系统
  14. 计算机桌面维护介绍,电脑桌面基础知识介绍
  15. 18套桁架机械手双轴/图纸龙门架机器人SolidWorks3D模型设计图纸
  16. 【动态规划】字符串编辑距离(Levenshtein距离)算法
  17. 解决安装tensorflow-gpu:ImportError: DLL load failed:找不到指定的模块。从根源解决问题
  18. openstack-ocata版本nova MQ(rpc)接收端(server)浅析
  19. 【嵌入式Linux(基础篇)】嵌入式Linux底层系统开发流程和应用开发流程
  20. Hibernate对象状态

热门文章

  1. windows 10 账号密码策略及规则
  2. ppt文件太大怎么压缩
  3. 第三方银联支付接口对接_第三方支付接口集成安装,网站支付接口对接,网站收款接口...
  4. 老路教你用得上的商学课_系列笔记
  5. 计算机中 b、KB、MB、GB、TB之间的换算关系
  6. Spark实践的阶段性总结
  7. assignment to ‘float *’ from ‘int’ makes pointer from integer without a cast [-Wint-conversion]指针类型错
  8. python中素数怎么判断_python怎么判断素数
  9. 解决System进程占用80端口
  10. 5.1索引压缩-词项的统计特性(Heaps定律、Zipf定律)