机构:Google Inc
会议: 2018ICML

1. introduction

 为了生成可靠的语音,TTS必须依赖很多纯文本中没有包含的因子,比如:语调、重读、节奏(intonation, stress, rhythm)以及说话的风格等,这些都被称作韵律prosody。简单的一个文本随着语境不同会有多种读法,导致某些词的上扬调(rising pitch)和下降调(declining pitch)不同。语音语调上任何细微之处的区别都会传达文本之外的很多含义 。

prosody的定义-----韵律是语音信号中与音素、说话人以及通道影响无关的变量。
 最近提出的tacotron直接从graphemes或者phonemes计算 输出,韵律模型是潜在包含的,单独从训练数据的 统计结果中获得。比如说,英文中一个问号结束的句子有一个 上升调。本文中,用一个明确的prosody control,用一个encoder结构计算一个和文本以及说话人 都 无关的低维embedding,经过试验论证是可行的。
 encoder结构,latent space以及prosody embedding的提出带来的直接结果就是可以生成和训练时不一样语调的语音;另一个结果就是可以从非声学的文本中预测韵律embedding,比如 prosody labels或者conversation state。
 本文主要的共享就是提出encoder结构,从输入中提取定长的embedding,并且证明提取的transfer prosody是说话者无关的,可以自由的在句子间转换。

3. model architecture


 我们是基于tacotron结构,可以从grapheme或者phoneme序列直接预测MFCC,然后通过wavenet vocoder或者将MFCC通过转换网络预测线性谱,然后通过GL声码器进行转换。
 本文的实现是基于(wang,2017a)的encoder、decoder结构,用text normalization front-end and lexicon生成的phoneme序列,因为我们关注的是韵律,模型无法通过grapheme学到发声特征。其中,我们把(wang,2017a)的Bahdanau attention结构替换成GMM attention(Graves, 2013),发现这个改变有利于改善长句子的泛化性。
 demo页面的展示是用wavenet vocoder做的,但是vocoder不会影响transfer prosody的特性,只是语音的质量会有差别。

3.1. Multi-speaker Tacotron

 speaker embedding加在txt embedding的特征上(concat),不需要单独修改loss函数。
txt embedding的特征是LT∗dTL_T*d_TLTdT维度的表示,加上dSd_SdS的特征后,形成LT∗(dT+dS)L_T*(d_T+d_S)LT(dT+dS)的特征表示。

3.2. Reference Encoder

 额外加一个reference encoder模块,输入信号是LR∗dRL_R*d_RLRdR的信号,然后从中计算dPd_PdP维的embedding特征,将这个定长的embedding称作是‘prosody space’。我们的目的是从这个空间中采样,通过对这个空间中元素的操纵有效的控制输出。
 添加的形式依然是concat,因此输入特征维度变成LT∗(dT+dS+dP)L_T*(d_T+d_S+d_P)LT(dT+dS+dP),其中speaker embedding和prosody embedding需要扩展到指定的timestep上。
如图1所示

ref encoder在训练时没有明确的监督,而是把tacotron的loss作为它的loss。对于一个大容量的embedding, representation很容易只是简单的把输入复制到输出端,为了避免这样,像autoencoder一样,我们限制使它限制韵律的嵌入,学到紧凑(compact)的表示。
inference的时候,用ref encoder去编码任何句子,不限制去match的句子内容和speaker embedding,可以保证用另外一个人的句子也可以完成韵律迁移。

网络结构
输入信号LR∗dRL_R*d_RLRdR经过6层conv2D,进行降维,变成128∗(LR/64)∗(dR/64)128*(L_R/64)*(d_R/64)128LR64dR64,然后通过128-d的GRU,只取最后一个输出,为了变换到某一想要的维度,DNN做projection,激活函数会限制学到的信息,对数据幅度做归一会使得学习更容易。实验探索后发现dpd_pdp为128,激活函数用tanh最好。

3.3. Reference signal feature representation

ref encoder的输入会影响我们建模的prosody。
pitch track对于某些语言是不能建模prominence信息的,因为它不包含能量信息。MFCC是pitch track的变种,不能建模 intonation(语调)信息。本文使用mel-warped spectrum感知相关的谱总结【参考:A scale for the measurement of the psychological magnitude pitch】bottleneck实际上需要学到的是信号中不变的特征,比如prosody和录制环境。

我们也尝试用pitch track and intensity替换mel,也有效果,只是本文用了mel。

3.4. Variable-Length Prosody Embeddings

定长的prosody embedding会有明显的scaling bottleneck(缩放瓶颈),3.2的办法是用GRU最后一个时间步输出经过DNN变成定长的输出。替代的办法是用变长的prosody embedding, GRU每个时间步的输出,然后引入一个新的attention head with an attention-aggregator module。变长的prosody embedding可以生成更长的句子,但是对于文本和说话者的扰动性能并没有定长的prosody鲁棒。因此本文还是用定长的prosody。

4. Experiments and Results

数据集

  • 单说话人
  • 多说话人

评测指标,没有普遍接受的韵律评估的指标。从信号处理中取一些可以反映韵律相关的特征指标。短的句子处理成和长句子一致,然后比较。所有的pitch和发声指标用YIN基频估计算法。

  • MCD 梅尔谱失真
  • GPE (gross picth error) 有声帧的pitch偏离refer 20%以上的百分比。
  • VDE(voicing decision error)
  • FFE( F0 frame error) GPE 20%的错误率或者voicing decision的错误率

主观评测

  • AXY discrimination test A是reference signal,X和Y是合成的对比信号,受测者在(-3,3)的7个范围内给出哪一个的韵律和refer更像。
4.3. Same-text Prosody Transfer

在文本内容的语音上先比较是否prosody embedding有效果,比较了
(1)谱图和pitch track,说明with prosody embedding和refer更像,有相似的起振结构,但是without prosody embedding(baseline tacotron)和refer非常不像,比如中间大的停顿;(2)quantitive and subjective evaluation:就上面提到的评价指标对XY进行测试,single-speaker和multi-speaker都有对于seen speaker和unseen speaker的测试。发现在各项指标上,包括seen和unseen,with prosody embedding都全面超过baseline。

ps. 在设计reference encoder的时候要小心的控制传递的信息,不能变成单纯 的reference signle拷贝到输出。

4.4. Templated Prosody Transfer

在文本相同的句子上捕捉到很好的有时间细节的韵律特征,但是把这些韵律转到一个完全不同的句子上会怎样是不清楚的。如果句子或短语变化很大的话,转换是不理想的。这个用例可能更适合捕捉一些细粒度的韵律特征,比如情感或者风格,比如wang的style token用同样的方法建模全局特征。
给出一些样例证明可以在不损失可懂度和韵律的情况下进行文本转换,对于构建末班式的对话系统很有用,可以合成一个想要韵律的模版。

4.5. Preservation of Speaker Identity

 picth,pacing,还有其他的韵律节奏都包含子说话人特性中,很难准确定义在prosody transfer中哪个影响了说话人特征。给出的demo证明了在prosody transfer的时候保留了很多说话人特性,6个发声差异很大的speaker作为refer,结果表明合成的句子很好的保留了说话人特性。但是在跨性别的转换时,男控制女,低沉; 女控制男,更高;说明韵律和说话人特征相互纠缠。
 为了量化这种纠缠关系,设计了一个说话人识别的模型,预测一句话属于训练中seen的说话人中哪一个。模型结构和3.2的reference encoder一样,单独训练,在44-speakers上达到了99%的精度。

  • 然后测试:refer signal和target送入prosody-enhanced tacotron中,结果表明61%来自refer,21%来自target。说明样本大部分更像ref。
  • 模型似乎转了pitch相关的prosody,仅此进一步探究:用13个MFCC训练说话人判别模型,这次结果41%来自ref, 32%来自target。说明说话人相关的pitch从refer转到输出。
4.6. Bottleneck Size and Shape

在MCD和FFE的指标上(1)探究了bottleneck size, 包括24,25,26,272^4,2^5,2^6,2^724,25,26,27,发现size越大,refer的信息流过的越多;(2)尝试了tanhtanhtanhsoftmaxsoftmaxsoftmax的激活函数,发现softmaxsoftmaxsoftmax会有性能下降,可能是因为其中non-maximax component(非最大组件)的指数压缩。
主观评测的结果和上述一致。

另一方面可以解释:size越小,target speaker的信息保留越多。

Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron相关推荐

  1. GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

    和这篇文章是前后两天出来的 <Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron& ...

  2. 语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  3. 【文献解读 情感合成】Expressive Speech Driven Talking Avatar Synthesis with DBLSTM using 有限的情感双峰数据

    论文题目:Expressive Speech Driven Talking Avatar Synthesis with DBLSTM using Limited Amount of Emotional ...

  4. Wav2KWS: Transfer Learning From Speech Representations for Keyword Spotting(2021)

    Wav2KWS:基于语音表示的迁移学习用于关键词识别 摘要 随着设备上人工智能的不断发展,人们提出了智能扬声器.可穿戴设备和(其他设备上或边缘处理系统)等支持语音的设备.然而,构建或获取对鲁棒关键词识 ...

  5. Predicting Expressive Speaking Style From Text In End-To-End Speech Synthesis

    作者:Daisy Stanton, Yuxuan Wang 时间: 2018 arxiv 在GST之后的一篇文章 abstract GST学到的是说话特征解相关后的高维表示.本文提出text-pred ...

  6. 【论文学习】《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》

    <Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis>论文学习 文章目 ...

  7. 一文看尽谷歌AI全年重大研究突破,Jeff Dean执笔,全程干货

    本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处 本文约一万字,建议阅读10+分钟. 学术和应用两开花,开源和新技术同步推进. 刚刚,Jeff Dean代表Google A ...

  8. 语音合成 | 精选论文汇总(197篇)

    ​语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...

  9. 近6年语音合成领域都有哪些论文?

    声明:转发本文请联系博主,并标明出处 语音合成技术近几年都有哪些论文呢? 我们整理了近6年的语音合成论文集分享给大家,希望可以为大家在深耕语音合成领域的过程中,提供绵薄助力.论文集按照年份和引用量列出 ...

  10. 【论文学习】《A Survey on Neural Speech Synthesis》

    <A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...

最新文章

  1. IoC~MVC3+EF+Autofac实现松耦合的系统架构 [转载]
  2. wxWidgets:wxWizard类用法
  3. NGcodec谈FPGA编码与HEVC和AV1
  4. 极速理解设计模式系列:22.状态模式(State Pattern)
  5. AcWing 499. 聪明的质监员
  6. php语法高亮编辑器,最新PHPCMS V9编辑器代码高亮显示亲测可用(提前格式化)
  7. nodejs ref操作_nodejs事件和事件循环详解
  8. 【工具】FormatUtil.ava 常用工具类
  9. Linux下飞鸽传书项目设计书,Linux 下飞鸽传书设计实现
  10. 建筑业建筑业大数据行业现状_建筑—第2部分
  11. Android中实现两次点击返回键退出本程序
  12. 南阳理工acm 1007GCD
  13. HTML/CSS居中对齐的方式大全
  14. 盐值加密、公钥秘钥 理解
  15. 微信小程序开发|起步-工欲善其事必先利其器
  16. 精灵图使用——如何利用js循环实现精灵图设置
  17. php 保持内容换行符,PHP 将内容写入word pdf 换行符不生效咋办
  18. PLC是怎么工作和扫描的
  19. Hyper Text Markup Language 超文本标记语言
  20. win10一行命令查看所有wifi密码

热门文章

  1. 服务器系统在虚拟机安装win7系统安装教程,vmware虚拟机如何安装win7系统_vmware虚拟机安装win7纯净版图文教程...
  2. 《人间告白》---我看万物像你,我看你像万物
  3. 银行卡四要素验证接口测试报告
  4. linux 无法创建目录权限不够
  5. Style之flag标签
  6. 使用PS把证件照背景变成白色
  7. Linux常用命令大全 阶段性总结(一)
  8. 基于特征的真菌分解木材的理解
  9. 2022年全球程序员平均薪资发布,中国排名很意外
  10. Mysql索引失效的几种情况总结