声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

Robust Sequence-to-Sequence Acoustic Modeling with Stepwise Monotonic Attention for Neural TTS

本篇文章是北京航空航天大学计算机科学与工程学院和中国微软在2019年发表的文章,主要提出了stepwise monotonic attention使语音合成系统更加鲁棒。具体的文章链接 https://arxiv.org/pdf/1906.00672.pdf

(接下来,开始整理attention的文章,逐个击破)

1 背景

seq2seq的模型的语音合成系统为当今的主流模式,其attention模块决定了输入和输出的对齐质量,从而影响合成的语音好坏,尤其存在skipping,repeating and attention collapse的问题。本文提出了一个好的attention评价标注有三个:1)locality:输出的帧都能映射到相应的输入;2)monotonicity:单调性; 3)completeness:完整性,每个输入都有相应的输出。现在的提出的attention的在第一点和第2点上进行设计,但没有文章在第三点上进行设计。本文设计了满足以上三个条件的attention,使语音合成系统更加鲁棒。

2  详细设计

先看一下常用的attention的计算公式1,2,3。先求出上一帧decoder的隐状态和输入的energy,然后使用softmax求取aligment,最后求取context vector c,该方案不具有单调性,因此设计的monotonic attention。

monotonic attention使用以上的公式1之后,直接使用sigmoid进行概率值预测p。最后使用bernoulli判断是否对memory entry进行前移。当然这种方法使用抽样后不能够后向传播,因此训练时候使用类似上边的soft attention,其对齐参数和预测的概率之间的公式转化为5。该attention具有单调性但不能保证满足completeness。

本文在monotonic 基础上添加限制:每次memory entry移动只能最多移动一步,则对齐参数和预测的概率之间的公式转化为7。

以上attention的更直观的如图1所示,一目了然。

3 实验

实验对比了几种attention:1)baseline:tacotron location sensitive  attention) 2) GMM:GMM attention 3) Monotonic attention:MA hard & MA soft 4) Forward attention: FA+TA & FA w/o TA 5) stepwise attention: SMA hard & SMA soft。

table 1的结果是和baseline进行偏爱度评测,由结果可知SMA的效果比baseline好,baseline比MA好。tabel 2是和SMA soft比,则SMA比GMM好很多,但比FA+TA差一些。图2 显示SMA soft比hard刻画更好。

图3和table3显示SMA的效果最好,鲁棒性最好。图4是使用out-of-domain语句测试对齐,SMA最好。

4 总结

本文设计了一种满足locality, monotonicity和completeness的attention,使合成系统更加鲁棒。

语音合成(TTS)论文优选:Robust Sequence-to-Sequence Acoustic Modeling with Stepwise Monotonic Attention for Ne相关推荐

  1. 语音合成TTS论文优选:A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A HYBRID TEXT ...

  2. 语音合成(TTS)论文优选:Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Location-Relat ...

  3. 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...

  4. 语音合成(TTS)论文优选:End-to-End Code-Switching TTS with Cross-Lingual Language  Model

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 End-to-End Cod ...

  5. 语音合成(TTS论文优选:VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 VocGAN: A High ...

  6. 语音合成(TTS)论文优选:ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-De

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 ByteSing: A Ch ...

  7. 语音合成 | 精选论文汇总(197篇)

    ​语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...

  8. 语音信号处理(DSP)论文优选:Interactive Modeling for Speech Enhancement

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Interactive Sp ...

  9. 语音合成论文优选:Unified Mandarin TTS Front-end Based on Distilled BERT Model

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Unified Mandarin TT ...

  10. 语音合成(TTS)论文优选:过平滑问题分析及优化Revisiting Over-Smoothness in Text to Speech

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

最新文章

  1. is_sorted() 函数---一个判断数组和容器是否有序的函数
  2. mysql之索引的工作机制
  3. 计算机术语中英文cat表示,pcb 专业术语 中英文对照三
  4. 担心被绑架?多云战略为企业解烦忧!
  5. gem for onenote安装教程
  6. 【软件开发底层知识修炼】十一 链接器-链接脚本
  7. GROUP BY你都不会!ROLLUP,CUBE,GROUPPING详解
  8. MIUI系统刷第三方Recovery+Magisk
  9. Excel案例-杜邦分析法
  10. Shell - 常用压缩文件处理 zip、gz、tar、rar
  11. PostGIS空间数据库SRID背景知识 - 地理坐标系(球面坐标系)和投影坐标系(平面坐标系)...
  12. 18-Sqoop、DataX和Azkaban的介绍
  13. 【独行秀才】macOS Monterey 12.1Beta4(21C5045a)原版镜像
  14. 全面正面解读:nmn的副作用和危害怎么样?nmn副作用及应对方法?
  15. win10 插上有线耳机 无声音:装上声卡驱动【检查】
  16. DOSBox+MASM,汇编语言环境搭建
  17. Eclipse如何安装lombok插件
  18. samba服务器讲解
  19. CHAR与TCHAR处理函数
  20. Washing Text Animation

热门文章

  1. python量化期权_Python量化之期货期权无风险套利测试
  2. 新加坡 计算机专业,【新加坡计算机类专业】 - 环外新加坡留学网
  3. Weblogic配置jms服务文档,是自己总结网上搜集到的资料以及自己亲自动手配置测试的总结。
  4. 微信开发者工具通过二维码编译步骤
  5. 追光的人 团队团队展示
  6. 快播关闭服务器,你怎么看?
  7. 老湿人----山河拱手,为君一笑
  8. 互联网社交出海:赤子城年内涨幅280%,“深水区”故事如何说好?
  9. 使用yguard混淆,名字出现超长字符 map=“ooooooooooooooo”
  10. 论文笔记:2004-Model Predictive Control of a Mobile Robot Using Linearization