语音合成(TTS)论文优选:Robust Sequence-to-Sequence Acoustic Modeling with Stepwise Monotonic Attention for Ne
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
Robust Sequence-to-Sequence Acoustic Modeling with Stepwise Monotonic Attention for Neural TTS
本篇文章是北京航空航天大学计算机科学与工程学院和中国微软在2019年发表的文章,主要提出了stepwise monotonic attention使语音合成系统更加鲁棒。具体的文章链接 https://arxiv.org/pdf/1906.00672.pdf
(接下来,开始整理attention的文章,逐个击破)
1 背景
seq2seq的模型的语音合成系统为当今的主流模式,其attention模块决定了输入和输出的对齐质量,从而影响合成的语音好坏,尤其存在skipping,repeating and attention collapse的问题。本文提出了一个好的attention评价标注有三个:1)locality:输出的帧都能映射到相应的输入;2)monotonicity:单调性; 3)completeness:完整性,每个输入都有相应的输出。现在的提出的attention的在第一点和第2点上进行设计,但没有文章在第三点上进行设计。本文设计了满足以上三个条件的attention,使语音合成系统更加鲁棒。
2 详细设计
先看一下常用的attention的计算公式1,2,3。先求出上一帧decoder的隐状态和输入的energy,然后使用softmax求取aligment,最后求取context vector c,该方案不具有单调性,因此设计的monotonic attention。
monotonic attention使用以上的公式1之后,直接使用sigmoid进行概率值预测p。最后使用bernoulli判断是否对memory entry进行前移。当然这种方法使用抽样后不能够后向传播,因此训练时候使用类似上边的soft attention,其对齐参数和预测的概率之间的公式转化为5。该attention具有单调性但不能保证满足completeness。
本文在monotonic 基础上添加限制:每次memory entry移动只能最多移动一步,则对齐参数和预测的概率之间的公式转化为7。
以上attention的更直观的如图1所示,一目了然。
3 实验
实验对比了几种attention:1)baseline:tacotron location sensitive attention) 2) GMM:GMM attention 3) Monotonic attention:MA hard & MA soft 4) Forward attention: FA+TA & FA w/o TA 5) stepwise attention: SMA hard & SMA soft。
table 1的结果是和baseline进行偏爱度评测,由结果可知SMA的效果比baseline好,baseline比MA好。tabel 2是和SMA soft比,则SMA比GMM好很多,但比FA+TA差一些。图2 显示SMA soft比hard刻画更好。
图3和table3显示SMA的效果最好,鲁棒性最好。图4是使用out-of-domain语句测试对齐,SMA最好。
4 总结
本文设计了一种满足locality, monotonicity和completeness的attention,使合成系统更加鲁棒。
语音合成(TTS)论文优选:Robust Sequence-to-Sequence Acoustic Modeling with Stepwise Monotonic Attention for Ne相关推荐
- 语音合成TTS论文优选:A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A HYBRID TEXT ...
- 语音合成(TTS)论文优选:Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Location-Relat ...
- 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...
- 语音合成(TTS)论文优选:End-to-End Code-Switching TTS with Cross-Lingual Language Model
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 End-to-End Cod ...
- 语音合成(TTS论文优选:VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 VocGAN: A High ...
- 语音合成(TTS)论文优选:ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-De
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 ByteSing: A Ch ...
- 语音合成 | 精选论文汇总(197篇)
语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...
- 语音信号处理(DSP)论文优选:Interactive Modeling for Speech Enhancement
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Interactive Sp ...
- 语音合成论文优选:Unified Mandarin TTS Front-end Based on Distilled BERT Model
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Unified Mandarin TT ...
- 语音合成(TTS)论文优选:过平滑问题分析及优化Revisiting Over-Smoothness in Text to Speech
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
最新文章
- is_sorted() 函数---一个判断数组和容器是否有序的函数
- mysql之索引的工作机制
- 计算机术语中英文cat表示,pcb 专业术语 中英文对照三
- 担心被绑架?多云战略为企业解烦忧!
- gem for onenote安装教程
- 【软件开发底层知识修炼】十一 链接器-链接脚本
- GROUP BY你都不会!ROLLUP,CUBE,GROUPPING详解
- MIUI系统刷第三方Recovery+Magisk
- Excel案例-杜邦分析法
- Shell - 常用压缩文件处理 zip、gz、tar、rar
- PostGIS空间数据库SRID背景知识 - 地理坐标系(球面坐标系)和投影坐标系(平面坐标系)...
- 18-Sqoop、DataX和Azkaban的介绍
- 【独行秀才】macOS Monterey 12.1Beta4(21C5045a)原版镜像
- 全面正面解读:nmn的副作用和危害怎么样?nmn副作用及应对方法?
- win10 插上有线耳机 无声音:装上声卡驱动【检查】
- DOSBox+MASM,汇编语言环境搭建
- Eclipse如何安装lombok插件
- samba服务器讲解
- CHAR与TCHAR处理函数
- Washing Text Animation
热门文章
- python量化期权_Python量化之期货期权无风险套利测试
- 新加坡 计算机专业,【新加坡计算机类专业】 - 环外新加坡留学网
- Weblogic配置jms服务文档,是自己总结网上搜集到的资料以及自己亲自动手配置测试的总结。
- 微信开发者工具通过二维码编译步骤
- 追光的人 团队团队展示
- 快播关闭服务器,你怎么看?
- 老湿人----山河拱手,为君一笑
- 互联网社交出海:赤子城年内涨幅280%,“深水区”故事如何说好?
- 使用yguard混淆,名字出现超长字符 map=“ooooooooooooooo”
- 论文笔记:2004-Model Predictive Control of a Mobile Robot Using Linearization