语音合成(TTS)论文优选:Forward Attention in Sequence- To-Sequence Acoustic Modeling for Speech Synthesis
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
Forward Attention in Sequence- To-Sequence Acoustic Modeling for Speech Synthesis
本文章是中国科学技术大学语音与语言信息处理国家工程实验室2018年发表的文章,时间较早了,主要提出了更加鲁棒性的forward attention,具体的文章链接 https://arxiv.org/pdf/1807.06736.pdf (stepwise文中提到该attention,为了总结全一些,就看一下)
1 背景
基于attention的encoder-decoder架构的语音合成系统效果很好,但现有的attention的效果存在漏字,重复等问题。受到音素序列和声学特征序列单调性对齐现象的启发,本文提出了forward attention,使其更加鲁棒,收敛更快。
2 详细设计
decoder的每一步输入的context vector的计算公式为公式1,其中y为attention的对齐情况,通用的attention的计算公式为2-3。有的attention添加convolutional feature如公式4-5。
本文提出了forward attention,只有满足单调性的路径才被考虑。如图2所示,decoder的计算步骤0到T,对输入x序列为SIL m ao SIL。则所有的路径空间为箭头组成的路径。对于decoder的每一步和输入序列的对齐概率为公式7(路径概率),而且该概率可以递归求取,如公式8。公式9则为了使概率和为1。详细的计算步骤如算法1展示。
另外本文提出了transition agent,可以更灵活的控制对于音素是否移动,而且调节DNN中的bias可以控制语速快慢,具体算法2所示。
3 实验
首先对比baseline和forward attention了使用window和convolution feature等策略的效果。由table 1可知,forward attention + conv.feats效果最好。
接下来,看一下收敛速度,由图2显示,fA-Ta对齐速度很快。其次,合成语音的自然度对比,table2显示使用TA比不使用效果好,也比使用功convolution feature效果好。FA-TA比baseline和LSTM的效果好。
最后,看一下改变DNN的bias调节语速,图3展示调节bias后合成语音长度和不修改bias的比值,可以看出该参数可以调速。
4 总结
本文根据输入的音素序列和声学特征序列是单方向的关系,提出forward attention,实验结果不错。
语音合成(TTS)论文优选:Forward Attention in Sequence- To-Sequence Acoustic Modeling for Speech Synthesis相关推荐
- 语音合成TTS论文优选:A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A HYBRID TEXT ...
- 语音合成(TTS)论文优选:Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Location-Relat ...
- 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...
- 语音合成(TTS)论文优选:ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-De
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 ByteSing: A Ch ...
- 语音合成(TTS)论文优选:End-to-End Code-Switching TTS with Cross-Lingual Language Model
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 End-to-End Cod ...
- 语音合成(TTS论文优选:VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 VocGAN: A High ...
- 【论文学习笔记】《A Review of Deep Learning Based Speech Synthesis》
基于深度学习的语音合成综述论文学习 文章目录 基于深度学习的语音合成综述论文学习 1 简介 2 语音合成概述 2.1 语音合成概念 2.2 语音合成发展历史 2.3 传统语音合成技术 2.3.1 拼接 ...
- 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
- 语音合成 | 精选论文汇总(197篇)
语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...
- 【论文学习】《A Survey on Neural Speech Synthesis》
<A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...
最新文章
- java代码(dex)注入
- 第二十四课:能量和功率
- mac下的抓包工具Charles
- SpringCloud--Eureka服务注册与发现 Eureka 集群搭建 详细案例!!!
- python能够接收由键盘输入的函数是_python实现键盘输入的实操方法
- JQuery Tips
- 漫画:给女朋友介绍什么是 “元宇宙” ?
- java 异步调用webapi_Async Await异步调用WebApi
- Linux工作笔记-使用SCP文件协议(SSH协议22端口)使Windows与Linux互传文件
- 奥飞娱乐:贝肯熊和镇魂街盲盒产品计划于2021年下半年上市
- 网络用词:小狼狗小奶狗区别
- vs调试linux多线程,VS2017多线程调试
- 跟着实训团初学HTML的第一天
- 酒仙网都准备IPO啦,郝鸿峰开始发飙颠覆啦哈
- 2022-06-08你抢不到的可达鸭,芯片成本只要几块钱KFC(-JPG)
- LUNA 2016 Detection and Segmentation
- 乔布斯的演讲——求知若饥,虚心若愚
- 知识图谱——领域知识问答系统简单介绍
- 测试用例优先级划分_测试用例的重要级别如何划分?
- wdr6500虚拟服务器,TP-Link TL-WDR6500双频无线路由器的安装教程
热门文章
- 【UE4大数据可视化教程序章一】——生成城市与道路模型
- 计算机主板 上电顺序,笔记本电脑主板的上电过程
- R plot图片背景设置为透明_CAD2020图形布局输出到打印机、绘图仪,保存和恢复布局的打印设置 - AutoCAD问题库...
- windows10下部署环境并运行Siammask中的demo全过程记录
- java rdt_使用 Eclipse 和 RDT 开发Ruby应用程序
- jQuery中$()函数有几种用法
- Linux不能连接蓝牙音箱,【搁浅St|开发日记】彻底解决dueros连接蓝牙音箱的问题...
- f7功能键使用计算机,F1到F12都代表什么 电脑键盘上F1-F12键的用法
- 鸿蒙音波萨顶顶,萨顶顶把古代论文唱成歌,撒贝宁评价:“最难合作的艺人之一”...
- Mysql索引:图文并茂,深入探究索引的原理和使用