声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

Forward Attention in Sequence- To-Sequence Acoustic Modeling for Speech Synthesis

本文章是中国科学技术大学语音与语言信息处理国家工程实验室2018年发表的文章,时间较早了,主要提出了更加鲁棒性的forward attention,具体的文章链接 https://arxiv.org/pdf/1807.06736.pdf  (stepwise文中提到该attention,为了总结全一些,就看一下)

1 背景

基于attention的encoder-decoder架构的语音合成系统效果很好,但现有的attention的效果存在漏字,重复等问题。受到音素序列和声学特征序列单调性对齐现象的启发,本文提出了forward attention,使其更加鲁棒,收敛更快。

2 详细设计

decoder的每一步输入的context vector的计算公式为公式1,其中y为attention的对齐情况,通用的attention的计算公式为2-3。有的attention添加convolutional feature如公式4-5。

本文提出了forward attention,只有满足单调性的路径才被考虑。如图2所示,decoder的计算步骤0到T,对输入x序列为SIL m ao SIL。则所有的路径空间为箭头组成的路径。对于decoder的每一步和输入序列的对齐概率为公式7(路径概率),而且该概率可以递归求取,如公式8。公式9则为了使概率和为1。详细的计算步骤如算法1展示。

另外本文提出了transition agent,可以更灵活的控制对于音素是否移动,而且调节DNN中的bias可以控制语速快慢,具体算法2所示。

3 实验

首先对比baseline和forward attention了使用window和convolution feature等策略的效果。由table 1可知,forward attention + conv.feats效果最好。

接下来,看一下收敛速度,由图2显示,fA-Ta对齐速度很快。其次,合成语音的自然度对比,table2显示使用TA比不使用效果好,也比使用功convolution feature效果好。FA-TA比baseline和LSTM的效果好。

最后,看一下改变DNN的bias调节语速,图3展示调节bias后合成语音长度和不修改bias的比值,可以看出该参数可以调速。

4 总结

本文根据输入的音素序列和声学特征序列是单方向的关系,提出forward attention,实验结果不错。

语音合成(TTS)论文优选:Forward Attention in Sequence- To-Sequence Acoustic Modeling for Speech Synthesis相关推荐

  1. 语音合成TTS论文优选:A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A HYBRID TEXT ...

  2. 语音合成(TTS)论文优选:Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Location-Relat ...

  3. 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...

  4. 语音合成(TTS)论文优选:ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-De

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 ByteSing: A Ch ...

  5. 语音合成(TTS)论文优选:End-to-End Code-Switching TTS with Cross-Lingual Language  Model

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 End-to-End Cod ...

  6. 语音合成(TTS论文优选:VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 VocGAN: A High ...

  7. 【论文学习笔记】《A Review of Deep Learning Based Speech Synthesis》

    基于深度学习的语音合成综述论文学习 文章目录 基于深度学习的语音合成综述论文学习 1 简介 2 语音合成概述 2.1 语音合成概念 2.2 语音合成发展历史 2.3 传统语音合成技术 2.3.1 拼接 ...

  8. 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

  9. 语音合成 | 精选论文汇总(197篇)

    ​语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...

  10. 【论文学习】《A Survey on Neural Speech Synthesis》

    <A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...

最新文章

  1. java代码(dex)注入
  2. 第二十四课:能量和功率
  3. mac下的抓包工具Charles
  4. SpringCloud--Eureka服务注册与发现 Eureka 集群搭建 详细案例!!!
  5. python能够接收由键盘输入的函数是_python实现键盘输入的实操方法
  6. JQuery Tips
  7. 漫画:给女朋友介绍什么是 “元宇宙” ?
  8. java 异步调用webapi_Async Await异步调用WebApi
  9. Linux工作笔记-使用SCP文件协议(SSH协议22端口)使Windows与Linux互传文件
  10. 奥飞娱乐:贝肯熊和镇魂街盲盒产品计划于2021年下半年上市
  11. 网络用词:小狼狗小奶狗区别
  12. vs调试linux多线程,VS2017多线程调试
  13. 跟着实训团初学HTML的第一天
  14. 酒仙网都准备IPO啦,郝鸿峰开始发飙颠覆啦哈
  15. 2022-06-08你抢不到的可达鸭,芯片成本只要几块钱KFC(-JPG)
  16. LUNA 2016 Detection and Segmentation
  17. 乔布斯的演讲——求知若饥,虚心若愚
  18. 知识图谱——领域知识问答系统简单介绍
  19. 测试用例优先级划分_测试用例的重要级别如何划分?
  20. wdr6500虚拟服务器,TP-Link TL-WDR6500双频无线路由器的安装教程

热门文章

  1. 【UE4大数据可视化教程序章一】——生成城市与道路模型
  2. 计算机主板 上电顺序,笔记本电脑主板的上电过程
  3. R plot图片背景设置为透明_CAD2020图形布局输出到打印机、绘图仪,保存和恢复布局的打印设置 - AutoCAD问题库...
  4. windows10下部署环境并运行Siammask中的demo全过程记录
  5. java rdt_使用 Eclipse 和 RDT 开发Ruby应用程序
  6. jQuery中$()函数有几种用法
  7. Linux不能连接蓝牙音箱,【搁浅St|开发日记】彻底解决dueros连接蓝牙音箱的问题...
  8. f7功能键使用计算机,F1到F12都代表什么 电脑键盘上F1-F12键的用法
  9. 鸿蒙音波萨顶顶,萨顶顶把古代论文唱成歌,撒贝宁评价:“最难合作的艺人之一”...
  10. Mysql索引:图文并茂,深入探究索引的原理和使用