1 简介

本文根据2017年《TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS》翻译总结的。如题所述,是一个端到端的语音合成模型。

一个文本到语音的合成系统通常包括多个步骤,包括文本分析、声学模型、声音合成模块等。建立这些单元通常需要广泛的专业领域知识,可能包含脆弱的设计选择。本文,我们呈现了一个端到端的生成模型TACOTRON,直接从文本字符生成语音。给定<text,audio(声音)>,模型可以直接完全训练。

另外,一个单独的端到端模型会比多步骤模型更加健壮,多步骤模型的每个单元错误可能复合。

2 相关工作

WaveNet 是一个非常好的语音合成模型,但它比较慢,因为其样本水平的自回归特性。同时其再TTS前,需要语言特征的条件,所以不太是端到端的。

3 模型结构

如下图,由左边部分的encoder、中间部分的decoder、后处理网络和波形生成构成。

3.1 CBHG

CBHG是从文本序列中提取表达信息,灵感来源于机器翻译。如上图,包括一组(bank)1-D卷积过滤器、highway layers、和bidirectional gated recurrent unit (GRU) (Chung et al., 2014) recurrent neural net (RNN)。highway layers提高高级别的特征。GRU RNN从两个方向(向前与向后)提取序列特征。

3.2 Encoder

Encoder是用来提取健壮的连续的文本表达。Encoder的输入是一个字符序列,其中每个字符用一个one-hot编码表达,然后embed到一个连续向量。然后应用一组非线性转换(我们陈为pre-net)到每个embedding。我们采用带有dropout的 bottleneck layer作为pre-net,这有助于收敛和提高泛化。CBHG将pre-net的输出转换为最终的encoder输出。

我们发现CBHG-based encoder 不仅减少了过拟合,而且比标准的多层RNN encoder产生较少的发音错误。

3.3 Decoder

我们使用content-based tanh attention decoder。使用了一系列带有垂直残差连接的GRU,有助于收敛。在每一个decoder步骤,预测多个、非重叠的输出frame。第一个decoder步骤是基于 frame.

3.4 POST-PROCESSING NET AND WAVEFORM SYNTHESIS

post-processing net将seq2seq的输出转换为可以合成声音波形的spectrogram。使用CBHG作为post-processing net。

我们采用Griffin-Lim算法将spectrogram合成声音波形。

4 实验结果

可以看到tacotron比parametric的方法表现较好。Tacotron是端到端的方法。

TACOTRON-端到端的语音合成模型相关推荐

  1. 端到端的TTS深度学习模型tacotron(中文语音合成)

    TACONTRON: A Fully End-to-End Text-To-Speech Synthesis Model 通常的TTS模型包含许多模块,例如文本分析, 声学模型, 音频合成等.而构建这 ...

  2. 将端到端文本转语音速度提高38倍,全新语音合成系统FastSpeech 梅尔谱的生成速度提升270倍,微软和浙大联合推出

    将端到端文本转语音速度提高38倍,全新语音合成系统FastSpeech 梅尔谱的生成速度提升270倍,微软和浙大联合推出 目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题--合成 ...

  3. 百度宣布AI语音调用登顶中国第一,自研芯片+最新端到端模型颠覆传统语音识别算法...

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2019年,NLP和语音技术取得了多项技术突破,但是科技公司考虑更多的是AI的"场景",如何在各种场景中都能方便地集成语 ...

  4. 喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现

    Photo by Nicholas Githiri from Pexels 现如今,随着TTS技术不断发展,用户对于语音合成的音质质量.流畅度等拥有更高追求.语音合成中的风格控制.音色转换.歌声合成等 ...

  5. 利用 AssemblyAI 在 PyTorch 中建立端到端的语音识别模型

    作者 | Comet 译者 | 天道酬勤,责编 | Carol 出品 | AI 科技大本营(ID:rgznai100) 这篇文章是由AssemblyAI的机器学习研究工程师Michael Nguyen ...

  6. COLING 2018 ⽤对抗增强的端到端模型⽣成合理且多样的故事结尾

    本⽂介绍哈尔滨⼯业⼤学社会计算与信息检索研究中⼼( SCIR)录⽤于COLING 2018的论⽂< Generating Reasonable and Diversified Story End ...

  7. 可以在手机里运行的Detectron2来了:Facebook官方出品,支持端到端模型训练、量化和部署...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 做目标检测.语义分割,你一定听说过Detectron2. 作为一个基于PyTorch实现的模块化目标检测库,Detectron2当年刚一开源 ...

  8. 一个端到端模型GraphDR实现多样化的召回

    一个推荐系统,大致就分为两个模块,召回和排序.再细分下去就是召回,粗排,精排,重排.不管推荐系统多么复杂,无非是为了两个目标,推荐的准确,且多样化.为了实现多样化,往往是在排序中对同质的item做了指 ...

  9. 模型部署到移动端_TensorFlow Lite 自然语言处理模型的最新功能,助力设备端 NLP 部署...

    设备端机器学习框架 TensorFlow Lite 为手机.微控制器和 Edge TPU 等边缘设备提供机器学习功能,已被广泛用于许多应用领域.其中,"自然语言处理" (Natur ...

最新文章

  1. 目标定位--Deep Self-Taught Learning for Weakly Supervised Object Localization
  2. springboot项目文档源码_基于SpringBoot和Vue的企业级中后台项目(附源码)
  3. 斯坦福大学Andrew Ng - 机器学习笔记(8) -- 推荐系统 大规模机器学习 图片文字识别...
  4. Beauty Contest(凸包 + 旋转卡壳(模板))
  5. 如何让new操作符只构造,不申请内存
  6. 随便聊聊,Linux 中的环境变量
  7. 12月14日习题答案大剖析!html5基础测试来啦
  8. select 组件-bug解决方案
  9. [原]Java程序员的JavaScript学习笔记(7——jQuery基本机制)
  10. 重磅发布!最新版《动手学深度学习》PDF版今天终于可以下载
  11. Cocos2D-X2.2.3学习笔记9(处理重力感应事件,移植到Android加入两次返回退出游戏效果)...
  12. nofollow标签的写法与作用
  13. Android简历知识点模板
  14. python pinv和inv总结
  15. 论文中图一.1修改为图1.1
  16. 全国计算机等级考试技巧,全国计算机等级考试二级复习指导及应试技巧
  17. 什么是二维数组以及二维数组传参
  18. var和let和const_用故事讲解JavaScript的var,let和const变量
  19. tensorflow 自定义向量外积
  20. 佟大为新任《非诚》嘉宾 极力反对异地恋

热门文章

  1. 断点续传灯珠SK6813/WS2813 5V内置IC-LED 智能指示灯珠
  2. 前端利用numeral处理数字和时间格式化
  3. 化学lims实验室信息管理系统推荐
  4. PHP只保留下标/值,数组转字符串
  5. 对专业课SE的看法 20.8
  6. 【坑点预警】字节后台框架 arco.design
  7. [BIM族库]BIM常用软件介绍
  8. app模式会被第三方平台模式取代吗_4大原因会导致App被下架,你中招了吗?
  9. Excel转Pdf —— jacob
  10. sincerit 小乐乐吃糖豆