百度Deep Voice 1 2 3阅读笔记

7. Deep Voice: Real-time Neural Text-to-Speech

文章于2017年3月发表

Deep Voice是使用DNN开发的语音合成系统，主要思想是将传统参数语音合成中的各个模块使用神经网络来代替，包括以下五个模块：

grapheme-to-phoneme转换模型：将输入本文转为phoneme序列；
segmentation模型：定位音素边界；
phoneme duration模型：预测phoneme持续时长；
fundamental frequency模型：预测基频F0，音素是否发声；其中，phoneme duration模型和fundamental frequency模型一起训练；
audio synthesis模型：综合1/3/4输出进行音频合成。

各个模型具体实现或描述参见文中。

MOS值对比：

8. Deep Voice 2: Multi-Speaker Neural Text-to-Speech

文章于2017年5月发表

该模型与DeepVoice 1有类似的pipeline，但它在音频质量上却有显著的提高。该模型能够从每个说话人不到半个小时的语音数据中学习数百种独特的声音，同时实现高音质的合成和几乎完美地保留说话人身份。

这篇文章的重点是处理多个说话人而每个说话人的数据有非常少的情况，待后续学习；

9. DEEP VOICE 3: SCALING TEXT-TO-SPEECH WITH CONVOLUTIONAL SEQUENCE LEARNING

文章于2018年2月发表

论文提出了一个新颖的用于语义合成的全卷积架构，可以实现完全并行计算，并解决了多个应用基于注意机制的 TTS 系统时问题；

主要贡献：

提出了一个全卷积的特征到频谱的架构，它使我们能对一个序列的所有元素完全并行计算，对比使用RNN结构，其训练速度极大地加快；
训练很快并且能用于 LibriSpeech这样的大规模数据集，它包含了 2484 个说话人的将近 820 个小时的录音数据；
论文方法可以生成单调注意行为（monotonic attention behavior），并避免语音合成常见的错误模式；
介绍了如何实现 Deep Voice3 的一个推理内核，它可以在一个单 GPU 服务器上每天完成多达 1000 万次推断。

encoder: 一种全卷积编码器，将文本特征转换为内部学习表征；
decoder: 一种全卷积因果解码器，以自回归的方式解码学习表示，注意力机制为monotonic attention；
converter：一种全卷积后处理网络，可以从解码的隐藏状态预测最后输出的特征。和解码器不同，转换器是非因果的，因此可以依赖未来的语境信息。

MOS值对比：

欢迎进群交流~

百度Deep Voice 1 2 3阅读笔记相关推荐

百度 Deep Voice 实现文本到语音的实时转换；GTX 1080 TI 发布，性能超 Titan X | AI 开发者头条...
▲ 内容预览: 百度实现文本到语音的实时转换 Facebook 发布支持 90 种语言的预训练词向量英伟达发布 GTX 1080 TI 每日推荐阅读: 高手实战演练,十大机器学习时间序列预测难题从 ...
《Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network》阅读笔记(二)
<Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network>阅读笔记–翻译 ...
DCP（Deep Closest Point）论文阅读笔记以及详析
DCP论文阅读笔记前言本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...
Deep SORT: Simple Online and Realtime Tracking with a Deep Association Metric（论文阅读笔记）（2017CVPR）
论文链接:<Deep SORT: Simple Online and Realtime Tracking with a Deep Association Metric> ABSTRACT ...
Deep Graph Infomax(DGI) 论文阅读笔记
代码及论文github传送门本文中出现的错误欢迎大家指出,在这里提前感谢w 这篇文章先锤了一下基于random walk的图结构上的非监督学习算法,指出了random walk算法的两个致命缺点. ...
《Memorizing Normality to Detect Anomaly: Memory-augmented Deep Autoencoder for Unsupervi》--阅读笔记-ICCV
Authors Dong Gong, Lingqiao Liu, Vuong Le, Budhaditya Saha,Moussa Reda Mansour, Svetha Venkatesh, An ...
DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs 阅读笔记
DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs 阅读笔记引言 ...
RelExt: Relation Extraction using Deep Learning approaches for Cybersecurity Knowledge Graph 阅读笔记
RelExt: Relation Extraction using Deep Learning approaches for Cybersecurity Knowledge Graph Improve ...
《Deep Learning for Computer Vision withPython》阅读笔记-PractitionerBundle(第9 - 11章)
9.使用HDF5和大数据集到目前为止,在本书中,我们只使用了能够装入机器主存储器的数据集.对于小数据集来说,这是一个合理的假设--我们只需加载每一个单独的图像,对其进行预处理,并允许其通过我们的网络 ...

百度Deep Voice 1 2 3阅读笔记

7. Deep Voice: Real-time Neural Text-to-Speech

8. Deep Voice 2: Multi-Speaker Neural Text-to-Speech

9. DEEP VOICE 3: SCALING TEXT-TO-SPEECH WITH CONVOLUTIONAL SEQUENCE LEARNING

百度Deep Voice 1 2 3阅读笔记相关推荐

最新文章

热门文章