百度Deep Voice 1 2 3阅读笔记
7. Deep Voice: Real-time Neural Text-to-Speech
文章于2017年3月发表
Deep Voice是使用DNN开发的语音合成系统,主要思想是将传统参数语音合成中的各个模块使用神经网络来代替,包括以下五个模块:
- grapheme-to-phoneme转换模型:将输入本文转为phoneme序列;
- segmentation模型:定位音素边界;
- phoneme duration模型:预测phoneme持续时长;
- fundamental frequency模型:预测基频F0,音素是否发声;其中,phoneme duration模型和fundamental frequency模型一起训练;
- audio synthesis模型:综合1/3/4输出进行音频合成。
各个模型具体实现或描述参见文中。
MOS值对比:
8. Deep Voice 2: Multi-Speaker Neural Text-to-Speech
文章于2017年5月发表
该模型与DeepVoice 1有类似的pipeline,但它在音频质量上却有显著的提高。该模型能够从每个说话人不到半个小时的语音数据中学习数百种独特的声音,同时实现高音质的合成和几乎完美地保留说话人身份。
这篇文章的重点是处理多个说话人而每个说话人的数据有非常少的情况,待后续学习;
9. DEEP VOICE 3: SCALING TEXT-TO-SPEECH WITH CONVOLUTIONAL SEQUENCE LEARNING
文章于2018年2月发表
论文提出了一个新颖的用于语义合成的全卷积架构,可以实现完全并行计算,并解决了多个应用基于注意机制的 TTS 系统时问题;
主要贡献:
- 提出了一个全卷积的特征到频谱的架构,它使我们能对一个序列的所有元素完全并行计算,对比使用RNN结构,其训练速度极大地加快;
- 训练很快并且能用于 LibriSpeech这样的大规模数据集,它包含了 2484 个说话人的将近 820 个小时的录音数据;
- 论文方法可以生成单调注意行为(monotonic attention behavior),并避免语音合成常见的错误模式;
- 介绍了如何实现 Deep Voice3 的一个推理内核,它可以在一个单 GPU 服务器上每天完成多达 1000 万次推断。
- encoder: 一种全卷积编码器,将文本特征转换为内部学习表征;
- decoder: 一种全卷积因果解码器,以自回归的方式解码学习表示,注意力机制为monotonic attention;
- converter:一种全卷积后处理网络,可以从解码的隐藏状态预测最后输出的特征。和解码器不同,转换器是非因果的,因此可以依赖未来的语境信息。
MOS值对比:
欢迎进群交流~
百度Deep Voice 1 2 3阅读笔记相关推荐
- 百度 Deep Voice 实现文本到语音的实时转换;GTX 1080 TI 发布,性能超 Titan X | AI 开发者头条...
▲ 内容预览: 百度实现文本到语音的实时转换 Facebook 发布支持 90 种语言的预训练词向量 英伟达发布 GTX 1080 TI 每日推荐阅读: 高手实战演练,十大机器学习时间序列预测难题 从 ...
- 《Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network》阅读笔记(二)
<Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network>阅读笔记–翻译 ...
- DCP(Deep Closest Point)论文阅读笔记以及详析
DCP论文阅读笔记 前言 本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...
- Deep SORT: Simple Online and Realtime Tracking with a Deep Association Metric(论文阅读笔记)(2017CVPR)
论文链接:<Deep SORT: Simple Online and Realtime Tracking with a Deep Association Metric> ABSTRACT ...
- Deep Graph Infomax(DGI) 论文阅读笔记
代码及论文github传送门 本文中出现的错误欢迎大家指出,在这里提前感谢w 这篇文章先锤了一下基于random walk的图结构上的非监督学习算法,指出了random walk算法的两个致命缺点. ...
- 《Memorizing Normality to Detect Anomaly: Memory-augmented Deep Autoencoder for Unsupervi》--阅读笔记-ICCV
Authors Dong Gong, Lingqiao Liu, Vuong Le, Budhaditya Saha,Moussa Reda Mansour, Svetha Venkatesh, An ...
- DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs 阅读笔记
DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs 阅读笔记 引言 ...
- RelExt: Relation Extraction using Deep Learning approaches for Cybersecurity Knowledge Graph 阅读笔记
RelExt: Relation Extraction using Deep Learning approaches for Cybersecurity Knowledge Graph Improve ...
- 《Deep Learning for Computer Vision withPython》阅读笔记-PractitionerBundle(第9 - 11章)
9.使用HDF5和大数据集 到目前为止,在本书中,我们只使用了能够装入机器主存储器的数据集.对于小数据集来说,这是一个合理的假设--我们只需加载每一个单独的图像,对其进行预处理,并允许其通过我们的网络 ...
最新文章
- 网易实践|千万级在线直播弹幕方案
- 互联网拥塞控制终极指南
- 通过用 .NET 生成自定义窗体设计器来定制应用程序
- makefile中的shell调用---注意事项
- aws lambda使用_如何使用AWS Lambda为发布/订阅消息选择最佳事件源
- Python学习——编码转换
- 高盛:大象转身,开启科技金融转型之路
- 龙贝格积分——matlab实现
- 08-go mod和vendor
- 【历史上的今天】4 月 18 日:第一款交互式电子游戏;IBM 率先研发兆位芯片;硬件公司 Roland 成立
- 程序员应该每天写代码
- 在生成式AI的崛起中,百度“先下一城”
- 整流电路 简答题与计算题
- linux如何解压.z文件,linux文件解压缩命令(史上最全教程)
- 【我的书】Unity Shader的书 — 目录(2016.5.19最后一次更新)
- 26 欧拉积分疑惑解析
- gRPC(一)入门:什么是RPC?
- 成都java到底怎么样?发展前景如何?
- 微信小程序基于vant和springboot实现附件上传和预览
- 大数据进阶之算法——KMeans聚类算法
热门文章
- android 3.0界面,网易云相册Android3.0版抢先评测 界面全新设计
- Kubernetes Admission Webhook Validating 与 mutating 实践
- 一篇文章搞懂什么是 Java Agent
- eyemore发布全球首款AI视觉专用成像芯片,能否助推AI视觉产业跃迁?丨Xtecher 观察
- usb 硬盘驱动框架
- 对不起!这篇SVPWM来晚了!
- win7下的vxworks总结
- spring-oauth-server实践:授权方式三:PASSWORD模式下 authorities:ROLE_{user.privillege}, ROLE_USER...
- php用户第三方登录失败,php 实现网站端qq第三方登录接口及一些注意事项【原创】...
- 受冲击自由涡动的旋转梁