神经网络语音合成模型介绍
最近一段时间主要做语音合成相关项目,学习了几种端到端神经网络语音合成模型,在这里做一个简要介绍。主要内容如下:
-语音合成简介
-线性谱与梅尔谱
- Tacotron
- Deepvoice 3
- Tacotron 2
- Wavenet
- Parallel Wavenet
- Clarinet
-总结
语音合成简介
语音合成,Text To Speech(TTS),顾名思义就是把一段文本转换为语音信号。在人工智能的体系中衔接了自然语言处理与语音技术,在智能音箱,儿童聊天机器人,智能语音客服等语音相关场景中起着非常关键的作用。
语音合成技术从上世纪80年代电脑技术普及后就开始研究,经典的语音合成技术主要基于拼接的方法,然后调整语调,停顿,轻重等韵律参数,涉及语音学,声学等相关知识,对我们半路出家的算法人员来说有着较高的数据及技术门槛。但2017年3月Google提出端到端的tacotron模型[1]后,显著降低了语音合成技术门槛,只要对语音内容文本标注后,就可以用seq2seq框架的模型结构来学习文本与语音频谱直接的映射关系。然后利用Griffin-Lim, WORLD, Wavenet等发声器算法将频谱转换为语音。本文将对主流的几种深度神经网络语音合成模型进行介绍。
本系列会用到的引用先放在这里:
References:
[1] Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc Le, Yannis Agiomyrgiannakis, Rob Clark, and Rif A. Saurous. Tacotron: Towards end-to-end speech synthesis. In Interspeech, 2017.
[2] https://haythamfayek.com/2016/04/21/speech-processing-for-machine-learning.html
[3] Sercan Arik, Mike Chrzanowski, Adam Coates, Gregory Diamos, Andrew Gibiansky, Yongguo Kang, Xian Li, John Miller, Jonathan Raiman, Shubho Sengupta, and Mohammad Shoeybi. Deep voice: Real-time neural text-to-speech. arXiv preprint arXiv:1702.07825, 2017.
[4] Jose Sotelo, Soroush Mehri, Kundan Kumar, Joa ̃o Felipe Santos, Kyle Kastner, Aaron Courville, and Yoshua Bengio. Char2Wav: End-to-end speech synthesis. In ICLR2017 workshop submission, 2017.
[5] Jason Lee, Kyunghyun Cho, and Thomas Hofmann. Fully character-level neural machine translation without explicit segmentation. arXiv preprint arXiv:1610.03017, 2016.
[6] Sercan Ömer Arik, Mike Chrzanowski, Adam Coates, Gregory Frederick Diamos, Andrew Gibiansky, Yongguo Kang, Xian Li, John Miller, Andrew Y. Ng, Jonathan Raiman, Shubho Sengupta, Mohammad Shoeybi: Deep Voice: Real-time Neural Text-to-Speech. ICML 2017: 195-204
[7] Sercan Ömer Arik, Gregory F. Diamos, Andrew Gibiansky, John Miller, Kainan Peng, Wei Ping, Jonathan Raiman, Yanqi Zhou: Deep Voice 2: Multi-Speaker Neural Text-to-Speech. CoRR abs/1705.08947 (2017)
[8] Wei Ping, Kainan Peng, Andrew Gibiansky, Sercan O.Arık, Ajay Kannan, Sharan Naran: DEEP VOICE 3: 2000-SPEAKER NEURAL TEXT-TO-SPEECH. CoRR abs/1710.07654 (2017)
[9] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. Convolutional sequence to sequence learning. arXiv preprint arXiv:1705.03122v2, 2017.
[10] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need. arXiv:1706.03762,2017.
[11] J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry- Ryan, et al. Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions. In ICASSP, 2018.
[12] A. v. d. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu. WaveNet: A generative model for raw audio. arXiv preprint arXiv:1609.03499, 2016.
[13] van den Oord, Aaron, Kalchbrenner, Nal, Vinyals, Oriol, Espeholt, Lasse, Graves, Alex, and Kavukcuoglu, Koray. Conditional image generation with PixelCNN decoders. CoRR, abs/1606.05328, 2016
[14] https://github.com/buriburisuri/speech-to-text-wavenet
[15] Tom Le Paine, Pooya Khorrami, Shiyu Chang, Yang Zhang, Prajit Ramachandran, Mark A. Hasegawa-Johnson, and Thomas S. Huang. Fast wavenet generation algorithm. CoRR, abs/1611.09482, 2016.
[16] https://devblogs.nvidia.com/nv-wavenet-gpu-speech-synthesis/
[17] A. v. d. Oord, Y. Li, I. Babuschkin, K. Simonyan, O. Vinyals, K. Kavukcuoglu, G. v. d. Driessche, E. Lockhart, L. C. Cobo, F. Stimberg, et al. Parallel WaveNet: Fast high-fidelity speech synthesis. In ICML, 2018.
[18] Diederik P Kingma, Tim Salimans, and Max Welling. Improving variational inference with inverse autoregressive flow. arXiv preprint arXiv:1606.04934, 2016.
神经网络语音合成模型介绍相关推荐
- 深度神经网络经典模型介绍
经典模型的特点介绍 VGG,GoogleNet,ResNet,Inception-ResNet-v2 1. VGG模型 VGG又分为VGG16和VGG19, 分别在AlexNet的基础上将层数增加到1 ...
- 神经网络机器翻译模型介绍
以下是这个系列会引用的文献: References: [1] Google's Neural Machine Translation System:Bridging the Gap between H ...
- 百度语音合成模型Deep Voice3
INTRODUCTION Deep Voice3是由百度提出的一个全新的全卷积TTS架构.百度的主要工作分为如下五个方面: 提出了一个全卷积的 character-to-spectrogram 架构, ...
- 深度学习(四):卷积神经网络(CNN)模型结构,前向传播算法和反向传播算法介绍。
在前面我们讲述了DNN的模型与前向反向传播算法.而在DNN大类中,卷积神经网络(Convolutional Neural Networks,以下简称CNN)是最为成功的DNN特例之一.CNN广泛的应用 ...
- 【从零开始学习深度学习】25.卷积神经网络之LeNet模型介绍及其Pytorch实现【含完整代码】
目录 1. LeNet模型介绍与实现 2. 输入为Fashion-MNIST时各层输出形状 3. 获取Fashion-MNIST数据和并使用LeNet模型进行训练 4.完整代码 之前我们对Fashio ...
- 神经网络(模型)量化介绍 - PTQ 和 QAT
神经网络(模型)量化介绍 - PTQ 和 QAT 1. 需求目的 2. 量化简介 3. 三种量化模式 3.1 Dynamic Quantization - 动态量化 3.2 Post-Training ...
- Merlin:一个开源的神经网络语音合成系统
摘要 我们介绍Merlin语音合成工具包用于基于神经网络的语音合成.该系统将语言特征作为输入,采用神经网络来预测声学特征,然后将声学特征传递到声音合成机(vocoder)以产生语音波形.不同的神经网络 ...
- 关于NLP相关技术全部在这里:预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文本处理...
NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...
- 详解预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文本处理...
NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生.我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准资 ...
最新文章
- R语言format函数保留几位小数实战
- SAP PM 入门系列 - IL03显示Function Location主数据
- 洛谷 P1843 奶牛晒衣服
- php 清除之前echo_PHP入门读书笔记(三): 常量和变量
- 第一篇随笔,通常都是内容空洞的。
- OpenCV 像素的读取与操作
- mybatis $和#源代码分析
- 不同发行版linux介绍
- SaltStack系列(二)之常用模块介绍
- Quartus17.0 + ModelSim - IntelFpga安装及破解
- 使用流量分析系统进行资产梳理
- linux centos中使用cp命令复制文件的时候出现omitting directory报错如何解决
- 未来计算机更加智能化,未来计算机的发展趋势
- HTML5期末大作业:美食主题网站设计——美食零食官网响应式网页设计(6页) HTML+CSS+JavaScript
- 高等数学--高阶导数与隐函数,参数方程(三)
- Excel 正则表达式的用法
- ubuntu下载,直接上中国官网就好了
- 如何使用Createjs来编写HTML5游戏(八) 通过继承扩展EaselJS中的基础元素
- 高精度乘法(c++)
- 统计推断——假设检验——两变量关联性分析
热门文章
- win11设置小任务栏
- 常用工具类之AJ-Captcha入门
- 《自己动手写CPU》第五章--逻辑、移位操作与空指令的实现
- linux跟踪内存检测原理,wooyun/Linux下基于内存分析的Rootkit检测方法.html at master · exitmsconfig/wooyun · GitHub...
- TypeScript Essential Notes 5 - Classes
- L---泰拉瑞亚---2023河南萌新联赛第(三)场:郑州大学
- Ubuntu18下安装tensorflow-cpu报错‘serialized_options‘
- 国密SM2加解密 for delphi xe 11.1
- html 获取选中radio,如何在html中获取被选中的radio的值?
- PHP PHPExcel 下拉 让其只能在其下拉的分表隐藏并设置解锁密码