GAN合成语音相关论文

最近在做GAN语音生成相关的东西，找了一些相关的最新的论文和资料，在这里做一个记录。

一、语音基础知识

在知乎上看到了一个比较详细的介绍，搬运过来：语音合成那些事

二、GAN合成语音（TTS）相关论文

1.Yamamoto, Ryuichi, Eunwoo Song, and Jae-Min Kim. "Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram." arXiv preprint arXiv:1910.11480 (2019).

投递2020 isscap，未公布代码

这篇文章介绍了一中新的免蒸馏、快速的、占空间小的语音生成器，起名叫parallel wavegan，平行wavegan，用到了非自回归模型，用到了wavenet作为生成器，对生成器loss这一块添加了多分辨率的stft损失，不需要密度蒸馏，达到了比wavenet快几倍的素的。主要模型框架如下图：

2.Bińkowski, Mikołaj, et al. "High fidelity speech synthesis with adversarial networks." arXiv preprint arXiv:1909.11646 (2019).

《基于对抗网络的高保真度语音合成》

这篇文章提出一个GAN-TTS框架，用一个前向传播的生成器和一个集成判别器组成，集成判别器不仅分析生成语音的真实性还有发音准确性，一些判别器将语言条件也考虑到，因此可以测量生成的音频和输入话语之间的对应的程度，还有一些忽略细节，只能评估音频的真实性。还可以参考这篇文章高保真质量的音频合成。

还提出了一些衡量标准来衡量语音生成。

文中有提到现有的应用于非视觉领域的GAN 还是比较少，语音合成方面最出名的是WaveGAN 和GANSynth。这两篇文章都有提到自回归模型具有一点的缺点，所以都使用了非自回归模型。

3.Kumar, Kundan, et al. "MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis." Advances in Neural Information Processing Systems. 2019.

代码：https://github.com/descriptinc/melgan-neurips

这篇文章提出可以训练GAN 来生成高质量的波形，通过测试一些框架上的改变和简单的训练策略来合成语音，音乐翻译，和条件音乐合成。使用非自回归的模型来完成生成器。

在语音中，自动对齐特征和梅尔频谱是两个常用的中间表示，因此，音频建模通常被分为两阶段进行：第一个模型将文本作为输入用中间表示，第二步是讲中间表示转化为音频。本文聚焦于第二阶段，用梅尔频谱作为中间表达，转化出音频。

现有的梅尔频谱转换方法主要分为三类：纯信号处理，自回归模型，和非自回归模型。

本文的主要贡献在于：

提出了melGAN模型，一种非自回归的前向传播卷积网络作为生成器，据我们所知，这是第一个成功训练GAN 并且不用其他蒸馏或者感知loss来合成波形的，并且保持了很高的质量。
证明自回归模型可以被并行的melGAN取代；
同时理由消融实验证实melgan比其他的频谱转换方法快。

主要结构如下：

4.Neekhara, Paarth, et al. "Expediting TTS Synthesis with Adversarial Vocoding." arXiv preprint arXiv:1904.07944 (2019).

5.Juvela, Lauri, et al. "GELP: GAN-Excited Liner Prediction for Speech Synthesis from Mel-spectrogram." arXiv preprint arXiv:1904.03976 (2019).

6.Guo, Haohan, et al. "A New GAN-based End-to-End TTS Training Algorithm." arXiv preprint arXiv:1904.04775 (2019).

GAN合成语音相关论文相关推荐

2018 CVPR GAN 相关论文调研（自己分了下类，附地址哦）
2018 CVPR GAN 相关论文调研风格迁移 1. PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Mak ...
2018 CVPR GAN 相关论文调研
2018 CVPR GAN 相关论文调研风格迁移 1. PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Mak ...
Nature重磅：华裔科学家成功解码脑电波，AI直接从大脑中合成语音
[导读]Nature发表华裔作者论文:通过解码大脑活动提升语音的清晰度,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平. 大脑活动能够解码成语音了. 说话似乎是一项毫不 ...
【语音】论文阅读笔记 Non-autoregressive Error Correction for CTC-based ASR with Phone-conditioned Masked LM
目录摘要介绍预备和相关工作 1. CTC-based ASR 2. Masked LM 3. ASR error correction 提出的方法 1. Phone-conditioned Ma ...
打开阿兹海默之门：华裔张复伦利用RNN成功解码脑电波，合成语音 | Nature
作者 | 琥珀出品 | AI科技大本营(ID:rgznai100) 2019 年 4 月 24 日,来自加州大学旧金山分校(UCSF)神经外科学系 Gopala K. Anumanchipalli, ...
图上的对抗与攻击精选论文列表(2021相关论文一览)
来源:深度学习与图网络本文约1400字,建议阅读5分钟本文为你分享图上的对抗与攻击精选论文. 2021相关论文一览大规模攻击图神经网络图神经网络的黑盒梯度攻击: 更深入洞察图的攻击和防御增强多路 ...
利用脑记录产生的合成语音
目录虚拟声道改善自然语音合成本分享为脑机学习者Rose整理发表于公众号:脑机接口社区 QQ交流群:941473018 虚拟声道改善自然语音合成这项研究是由语音科学家GopalaAnumanchi ...
CVPR2020 3D点云相关论文思想和方法总结
CVPR2020 3D点云相关论文思想和方法总结(持续更新) A. 3D目标检测和跟踪 1. A Hierarchical Graph Network for 3D Object Detection ...
量子计算深化：大规模量子计算（相关论文108篇推荐）
量子计算深化门模式的量子计算机分布式拓扑物理实现相关论文推荐基础知识:本文是对量子计算的深化自研博文,需要相当程度的基础知识,请先理解下文: 1.1.1.量子计算入门:量子计算机的理解与术语 ...
基于GAN的语音转换技术及语音合成TTS
https://www.toutiao.com/a6714089773171999244/ 介绍到目前为止,我主要致力于生成人物的图像(或视频),但我希望他们一旦在屏幕上可见就会用对应的声音说话.所 ...

GAN合成语音相关论文

GAN合成语音相关论文相关推荐

最新文章

热门文章