最近在做GAN语音生成相关的东西,找了一些相关的最新的论文和资料,在这里做一个记录。

一、语音基础知识

在知乎上看到了一个比较详细的介绍,搬运过来:语音合成那些事

二、GAN合成语音(TTS)相关论文

1.Yamamoto, Ryuichi, Eunwoo Song, and Jae-Min Kim. "Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram." arXiv preprint arXiv:1910.11480 (2019).

投递2020 isscap,未公布代码

这篇文章介绍了一中新的免蒸馏、快速的、占空间小的语音生成器,起名叫parallel wavegan,平行wavegan,用到了非自回归模型,用到了wavenet作为生成器,对生成器loss这一块添加了多分辨率的stft损失,不需要密度蒸馏,达到了 比wavenet快几倍的素的。主要模型框架如下图:

2.Bińkowski, Mikołaj, et al. "High fidelity speech synthesis with adversarial networks." arXiv preprint arXiv:1909.11646 (2019).

《基于对抗网络的高保真度语音合成》

这篇文章提出一个GAN-TTS框架,用一个前向传播的生成器和一个集成判别器组成,集成判别器不仅分析生成语音的真实性还有发音准确性,一些判别器将语言条件也考虑到,因此可以测量生成的音频和输入话语之间的对应的程度,还有一些忽略细节,只能评估音频的真实性。还可以参考这篇文章高保真质量的音频合成。

还提出了一些衡量标准来衡量语音生成。

文中有提到现有的应用于非视觉领域的GAN 还是比较少,语音合成方面最出名的是WaveGAN 和GANSynth。这两篇文章都有提到自回归模型具有一点的缺点,所以都使用了非自回归模型。

3.Kumar, Kundan, et al. "MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis." Advances in Neural Information Processing Systems. 2019.

代码:https://github.com/descriptinc/melgan-neurips

这篇文章提出可以训练GAN 来生成高质量的波形,通过测试一些框架上的改变和简单的训练策略来合成语音,音乐翻译,和条件音乐合成。使用非自回归的模型来完成生成器。

在语音中,自动对齐特征和梅尔频谱是两个常用的中间表示,因此,音频建模通常被分为两阶段进行:第一个模型将文本作为输入用中间表示,第二步是讲中间表示转化为音频。本文聚焦于第二阶段,用梅尔频谱作为中间表达,转化出音频。

现有的梅尔频谱转换方法主要分为三类:纯信号处理,自回归模型,和非自回归模型。

本文的主要贡献在于:

  1. 提出了melGAN模型,一种非自回归的前向传播卷积网络作为生成器,据我们所知,这是第一个成功训练GAN 并且不用其他蒸馏或者感知loss来合成波形的,并且保持了很高的质量。
  2. 证明自回归模型可以被并行的melGAN取代;
  3. 同时理由消融实验证实melgan比其他的频谱转换方法快。

主要结构如下:

4.Neekhara, Paarth, et al. "Expediting TTS Synthesis with Adversarial Vocoding." arXiv preprint arXiv:1904.07944 (2019).

5.Juvela, Lauri, et al. "GELP: GAN-Excited Liner Prediction for Speech Synthesis from Mel-spectrogram." arXiv preprint arXiv:1904.03976 (2019).

6.Guo, Haohan, et al. "A New GAN-based End-to-End TTS Training Algorithm." arXiv preprint arXiv:1904.04775 (2019).

GAN合成语音相关论文相关推荐

  1. 2018 CVPR GAN 相关论文调研 (自己分了下类,附地址哦)

    2018 CVPR GAN 相关论文调研 风格迁移 1. PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Mak ...

  2. 2018 CVPR GAN 相关论文调研

    2018 CVPR GAN 相关论文调研 风格迁移 1. PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Mak ...

  3. Nature重磅:华裔科学家成功解码脑电波,AI直接从大脑中合成语音

    [导读]Nature发表华裔作者论文:通过解码大脑活动提升语音的清晰度,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平. 大脑活动能够解码成语音了. 说话似乎是一项毫不 ...

  4. 【语音】论文阅读笔记 Non-autoregressive Error Correction for CTC-based ASR with Phone-conditioned Masked LM

    目录 摘要 介绍 预备和相关工作 1. CTC-based ASR 2. Masked LM 3. ASR error correction 提出的方法 1. Phone-conditioned Ma ...

  5. 打开阿兹海默之门:华裔张复伦利用RNN成功解码脑电波,合成语音 | Nature

    作者 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 2019 年 4 月 24 日,来自加州大学旧金山分校(UCSF)神经外科学系 Gopala K. Anumanchipalli, ...

  6. 图上的对抗与攻击精选论文列表(​2021相关论文一览)

    来源:深度学习与图网络本文约1400字,建议阅读5分钟本文为你分享图上的对抗与攻击精选论文. 2021相关论文一览 大规模攻击图神经网络 图神经网络的黑盒梯度攻击: 更深入洞察图的攻击和防御 增强多路 ...

  7. 利用脑记录产生的合成语音

    目录 虚拟声道改善自然语音合成 本分享为脑机学习者Rose整理发表于公众号:脑机接口社区 QQ交流群:941473018 虚拟声道改善自然语音合成 这项研究是由语音科学家GopalaAnumanchi ...

  8. CVPR2020 3D点云相关论文思想和方法总结

    CVPR2020 3D点云相关论文思想和方法总结(持续更新) A. 3D目标检测和跟踪 1. A Hierarchical Graph Network for 3D Object Detection ...

  9. 量子计算深化:大规模量子计算(相关论文108篇推荐)

    量子计算深化 门模式的量子计算机 分布式拓扑 物理实现 相关论文推荐 基础知识:本文是对量子计算的深化自研博文,需要相当程度的基础知识,请先理解下文: 1.1.1.量子计算入门:量子计算机的理解与术语 ...

  10. 基于GAN的语音转换技术及语音合成TTS

    https://www.toutiao.com/a6714089773171999244/ 介绍 到目前为止,我主要致力于生成人物的图像(或视频),但我希望他们一旦在屏幕上可见就会用对应的声音说话.所 ...

最新文章

  1. 苹果应用ipa图片提取
  2. 利用Chrome开发者工具分析C4C Opportunity搜索的前端性能
  3. VHDL实现简易停车场系统设计
  4. 【转】我的CV之路第一篇:ITK是啥?
  5. Spring Boot细节挖掘(Docker部署项目)
  6. Linux文件系统(七)---系统调用之open操作(一)
  7. effective c++ 跨编译单元之初始化次序 笔记
  8. htc 常见错误和解决方案
  9. Sql基本语句增删改查
  10. excel游戏_Excel集中游戏
  11. 指定条件查找计算机,Excel函数教程: 查找符合指定条件的数据-excel技巧-电脑技巧收藏家...
  12. 基于Python的随机森林(RF)回归与变量重要性影响程度分析
  13. Angular实现数据双向绑定
  14. 深度学习-深度学习集群管理方案
  15. android 自定义圆形头像,android自定义圆形头像
  16. 超级账本hyperledger fabric第五集:共识排序及源码阅读
  17. XML生成XSD的方法
  18. 百钱百鸡:用100钱买100只鸡,公鸡5钱一只,母鸡三钱一只,小鸡三只一钱,编程输出所有可能的买法(要求每鸡至少买一只)
  19. 安卓APP跟iOSAPP之间的对比
  20. Windows10 查看剪贴板(剪贴历史文字、图片)

热门文章

  1. 绘画软件:krita for Mac
  2. 娱乐视频直播背后的技术支持——DASH重构
  3. CAD打印adobe acrobat pro/DC 安装的PDF打印机闪退问题
  4. 【重磅整理】180篇NeurIPS2020顶会《强化学习领域》Accept论文大全
  5. 存储专访:整合磁带与磁盘 昆腾为用户提供更灵活的选择
  6. 为什么要学编写通达信指标公式
  7. java计算机毕业设计网上书店商城源码+系统+数据库+lw文档+mybatis+运行部署
  8. 纯css3黑洞动画js特效
  9. 银行招聘计算机考试时间,秋季银行招聘考试时间是什么时候?
  10. 抖音视频怎么下载MP4格式怎么转换为MP3