GAN合成语音相关论文
最近在做GAN语音生成相关的东西,找了一些相关的最新的论文和资料,在这里做一个记录。
一、语音基础知识
在知乎上看到了一个比较详细的介绍,搬运过来:语音合成那些事
二、GAN合成语音(TTS)相关论文
1.Yamamoto, Ryuichi, Eunwoo Song, and Jae-Min Kim. "Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram." arXiv preprint arXiv:1910.11480 (2019).
投递2020 isscap,未公布代码
这篇文章介绍了一中新的免蒸馏、快速的、占空间小的语音生成器,起名叫parallel wavegan,平行wavegan,用到了非自回归模型,用到了wavenet作为生成器,对生成器loss这一块添加了多分辨率的stft损失,不需要密度蒸馏,达到了 比wavenet快几倍的素的。主要模型框架如下图:
2.Bińkowski, Mikołaj, et al. "High fidelity speech synthesis with adversarial networks." arXiv preprint arXiv:1909.11646 (2019).
《基于对抗网络的高保真度语音合成》
这篇文章提出一个GAN-TTS框架,用一个前向传播的生成器和一个集成判别器组成,集成判别器不仅分析生成语音的真实性还有发音准确性,一些判别器将语言条件也考虑到,因此可以测量生成的音频和输入话语之间的对应的程度,还有一些忽略细节,只能评估音频的真实性。还可以参考这篇文章高保真质量的音频合成。
还提出了一些衡量标准来衡量语音生成。
文中有提到现有的应用于非视觉领域的GAN 还是比较少,语音合成方面最出名的是WaveGAN 和GANSynth。这两篇文章都有提到自回归模型具有一点的缺点,所以都使用了非自回归模型。
3.Kumar, Kundan, et al. "MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis." Advances in Neural Information Processing Systems. 2019.
代码:https://github.com/descriptinc/melgan-neurips
这篇文章提出可以训练GAN 来生成高质量的波形,通过测试一些框架上的改变和简单的训练策略来合成语音,音乐翻译,和条件音乐合成。使用非自回归的模型来完成生成器。
在语音中,自动对齐特征和梅尔频谱是两个常用的中间表示,因此,音频建模通常被分为两阶段进行:第一个模型将文本作为输入用中间表示,第二步是讲中间表示转化为音频。本文聚焦于第二阶段,用梅尔频谱作为中间表达,转化出音频。
现有的梅尔频谱转换方法主要分为三类:纯信号处理,自回归模型,和非自回归模型。
本文的主要贡献在于:
- 提出了melGAN模型,一种非自回归的前向传播卷积网络作为生成器,据我们所知,这是第一个成功训练GAN 并且不用其他蒸馏或者感知loss来合成波形的,并且保持了很高的质量。
- 证明自回归模型可以被并行的melGAN取代;
- 同时理由消融实验证实melgan比其他的频谱转换方法快。
主要结构如下:
4.Neekhara, Paarth, et al. "Expediting TTS Synthesis with Adversarial Vocoding." arXiv preprint arXiv:1904.07944 (2019).
5.Juvela, Lauri, et al. "GELP: GAN-Excited Liner Prediction for Speech Synthesis from Mel-spectrogram." arXiv preprint arXiv:1904.03976 (2019).
6.Guo, Haohan, et al. "A New GAN-based End-to-End TTS Training Algorithm." arXiv preprint arXiv:1904.04775 (2019).
GAN合成语音相关论文相关推荐
- 2018 CVPR GAN 相关论文调研 (自己分了下类,附地址哦)
2018 CVPR GAN 相关论文调研 风格迁移 1. PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Mak ...
- 2018 CVPR GAN 相关论文调研
2018 CVPR GAN 相关论文调研 风格迁移 1. PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Mak ...
- Nature重磅:华裔科学家成功解码脑电波,AI直接从大脑中合成语音
[导读]Nature发表华裔作者论文:通过解码大脑活动提升语音的清晰度,使用深度学习方法直接从大脑信号中产生口语句子,达到150个单词,接近正常人水平. 大脑活动能够解码成语音了. 说话似乎是一项毫不 ...
- 【语音】论文阅读笔记 Non-autoregressive Error Correction for CTC-based ASR with Phone-conditioned Masked LM
目录 摘要 介绍 预备和相关工作 1. CTC-based ASR 2. Masked LM 3. ASR error correction 提出的方法 1. Phone-conditioned Ma ...
- 打开阿兹海默之门:华裔张复伦利用RNN成功解码脑电波,合成语音 | Nature
作者 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 2019 年 4 月 24 日,来自加州大学旧金山分校(UCSF)神经外科学系 Gopala K. Anumanchipalli, ...
- 图上的对抗与攻击精选论文列表(2021相关论文一览)
来源:深度学习与图网络本文约1400字,建议阅读5分钟本文为你分享图上的对抗与攻击精选论文. 2021相关论文一览 大规模攻击图神经网络 图神经网络的黑盒梯度攻击: 更深入洞察图的攻击和防御 增强多路 ...
- 利用脑记录产生的合成语音
目录 虚拟声道改善自然语音合成 本分享为脑机学习者Rose整理发表于公众号:脑机接口社区 QQ交流群:941473018 虚拟声道改善自然语音合成 这项研究是由语音科学家GopalaAnumanchi ...
- CVPR2020 3D点云相关论文思想和方法总结
CVPR2020 3D点云相关论文思想和方法总结(持续更新) A. 3D目标检测和跟踪 1. A Hierarchical Graph Network for 3D Object Detection ...
- 量子计算深化:大规模量子计算(相关论文108篇推荐)
量子计算深化 门模式的量子计算机 分布式拓扑 物理实现 相关论文推荐 基础知识:本文是对量子计算的深化自研博文,需要相当程度的基础知识,请先理解下文: 1.1.1.量子计算入门:量子计算机的理解与术语 ...
- 基于GAN的语音转换技术及语音合成TTS
https://www.toutiao.com/a6714089773171999244/ 介绍 到目前为止,我主要致力于生成人物的图像(或视频),但我希望他们一旦在屏幕上可见就会用对应的声音说话.所 ...
最新文章
- 苹果应用ipa图片提取
- 利用Chrome开发者工具分析C4C Opportunity搜索的前端性能
- VHDL实现简易停车场系统设计
- 【转】我的CV之路第一篇:ITK是啥?
- Spring Boot细节挖掘(Docker部署项目)
- Linux文件系统(七)---系统调用之open操作(一)
- effective c++ 跨编译单元之初始化次序 笔记
- htc 常见错误和解决方案
- Sql基本语句增删改查
- excel游戏_Excel集中游戏
- 指定条件查找计算机,Excel函数教程: 查找符合指定条件的数据-excel技巧-电脑技巧收藏家...
- 基于Python的随机森林(RF)回归与变量重要性影响程度分析
- Angular实现数据双向绑定
- 深度学习-深度学习集群管理方案
- android 自定义圆形头像,android自定义圆形头像
- 超级账本hyperledger fabric第五集:共识排序及源码阅读
- XML生成XSD的方法
- 百钱百鸡:用100钱买100只鸡,公鸡5钱一只,母鸡三钱一只,小鸡三只一钱,编程输出所有可能的买法(要求每鸡至少买一只)
- 安卓APP跟iOSAPP之间的对比
- Windows10 查看剪贴板(剪贴历史文字、图片)
热门文章
- 绘画软件:krita for Mac
- 娱乐视频直播背后的技术支持——DASH重构
- CAD打印adobe acrobat pro/DC 安装的PDF打印机闪退问题
- 【重磅整理】180篇NeurIPS2020顶会《强化学习领域》Accept论文大全
- 存储专访:整合磁带与磁盘 昆腾为用户提供更灵活的选择
- 为什么要学编写通达信指标公式
- java计算机毕业设计网上书店商城源码+系统+数据库+lw文档+mybatis+运行部署
- 纯css3黑洞动画js特效
- 银行招聘计算机考试时间,秋季银行招聘考试时间是什么时候?
- 抖音视频怎么下载MP4格式怎么转换为MP3