深度学习语音转换歌声转换歌唱语音转换

章目录https://blog.csdn.net/qq_40168949/article/details/109577549

一、VC
- 1. 【小数据VC】Attention-Based Speaker Embeddings for One-Shot Voice Conversion [2020 interspeech]
- 2. 【提升质量】ATTS2S-VC: SEQUENCE-TO-SEQUENCE VOICE CONVERSION WITH ATTENTION AND CONTEXT PRESERVATION MECHANISMS [2019 icassp]
- 3. 【实时VC】ConVoice: Real-Time Zero-Shot Voice Style Transfer with Convolutional Network [投稿 2020 interspeech]
二、SVC
- 1. 【singer conversion】PitchNet-Unsupervised Singing Voice Conversion with Pitch Adversarial Network [2020 icassp]
- 2. 【singer conversion】PPG-based singing voice conversion with adversarial representation learning [投稿2021 icassp]
- 3. 【singer conversion】 Unsupervised Singing Voice Conversion [2019 arxiv]
三、音乐相关
- 1. 【音乐演奏风格转换：莫扎特--贝多芬】A Universal Music Translation Network [2017 NIPS]
- 2. 【风格转换的效果评估--分类器】Evaluation of Vocal Audio Style Transfer
- 3. 【音乐风格转换】MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms[2019 arxiv]
- 4. 【风格转换：pop/jazz--classic，音频剪辑】MIDI-VAE: Modeling dynamics and instrumentation of music with applications to style transfer[ISMIR 2018]
- 5. 【singing voice --to-- musical instruments】Neural Style Transfer for Audio Spectrograms [2017 NIPS]
- 6. 【改变乐器的音色，不改变节奏等信息】TimbreTron- A WaveNet (CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer 【2019 ICLR】
- 7.【歌唱风格转换（像是特殊音色转换）】Singing Style Transfer Using Cycle-Consistent Boundary Equilibrium Generative Adversarial Networks【2018 ICML】
- [说话风格转换]Cycle-consistent Adversarial Networks for Non-parallel Vocal Effort Based Speaking Style Conversion[2019 icassp]
emotion
- Converting Anyone’s Emotion:Towards Speaker-Independent Emotional Voice Conversion [2020-10, LHZ]

一、VC

1. 【小数据VC】Attention-Based Speaker Embeddings for One-Shot Voice Conversion [2020 interspeech]

论文

单位：日本NTT
seq-seq with attention的VC，

2. 【提升质量】ATTS2S-VC: SEQUENCE-TO-SEQUENCE VOICE CONVERSION WITH ATTENTION AND CONTEXT PRESERVATION MECHANISMS [2019 icassp]

3. 【实时VC】ConVoice: Real-Time Zero-Shot Voice Style Transfer with Convolutional Network [投稿 2020 interspeech]

单位：Higher School of Economics, Saint Petersburg，Russia
introduction：
zero-shot voice conversion (VC) without any parallel or transcribed data.
预训练的ASR, SV（speaker verification)模型，VC模型是全CNN，没有自回归。
人的语音可以分为四个部分：Timbre–说话人的音色，content–文本信息， pitch and rhythm ----韵律信息。
之前的VC主要分为两种，timbre conversion–逐帧对source进行转换，但保存source的韵律信息；非等长对齐通过RNN/attention对source和target进行非等长对齐，尽管这种方法较好的转换了target的韵律信息，但是对于长句子样本时通常比较慢或者韵律变差。

网络更小，计算更快，单独训练好的SV模型提取speaker embedding而不是look up table更有可能实现zero-shot VC。

代码链接，demo展示

二、SVC

1. 【singer conversion】PitchNet-Unsupervised Singing Voice Conversion with Pitch Adversarial Network [2020 icassp]

单位：腾讯ai lab，Chengqi Deng
abstract:
现有的SVC很多不在调上，说明pitch预测的不准。本文是为了更精确的预测pitch，更灵活的修正pitch。
本文提出用adversarial trained pitch regression network帮助encoder更好的学习pitch不变的音素表示singer-invariance embedding，另外一个单独的module送入source中提取的pitch到decoder module。本文是基于非平行数据做的SVC任务，参考之前的WaveNet encoder,虽然可以合成高相似度的语音，但是语音的质量不好—phone和pitch联合建模的缺点。
demo展示

2. 【singer conversion】PPG-based singing voice conversion with adversarial representation learning [投稿2021 icassp]

单位：头条
论文链接
demo：添加链接描述
技术点：多个子网络，对抗训练，互相弥补促进性能，demo展示还不错

3. 【singer conversion】 Unsupervised Singing Voice Conversion [2019 arxiv]

单位：Facebook AI
demo： demo

三、音乐相关

1. 【音乐演奏风格转换：莫扎特–贝多芬】A Universal Music Translation Network [2017 NIPS]

Facebook AI,Noam Mor

introduction:
第一次做音乐风格的转换，比如演奏乐器，题材，和风格。
youtube视频demo—莫扎特风格和贝多芬风格的转换。

2. 【风格转换的效果评估–分类器】Evaluation of Vocal Audio Style Transfer

有的任务在做音乐风格的转换，将一个歌手的音乐转换为另外一个歌手的风格，用一个分类器对现有的歌手音乐进行分类（尤其是演唱的部分），然后用于评判歌唱风格转换的有效性。

3. 【音乐风格转换】MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms[2019 arxiv]

孪生网络进行domain translation，可以做VC，也可以做音乐风格的转换（jazz–classical, classical—jazz)
youtube demo展示

孪生网络和伪孪生网络介绍

Siamese network：两个结构完全一样的网络，共享权重（甚至可以是一个网络），输入两个特征，用于衡量两个向量的相似度；
pseudo-siamese network，伪孪生神经网络：两边可以是不同的神经网络，不共享权重，适用于处理两个输入"有一定差别"的情况
举例说明两者的区别，比如，我们要计算两个句子或者词汇的语义相似度，使用siamese network比较适合；如果验证标题与正文的描述是否一致（标题和正文长度差别很大），或者文字是否描述了一幅图片（一个是图片，一个是文字），就应该使用pseudo-siamese network。也就是说，要根据具体的应用，判断应该使用哪一种结构，哪一种Loss。
孪生网络不仅仅可以对比两个输入，也可以是三个输入（一个正样本两个副样本，或者一个负例+两个正例），triplet loss效果会变好，但是更多的三孪生/四孪生不常见。
loss function的选择上，可以用cosine/exp/欧式距离等，cosine更适用于词汇级别的语义相似度度量，而exp更适用于句子级别、段落级别的文本相似性度量。其中的原因可能是cosine仅仅计算两个向量的夹角，exp还能够保存两个向量的长度信息，而句子蕴含更多的信息

4. 【风格转换：pop/jazz–classic，音频剪辑】MIDI-VAE: Modeling dynamics and instrumentation of music with applications to style transfer[ISMIR 2018]

ISMIR 计算机音乐顶会
单位：ETH Zurich Switzerland 苏黎世联邦理工

创新点：音乐创作上的首次成功尝试
introduction：生成任务不仅仅是生成新的数据，也包括将现有的数据转换成其他的格式。
尽管风格迁移在图像上取得精彩的成果，但是对于时序任务仍然不太好。目前成功的尝试有（1）餐厅点评（2）改变音乐演奏的乐器。但是对于流行乐改编为古典乐，或者反过来是什么样的效果。
（1）风格转换：可以用多种乐器生成和弦音乐，加入note/duration的变化，学到更多的音乐信息。然后对音乐风格整体进行变换；（2）音乐生成和插入：对不同乐曲的小节直接插入生成的音频，使得整体听起来和谐自然。

图像上的风格迁移，本文转换的youtube-demo，开源代码

pitch和速度对风格转换有影响，乐器和风格相关性比较强

5. 【singing voice --to-- musical instruments】Neural Style Transfer for Audio Spectrograms [2017 NIPS]

假设音乐中表征音乐人风格的部分主要由dynamical aspects决定，因此模型旨在学习调整note pitches的速度。

单个的GenreNet 从note序列中学习dynamic信息，但是只学到一种题材的。多个GenreNet组合成为StyleNet，建模多种不同的风格。
测试：
（1）Identify the Human：受测者判断是否能够区分真正创作者的音乐和AI生成的音乐；
（2）Identify the Style：受测者判断音乐属于Classical或者jazz

6. 【改变乐器的音色，不改变节奏等信息】TimbreTron- A WaveNet (CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer 【2019 ICLR】

视频demo-做的蛮好的
开源代码
musical timbre transfer ：只改变乐器的音色，不改变音乐中的节奏等其他的音乐信息。

7.【歌唱风格转换（像是特殊音色转换）】Singing Style Transfer Using Cycle-Consistent Boundary Equilibrium Generative Adversarial Networks【2018 ICML】

首先将source分离成伴奏和vocal，
然后对vocal进行歌唱风格转换，最后和伴奏合起来（本文的关注点，假设输入的vocal是干净的）
中/英文demo，source是干净的清唱，conversion-target像是加电音的歌唱（韵律节奏不变）

[说话风格转换]Cycle-consistent Adversarial Networks for Non-parallel Vocal Effort Based Speaking Style Conversion[2019 icassp]

语音demo

emotion

Converting Anyone’s Emotion:Towards Speaker-Independent Emotional Voice Conversion [2020-10, LHZ]

code and demo
语音质量很差，对判断模型是否有效干扰很大。

EVC(emotional voice conversion):保留语音中的文本信息和说话人特征，转换情感。说话人无关的emotion state，基于非平行数据和VAW-GAN。
情感转换和spectral以及prosody的转换都有关系。
传统的VC只关注spectral的转换。

深度学习语音转换歌声转换歌唱语音转换相关推荐

吴恩达Coursera深度学习课程 deeplearning.ai (4-4) 神经风格转换--编程作业
吴恩达Coursera深度学习课程 deeplearning.ai (4-4) 神经风格转换–编程作业注:由于这个作业目前未找到完整的中文版的,所以楼主综合了几篇不完整的,自己完整运行了一遍(pyt ...
第七章人工智能，7.3 深度学习与自然语言处理在智能语音客服中的应用(作者：余慈)...
7.3 深度学习与自然语言处理在智能语音客服中的应用 1. 前言 95188电话的支付宝热线目前已经用纯语音交互流程全面代替了传统的按键流程,这个我们称之为"蚁人"的智能语音客服会 ...
【深度学习人类语言处理】3 语音转换——类别(特征分解、直接转换)、语音分离(评价指标、深度聚类、PIT、TaskNet)
Deep Learning for Human Ianguage Processing 3 1. 语音转换应用场景 2. 语音转换类别 2.1 成对的资料 2.2 不成对的资料 2.2.1 特征分解 ...
深度学习--基于卷积神经网络的歌唱嗓音识别
卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现. 它包括卷积层(alt ...
盘点深度学习一年来在文本、语音和视觉等方向的进展，看强化学习如何无往而不利
[AI科技大本营导读]AlphaZero自学成才,机器人Atlas苦练后空翻--2017年,人工智能所取得的新进展真是让人应接不暇.而所有的这些进展,都离不开深度学习一年来在底层研究和技术开发上的新突 ...
机器学习_深度学习毕设题目汇总——语音
下面是该类的一些题目: 题目基于文本/语音驱动的高自然度人脸动画生成深度学习语音识别系统中的自适应方法研究 RNN-DNN语音识别系统研究及其应用发音特征在跨语言语音识别中的应用研究基于DNN ...
脑机接口新应用，利用深度学习对无声语音信号解码
浙江大学.中国矿业大学和伦敦大学的研究人员研究了可用于识别神经肌肉信号的空间特征和解码器.具体来说,研究人员提出了利用迁移学习和深度学习的方法,将表面肌电信号数据转换为包含丰富的时频域信息的声谱图.对 ...
用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践
https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类 ...
用深度学习解决大规模文本分类问题
用深度学习解决大规模文本分类问题人工智能头条 2017-03-27 22:14:22 淘宝阅读(228) 评论(0) 声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者 ...
认识机器学习与深度学习
目录 1. 认识机器学习 1.1 什么是机器学习? 1.2 机器学习可以解决的问题 1.3 机器学习的基础知识 2. 认识深度学习 2.1 什么是深度学习? 2.2 深度学习能做什么? 2.3 深度学 ...

深度学习语音转换歌声转换歌唱语音转换

章目录https://blog.csdn.net/qq_40168949/article/details/109577549