[2021 icas]PPG-BASED SINGING VOICE CONVERSION WITH ADVERSARIAL REPRESENTATION LEARNING

作者：Li Zhonghao
会议：投稿2021 icassp
单位：bytedance

文章目录

abstract
1. introduction
2. METHOD
- 2.1 PPGs Encoder & decoder
- 2.2 Mel Encoder
2.3 singer confusion module
2.4 Mel-Regressive Representation learning Module
3. EXPERIMENTS
- 3.1. Experimental Setup
- 3.2 Ablation Test
- 3.3 Noise Robustness

abstract

两个encoder，一个编码PPGs的文本信息，一个输入mel谱编码声学和音乐信息；为了改善timbre和melody，另外有adversarial singer confusion module和mel-regressive 表征学习模块。

1. introduction

在VC中，对于pitch，pause的修改是被允许的；但是在SVC中，pitch，pause被认为是歌唱相关，说话人无关的特征，应该在转换过程中被保留。

传统的SVC方法基于平行数据：参数生成结构–GMM，GAN网络
基于非平行数据的方法：VAE—用wavenet分别做encoder和decoder，用这么强大的一个网络来做这件事情，可以在非平行数据上达到较好的效果。【8】引入domain confusion module从encoder output中解耦singer information。【9】沿用了domain confusion 的思路，进一步提出了pitch confusion module，可以从encoder outputs中移除picth信息，进而能够通过F0值控制基频包络和韵律。还有一些其他基于VAE的方法在研究SVC，但是他们不能解决输入音频包含噪声的情况。

PPGs(sun) 是一个好的文本特征，同时保留了速度信息。DBLSTM用PPGs做many-to-one的转换【14】，【15】又进一步将这个方法扩展到many-to-many的转换。

2. METHOD

2.1 PPGs Encoder & decoder

singing ASR：使用的是歌唱识别数据集，CTC loss训练的ASR，提取1467-d PPGs
look_up_tabel方式得到的speaker_embedding，GMM attention和stop token被引入
source song中提取LF0
decoder input：encoder_output + LF0 + spk_emb
$Y$ 是mel spec， $t$ 是stop token
binary CE loss预测停止点

2.2 Mel Encoder

PPGs去除了音色信息，仅保留文本信息，但丢失了歌唱转换需要的风格（intonation-语调，melody， emotion），因此用额外的mel encoder编码这些信息。
实验发现：mel encoder的输出维度被设为最小，这样可以更好的抑制source voice中的音色和sound noise。4 units在平衡 timbre, sound quality, and musical characters 音素时表现最好。

2.3 singer confusion module

作用：为了加强转换语音和source的音色相似度；此处尝试过CBHG结构的module，但是性能不稳定，且很容易训崩
$C_{target}$ 是目标说话人的one-hot embedding
$C_{target}^j$ 是第 $j$ 帧预测的spk_emb,然后对N帧结果求平均
训练分成两步
（1）训练分类网络，以最小化 $L_D$
（2）训练conversion path：（singer 分类器参数不再更新），loss函数是下公式，说话人判别器根据encoder output的输出判断说话人身份

2.4 Mel-Regressive Representation learning Module

测试发现加入singer confusion module，在解耦说话人身份之外，发音和音乐特征的表达被削弱了，因此加入额外的模块，对学习的特征进行指导补充。
训练阶段L：将speaker embedding+mel encoder outputs拼音送入Mel-Regressive Representation learning Module，恢复mel，

生成器的loss函数可以表示为

3. EXPERIMENTS

3.1. Experimental Setup

train-set：中文普通话歌唱数据集32.7h（9个female, 7个male)，每个说话人平均1000句训练，10句evaluation。
test-set：训练集以外的20人，40个segment，
decoder:WaveRNN
singing ASR(SASR)：20k hours数据， 1467-d PPGs
参数设置：γ = 1.0, λ = 0.1

18个专业的音乐人进行听测；测试了（1）自然度；（2）相似度；另外测试了客观指标NCC(normalized cross-correlation，归一化互相关）—prediction和ground-truth之间的pitch匹配度；

3.2 Ablation Test

结论：

mel encoder改善了自然度，但是降低了timbre 相似度；
加入singer confusion之后，相似度提升了，但是自然度下降了；
再加入mel-regressive learning module之后，两个观测指标都得到提升；

3.3 Noise Robustness

对source加入不同信噪比的白噪声，性能损失很少（信噪比表明声音的清晰度）