作者:Li Zhonghao
会议:投稿2021 icassp
单位:bytedance

文章目录

  • abstract
  • 1. introduction
  • 2. METHOD
    • 2.1 PPGs Encoder & decoder
    • 2.2 Mel Encoder
  • 2.3 singer confusion module
  • 2.4 Mel-Regressive Representation learning Module
  • 3. EXPERIMENTS
    • 3.1. Experimental Setup
    • 3.2 Ablation Test
    • 3.3 Noise Robustness

abstract

两个encoder,一个编码PPGs的文本信息,一个输入mel谱编码声学和音乐信息;为了改善timbre和melody,另外有adversarial singer confusion module和mel-regressive 表征学习模块。

1. introduction

在VC中,对于pitch,pause的修改是被允许的; 但是在SVC中,pitch,pause被认为是歌唱相关,说话人无关的特征,应该在转换过程中被保留。

传统的SVC方法基于平行数据:参数生成结构–GMM,GAN网络
基于非平行数据的方法:VAE—用wavenet分别做encoder和decoder,用这么强大的一个网络来做这件事情,可以在非平行数据上达到较好的效果。【8】引入domain confusion module从encoder output中解耦singer information。【9】沿用了domain confusion 的思路,进一步提出了pitch confusion module,可以从encoder outputs中移除picth信息,进而能够通过F0值控制基频包络和韵律。还有一些其他基于VAE的方法在研究SVC,但是他们不能解决输入音频包含噪声的情况。

PPGs(sun) 是一个好的文本特征,同时保留了速度信息。DBLSTM用PPGs做many-to-one的转换【14】,【15】又进一步将这个方法扩展到many-to-many的转换。

2. METHOD

2.1 PPGs Encoder & decoder
  • singing ASR:使用的是歌唱识别数据集,CTC loss训练的ASR,提取1467-d PPGs
  • look_up_tabel方式得到的speaker_embedding,GMM attention和stop token被引入
  • source song中提取LF0
  • decoder input:encoder_output + LF0 + spk_emb
    YYY是mel spec,ttt是stop token
    binary CE loss预测停止点
2.2 Mel Encoder
  • PPGs去除了音色信息,仅保留文本信息,但丢失了歌唱转换需要的风格(intonation-语调,melody, emotion),因此用额外的mel encoder编码这些信息。

  • 实验发现:mel encoder的输出维度被设为最小,这样可以更好的抑制source voice中的音色和sound noise。4 units在平衡 timbre, sound quality, and musical characters 音素时表现最好。

2.3 singer confusion module

  • 作用:为了加强转换语音和source的音色相似度;此处尝试过CBHG结构的module,但是性能不稳定,且很容易训崩
  • CtargetC_{target}Ctarget是目标说话人的one-hot embedding
  • CtargetjC_{target}^jCtargetj是第jjj帧预测的spk_emb,然后对N帧结果求平均
  • 训练分成两步
  • (1)训练分类网络,以最小化LDL_DLD
  • (2)训练conversion path:(singer 分类器参数不再更新),loss函数是下公式,说话人判别器根据encoder output的输出判断说话人身份

2.4 Mel-Regressive Representation learning Module

  • 测试发现加入singer confusion module,在解耦说话人身份之外,发音和音乐特征的表达被削弱了,因此加入额外的模块,对学习的特征进行指导补充。
  • 训练阶段L:将speaker embedding+mel encoder outputs拼音送入Mel-Regressive Representation learning Module,恢复mel,

    生成器的loss函数可以表示为

3. EXPERIMENTS

3.1. Experimental Setup

train-set:中文普通话歌唱数据集32.7h(9个female, 7个male),每个说话人平均1000句训练,10句evaluation。
test-set:训练集以外的20人,40个segment,
decoder:WaveRNN
singing ASR(SASR):20k hours数据, 1467-d PPGs
参数设置:γ = 1.0, λ = 0.1

18个专业的音乐人进行听测;测试了(1)自然度;(2)相似度;另外测试了客观指标NCC(normalized cross-correlation,归一化互相关)—prediction和ground-truth之间的pitch匹配度;

3.2 Ablation Test


结论:

  1. mel encoder改善了自然度,但是降低了timbre 相似度;
  2. 加入singer confusion之后,相似度提升了,但是自然度下降了;
  3. 再加入mel-regressive learning module之后,两个观测指标都得到提升;
3.3 Noise Robustness

对source加入不同信噪比的白噪声,性能损失很少(信噪比表明声音的清晰度)

[2021 icas]PPG-BASED SINGING VOICE CONVERSION WITH ADVERSARIAL REPRESENTATION LEARNING相关推荐

  1. [2020 icassp] PitchNet-Unsupervised Singing Voice Conversion with Pitch Adversarial Network

    单位:腾讯AI lab 作者:Chengqi Deng 会议: 2020 icassp demo: 文章目录 abstract: 1. introduction 2. method model arc ...

  2. SINGAN: Singing Voice Conversion with Generative Adversarial Networks

    会议:APSIPA 2019 作者:Berrak Sisman, Haizhou Li 文章目录 1. abstract 2. introduction 3. GANS FOR SINGING VOI ...

  3. 语音合成(speech synthesis)方向六:歌唱合成(singing voice synthesis)

    声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 低调奋进 TTS 开源数据 低调奋进 ...

  4. 李宏毅DLHLP.10.Voice Conversion.2/2. CycleGAN and starGAN

    文章目录 介绍 2nd Stage Training Direct Transformation Cycle GAN starGAN Reference 介绍 本门课程是2020年李宏毅老师新课:De ...

  5. Voice Conversion Across Arbitrary Speakers based on a Single Target-Speaker Utterance

    会议:2018interspeech 作者:MengHelen, liusongxiang, sunlifa Voice Conversion 项目笔记(含从VCC 2016匿名比赛深挖的各前沿方法性 ...

  6. 【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》

    <An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...

  7. 【VC/AC论文】Any-to-Many Voice Conversion withLocation-Relative Sequence-to-Sequence Modeling

    文章目录 Abstract Introduction Related Work Attention mechanisms in seq2seq model | seq2seq模型中的注意机制 A se ...

  8. 李宏毅DLHLP.09.Voice Conversion.1/2. Feature Disentangle

    文章目录 介绍 什么是VC 应用 实操 分类 Feature Disentangle Using Speaker Information Pre-training Encoders Content E ...

  9. 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...

最新文章

  1. 建立双链表(头插法)
  2. 【机器学习】集成学习之梯度提升树GBDT
  3. ajax success function_Django:AJAX(二)
  4. IOS – OpenGL ES 调节图像单色 GPUImageMonochromeFilter
  5. 操作系统实践(四/五)
  6. 黄光裕正式获释,公开发表讲话!
  7. suse配置dhcp服务器
  8. 是不正确的python语句_Python if语句读取不正确
  9. AI开发者看过来,主流移动端深度学习框架大盘点
  10. mediaplay抓图
  11. 《数字图像处理》--冈萨雷斯(第十章)
  12. 【leetcode】1175. Prime Arrangements
  13. unity 上架google play 包体超过150M
  14. strlen()函数
  15. 知识兔Excel教程:让同事看傻~这几个Excel技巧太牛了
  16. python计算圆周率近似值_使用MicroPython计算任意位数圆周率
  17. 菜鸟学概率统计——最大后验概率(MAP)
  18. Vue.config.productionTip = false是什么意思
  19. 吃完7家互联网大厂食堂,我回去就把老板开了
  20. 图像压缩Vs.压缩感知

热门文章

  1. 中国企业软件必然革命世界企业软件
  2. dash 机器人 Android,用于 Dash 和 Dot 机器人的Blockly
  3. 图像处理与计算机视觉的区别
  4. 华大HC32A460 系列介绍(一)
  5. mac 下设置自动下载必应壁纸
  6. 阿龙的学习笔记---Linux GDB 调试工具(博客转载总结)
  7. App Store Connect显示app已经上架(可供销售),但在App Store中没有实时更新
  8. HTML5七夕520情人节表白网页❤ 属于我们的浪漫星空 ❤ HTML+CSS+JavaScript
  9. MFC学习笔记 — 看小白如何实现音乐播放器(USB-HID 声卡 wav播放)
  10. 西北大学 中北大学计算机对比,东北、西北、东南、西南、中北、中南,最容易被忽视的中北大学!...