[2021 icas]PPG-BASED SINGING VOICE CONVERSION WITH ADVERSARIAL REPRESENTATION LEARNING
作者:Li Zhonghao
会议:投稿2021 icassp
单位:bytedance
文章目录
- abstract
- 1. introduction
- 2. METHOD
- 2.1 PPGs Encoder & decoder
- 2.2 Mel Encoder
- 2.3 singer confusion module
- 2.4 Mel-Regressive Representation learning Module
- 3. EXPERIMENTS
- 3.1. Experimental Setup
- 3.2 Ablation Test
- 3.3 Noise Robustness
abstract
两个encoder,一个编码PPGs的文本信息,一个输入mel谱编码声学和音乐信息;为了改善timbre和melody,另外有adversarial singer confusion module和mel-regressive 表征学习模块。
1. introduction
在VC中,对于pitch,pause的修改是被允许的; 但是在SVC中,pitch,pause被认为是歌唱相关,说话人无关的特征,应该在转换过程中被保留。
传统的SVC方法基于平行数据:参数生成结构–GMM,GAN网络
基于非平行数据的方法:VAE—用wavenet分别做encoder和decoder,用这么强大的一个网络来做这件事情,可以在非平行数据上达到较好的效果。【8】引入domain confusion module从encoder output中解耦singer information。【9】沿用了domain confusion 的思路,进一步提出了pitch confusion module,可以从encoder outputs中移除picth信息,进而能够通过F0值控制基频包络和韵律。还有一些其他基于VAE的方法在研究SVC,但是他们不能解决输入音频包含噪声的情况。
PPGs(sun) 是一个好的文本特征,同时保留了速度信息。DBLSTM用PPGs做many-to-one的转换【14】,【15】又进一步将这个方法扩展到many-to-many的转换。
2. METHOD
2.1 PPGs Encoder & decoder
- singing ASR:使用的是歌唱识别数据集,CTC loss训练的ASR,提取1467-d PPGs
- look_up_tabel方式得到的speaker_embedding,GMM attention和stop token被引入
- source song中提取LF0
- decoder input:encoder_output + LF0 + spk_emb
YYY是mel spec,ttt是stop token
binary CE loss预测停止点
2.2 Mel Encoder
PPGs去除了音色信息,仅保留文本信息,但丢失了歌唱转换需要的风格(intonation-语调,melody, emotion),因此用额外的mel encoder编码这些信息。
实验发现:mel encoder的输出维度被设为最小,这样可以更好的抑制source voice中的音色和sound noise。4 units在平衡 timbre, sound quality, and musical characters 音素时表现最好。
2.3 singer confusion module
- 作用:为了加强转换语音和source的音色相似度;此处尝试过CBHG结构的module,但是性能不稳定,且很容易训崩
- CtargetC_{target}Ctarget是目标说话人的one-hot embedding
- CtargetjC_{target}^jCtargetj是第jjj帧预测的spk_emb,然后对N帧结果求平均
- 训练分成两步
- (1)训练分类网络,以最小化LDL_DLD
- (2)训练conversion path:(singer 分类器参数不再更新),loss函数是下公式,说话人判别器根据encoder output的输出判断说话人身份
2.4 Mel-Regressive Representation learning Module
- 测试发现加入singer confusion module,在解耦说话人身份之外,发音和音乐特征的表达被削弱了,因此加入额外的模块,对学习的特征进行指导补充。
- 训练阶段L:将speaker embedding+mel encoder outputs拼音送入Mel-Regressive Representation learning Module,恢复mel,
生成器的loss函数可以表示为
3. EXPERIMENTS
3.1. Experimental Setup
train-set:中文普通话歌唱数据集32.7h(9个female, 7个male),每个说话人平均1000句训练,10句evaluation。
test-set:训练集以外的20人,40个segment,
decoder:WaveRNN
singing ASR(SASR):20k hours数据, 1467-d PPGs
参数设置:γ = 1.0, λ = 0.1
18个专业的音乐人进行听测;测试了(1)自然度;(2)相似度;另外测试了客观指标NCC(normalized cross-correlation,归一化互相关)—prediction和ground-truth之间的pitch匹配度;
3.2 Ablation Test
结论:
- mel encoder改善了自然度,但是降低了timbre 相似度;
- 加入singer confusion之后,相似度提升了,但是自然度下降了;
- 再加入mel-regressive learning module之后,两个观测指标都得到提升;
3.3 Noise Robustness
对source加入不同信噪比的白噪声,性能损失很少(信噪比表明声音的清晰度)
[2021 icas]PPG-BASED SINGING VOICE CONVERSION WITH ADVERSARIAL REPRESENTATION LEARNING相关推荐
- [2020 icassp] PitchNet-Unsupervised Singing Voice Conversion with Pitch Adversarial Network
单位:腾讯AI lab 作者:Chengqi Deng 会议: 2020 icassp demo: 文章目录 abstract: 1. introduction 2. method model arc ...
- SINGAN: Singing Voice Conversion with Generative Adversarial Networks
会议:APSIPA 2019 作者:Berrak Sisman, Haizhou Li 文章目录 1. abstract 2. introduction 3. GANS FOR SINGING VOI ...
- 语音合成(speech synthesis)方向六:歌唱合成(singing voice synthesis)
声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 低调奋进 TTS 开源数据 低调奋进 ...
- 李宏毅DLHLP.10.Voice Conversion.2/2. CycleGAN and starGAN
文章目录 介绍 2nd Stage Training Direct Transformation Cycle GAN starGAN Reference 介绍 本门课程是2020年李宏毅老师新课:De ...
- Voice Conversion Across Arbitrary Speakers based on a Single Target-Speaker Utterance
会议:2018interspeech 作者:MengHelen, liusongxiang, sunlifa Voice Conversion 项目笔记(含从VCC 2016匿名比赛深挖的各前沿方法性 ...
- 【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》
<An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...
- 【VC/AC论文】Any-to-Many Voice Conversion withLocation-Relative Sequence-to-Sequence Modeling
文章目录 Abstract Introduction Related Work Attention mechanisms in seq2seq model | seq2seq模型中的注意机制 A se ...
- 李宏毅DLHLP.09.Voice Conversion.1/2. Feature Disentangle
文章目录 介绍 什么是VC 应用 实操 分类 Feature Disentangle Using Speaker Information Pre-training Encoders Content E ...
- 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...
最新文章
- 建立双链表(头插法)
- 【机器学习】集成学习之梯度提升树GBDT
- ajax success function_Django:AJAX(二)
- IOS – OpenGL ES 调节图像单色 GPUImageMonochromeFilter
- 操作系统实践(四/五)
- 黄光裕正式获释,公开发表讲话!
- suse配置dhcp服务器
- 是不正确的python语句_Python if语句读取不正确
- AI开发者看过来,主流移动端深度学习框架大盘点
- mediaplay抓图
- 《数字图像处理》--冈萨雷斯(第十章)
- 【leetcode】1175. Prime Arrangements
- unity 上架google play 包体超过150M
- strlen()函数
- 知识兔Excel教程:让同事看傻~这几个Excel技巧太牛了
- python计算圆周率近似值_使用MicroPython计算任意位数圆周率
- 菜鸟学概率统计——最大后验概率(MAP)
- Vue.config.productionTip = false是什么意思
- 吃完7家互联网大厂食堂,我回去就把老板开了
- 图像压缩Vs.压缩感知
热门文章
- 中国企业软件必然革命世界企业软件
- dash 机器人 Android,用于 Dash 和 Dot 机器人的Blockly
- 图像处理与计算机视觉的区别
- 华大HC32A460 系列介绍(一)
- mac 下设置自动下载必应壁纸
- 阿龙的学习笔记---Linux GDB 调试工具(博客转载总结)
- App Store Connect显示app已经上架(可供销售),但在App Store中没有实时更新
- HTML5七夕520情人节表白网页❤ 属于我们的浪漫星空 ❤ HTML+CSS+JavaScript
- MFC学习笔记 — 看小白如何实现音乐播放器(USB-HID 声卡 wav播放)
- 西北大学 中北大学计算机对比,东北、西北、东南、西南、中北、中南,最容易被忽视的中北大学!...