单位:腾讯AI lab
作者:Chengqi Deng
会议: 2020 icassp
demo:

文章目录

  • abstract:
  • 1. introduction
  • 2. method
    • model architecture
    • singer classification network and pitch regression network
    • loss reconstruction
  • 3. experiment
    • 数据集

abstract:

本文是基于【2019 interspeech : Unsupervised Singing Voice Conversion】的改进工作
现有的SVC很多不在调上,说明pitch预测的不准。本文是为了更精确的预测pitch,更灵活的修正pitch。
本文提出用adversarial trained pitch regression network帮助encoder更好的学习pitch不变的音素表示singer-invariance embedding,另外一个单独的module送入source中提取的pitch到decoder module。本文是基于非平行数据做的SVC任务,参考之前的WaveNet encoder,虽然可以合成高相似度的语音,但是语音的质量不好—phone和pitch联合建模的缺点。

1. introduction

歌唱语音合成输入是lyrics和notes,通过vocoder自回归的生成合成的歌唱语音。
歌唱语音转换是歌唱合成的另一种形式,和传统的speech voice conversion 相,SVC需要应对更大范围的基频变化,以及更快速的音量/音调变化。性能主要看转换的音乐表示部分和音色相似度。

也分为基于平行数据的方法和基于非平行数据的无监督方法。【Wavenet: A generative model for raw audio】用wavenet-encoder-decoder结构做SVC,可以达到一定的效果,但是同时建模phone和pitch变化很难。

本文引入对抗训练,使得encoder建模歌唱者和pitch无关的信息,然后用单独的pitch extractor和speaker embedding 表征说话人 。

2. method

model architecture

结构包含五个部分:

  • encoder:输出说话人和pitch无关的embedding,对输出做nearest-neighbor interpolation
  • decoder:自回归的结构
  • singer classification net
  • pitch regression net:网络预测pitch,然后做一个线性差值
  • LUT speaker embedding

singer classification network and pitch regression network

loss reconstruction

SjS^jSj是第jjj个人的语音,E(Sj)E(S^j)E(Sj)是encoder的输出,p(Sj)p(S^j)p(Sj)是pitch extractor提取的基频信息,vjv_jvj是look up table之后说话人的向量表示。
模型的损失函数

重建损失函数表示为:

因为想要encoder建模和说话人身份以及pitch无关的信息,所以另外加对抗loss

总结:对抗损失

步骤:

  1. 第一步使用LadL_{ad}Lad优化CsC_sCsCpC_pCp模型
  2. 第二步使用LtotalL_{total}Ltotal优化整个模型参数
  3. 循环1/2

trick:使用backtranslation and mixup techniques

  • 生成补充数据:使用任意两个人的speaker embedding(A+B)随机权重混合-feak_spk_embedding,
  • feak_spk_embedding+ A-wav中的pitch+ encoder(A-wav),然后用decoder合成一个假数据,送给model-input,
  • encoder(feak-wav)+A-speaker embedding + pitch,和A-wav算重建损失(这个过程不加对抗loss)

主要是使得encoder见过各种各样的组合,增强泛化性

3. experiment

数据集

  • NUS-48E数据集,6男6女歌唱者,包括48首歌,每人唱4首
  • train-set:男声歌唱者,数据转换成单声道,sr=16,另外用到8-bit u-law编码压缩输入空间,加速训练(会使语音质量下降)
  • test-set:训练集合6个人之间互转(无法完成集外的转换)


[2020 icassp] PitchNet-Unsupervised Singing Voice Conversion with Pitch Adversarial Network相关推荐

  1. SINGAN: Singing Voice Conversion with Generative Adversarial Networks

    会议:APSIPA 2019 作者:Berrak Sisman, Haizhou Li 文章目录 1. abstract 2. introduction 3. GANS FOR SINGING VOI ...

  2. [2021 icas]PPG-BASED SINGING VOICE CONVERSION WITH ADVERSARIAL REPRESENTATION LEARNING

    作者:Li Zhonghao 会议:投稿2021 icassp 单位:bytedance 文章目录 abstract 1. introduction 2. METHOD 2.1 PPGs Encode ...

  3. Parallel-data-free voice conversion using cycle-consistent adversarial networks

    会议:EUSIPCO 2018 单位:日本NTT 作者展示链接 1. abstract 本文实现不需要平行数据,不需要额外的数据,模型,对齐方式实现的高质量,通用的语音转换.用带门控CNN的Cycle ...

  4. 李宏毅DLHLP.10.Voice Conversion.2/2. CycleGAN and starGAN

    文章目录 介绍 2nd Stage Training Direct Transformation Cycle GAN starGAN Reference 介绍 本门课程是2020年李宏毅老师新课:De ...

  5. 【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》

    <An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...

  6. 语音合成(speech synthesis)方向六:歌唱合成(singing voice synthesis)

    声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 低调奋进 TTS 开源数据 低调奋进 ...

  7. [论文阅读] Singing Voice Timbre Classification of Chinese Popular Music

    前言 这是2013年发表在ICASSP上的Singing voice timbre classification of Chinese popular music,有点老了,今早没事翻阅文档时发现了, ...

  8. 李宏毅DLHLP.09.Voice Conversion.1/2. Feature Disentangle

    文章目录 介绍 什么是VC 应用 实操 分类 Feature Disentangle Using Speaker Information Pre-training Encoders Content E ...

  9. Voice conversion相关语音数据集综合汇总

    CSTR VCTK Corpus:英语语音,109个说话人,每个说话人平均400句话,每句话4至10秒,平行语料. TIMIT Acoustic-Phonetic Continuous Speech ...

最新文章

  1. 百度景鲲:AI交互正在吃掉旧产品边界,触达移动互联网盲区用户 | MEET2020
  2. layui table 弹出层刷新_layui 关闭open弹出框 刷新table表格页面的方法
  3. HDU 5115 Dire Wolf 区间dp
  4. 建立索引和主外约束_Mysql索引原理
  5. Dockerfile指令详解:WORKDIR 指定工作目录
  6. 2020国庆节 Angular structual 指令学习笔记(<ng-template>) 包含语法糖解糖过程
  7. vba传值调用_Access VBA如何使用Shell命令以及如何传递参数
  8. Facebook、阿里等大佬现身说法,NLP是否被高估了?
  9. Python 操作 redis
  10. QQ空间小秘书 V1.70 Beta1 ~~ 天空原创软件
  11. CentOS 7 最小化安装后的注意事项(一)
  12. mysql5建函数报1064错误_Mysql创建表过程中报1064错误
  13. paip.python连接mysql最佳实践o4
  14. c语言符号意思大全,c语言符号意思
  15. 人工智能数学基础8:两个重要极限及夹逼定理
  16. 【趣题】几堆石子轮流捡,谁捡到最后的石子算输的游戏
  17. 网络传输介质和常见的设备
  18. EMBA课程小记(5)——“财务管理”课程体会
  19. 非标资产与标准资产_资产商店行动新闻– 2011年6月
  20. Linux 的chmod权限数字777、755、644代表什么?

热门文章

  1. 网防g01怎么防护个人计算机,为你的服务器安装公安1所研制的网防卫士G01
  2. 0x00000000该内存不能为read
  3. Android中如何获取IMEI号码
  4. 为什么我注入mapper为null啊?
  5. HBuilderX 安装 scss/sass编译 插件报错 binding.node 解决方案windows版
  6. 前端优化 - 收藏集 - 掘金
  7. EasyExcel 复杂数据导出
  8. NoSQLRedis的介绍和Redis安装部署,通过yum在线安装Redis,通过源码安装Redis;
  9. Android自定义View——自由定制优惠券背景
  10. 多语言 cocos 国家列表