会议:2018interspeech
作者:MengHelen, liusongxiang, sunlifa
Voice Conversion 项目笔记(含从VCC 2016匿名比赛深挖的各前沿方法性能对比)https://blog.csdn.net/a790209714/article/details/77771866

abstract

 针对特定说话者的VC任务通常需要相当大数量的source-target数据,而我们想要仅通过一句source-target就完成voice conversion,我们称之为any-to-any的vc。我们做了两个系统(1)基于i-vector的vc系统,称之为IVC,使用i-vector表示一个新的target speaker;(2)speaker-encoder based vc,称之为SEVC,用一个单独训练的网络生成一个说话者embedding。使用ppgs提取说话者无关的语言特征。这两个系统都完成了目的,就自然度和语音质量而言,IVC更胜一筹。

1. introduction

 经常会需要将vc任务用于一个新的特定说话者,这种时候就需要对与训练好的模型进行自适应或者用目标说话者的数据完全从头开始训模型。如果可用的目标说话者数据量很小的时候,自适应或者重新训模型就很难实现。一种方法就是用现有的multi-speaker数据训练一个多说话者语音转换(MSVC,multi speaker voice conversion)模型,说话者的身份特征被编码额外作为输入。然后MSVC对于新的source-target pair的时候,从source中提取语言信息ppgs,然后从target提取说话者信息,一起作为输入。提取说话者身份特征的方法是多样的:可以用i-vector,是一个低维度的说话者身份编码方式【21】;也可以用可以学习的说话者编码方式【22,23】。
 对于新的target speaker,用一个预训练的离线的i-vector提取器提取embedding,而不能从已有的speaker embedding table中直接得到。有感于【24】,单独训练一个模型,用learned speaker embedding估计新的target speaker embedding。
优点在于

  1. 仅需要一句source-target就可以完成转换,而且转换的语音质量和相似度是在可以接受的范围;
  2. 不需要自适应的过程,意味着模型可以的直接用于任何的新的source-target数据;
  3. 不需要平行数据,意味着任何可用的数据都可以用于模型训练。

2. Any-to-Any Voice Conversion Systems

2.1. TheI-vector-basedVCSystem

 i-vector在语音识别中是有效的说话者身份的低维特征表示,本文用传统的GMM i-vector的方法作为i-vector提取器。它将channel和说话者信息压缩到一个total variable space的低维空间,因此将每一个GMM super-vector投影到成为i-vector的total factor feature。

s = m + T w s=m+Tw s=m+Tw
其中:s–super vector m:GMM-UBM的均值,T–total variabel matrix
w–i-vector,∑k是GMM-UBM的协方差,s,m已知,由EM算法通过T求i-vector
i-vector同时包含speaker和channel的信息,使用LDA和WCCN来减弱channel影响。

 图1说明了IVC系统的训练和转换过程,从MFCCs中提取通过embedding extractor提取speakerID encoding, 直接提取的LF0和SI-ASR提取的ppgs拼接,再和speakerID encoding拼接作为输入,通过多说话者转换网络映射到STFTMs,计算regression loss。最后通过GL声码器进行还原。

&emsp图2是网络的模型结构,N1是全连接层的堆叠,N2是BLSTM层的堆叠,为了充分的用到speakerID embedding的特征,我们将它加在网络的不同地方。再和ppgs以及Lf0拼接之前,先通过一层全连接,变成高维特征。

2.2. TheSpeaker-Encoder-based VC System


 speaker encoder是一个回归模型,本文使用的结构如图3所示,用可以拿到的数据集进行训练,输入mel谱,映射到已知的speaker embedding。
 训练过程:(1)首先用多说话者语料集训练MSVC模型,embedding parameter被近似初始化,然后通过回归损失和其他参数一起训练;(2)用训练的说话者语音的梅尔谱作为输入,learned speaker embedding作为目标训练speaker encoder模型。
 转换过程也很相似,不同的是将speaker embedding生成的过程替换一下。

3. Experiments

 做实验探究i-vector和 speaker embedding的性能,并且探究更多的source-target语句是否可以改善转换的语音质量,分别做了1,5,10三个数量的模型试验。

3.1. TheSI-ASR Model and the I-vector Extractor Training

 SI-ASR模型由4层DNN,在TIMIT数据集(462speaker)上训练,提取131 senone。提取13维的MFCC(25ms帧长,5ms帧移)。
 用ESJ0+WSJ1+TIMIT数据集训练i-vector,一共847speaker,声学特征:19维MFCC+LF0(log energy??)以及它的一阶二阶导数。用基于能量的VAD算法移除静默帧,用sliding window cepstral mean and variance normalization(CMVN)对特征做归一化。性别相关的2048UBM,i-vector提取器,LDA, 带有白噪化和长度过一化的PLDA,i-vector的维度是400,LDA的秩是400,PLDA的投影矩阵的秩是32,因此最终提取的是32维i-vector。

3.2. MSVC Model Training


 如图2所示,

multi-head attention layer 2 heads and a unit size of 64 for keys, queries and values
2层gated CNN 64个kernel,kernel宽度12
2层FC 节点数64

提取80维的对数功率谱,1024维的线性谱,对输入的对数功率谱做归一化变换,speaker encoder不需要归一化。
86个speaker(35male, 51female)用于训练speaker encoder, 另外10个做验证集。对应1,5,10句的source-target speech分别训练3个speaker encoder。adam优化器。初始学习率0.001,退火参数0.5。

4. Experimental Results


 图4展示了语音质量的MOS结果,将FF、MF、MM、FM的结果分别和groud truth进行比较,i-vector N01表示是用i-vector表示说话者身份,仅用一句source-target进行转换。

 图5展示了语音相似度的结果。i-vector的方案全面超过speaker embedding的方法,而且在target是女性的时候相似度更高,分析原因是训练数据中包含了更多的女性数据,因此希望能够通过数据集的均一化缩小这个差距。而且在两个系统上,随着训练数据集的增加,相似度是一个连续的改善。
给出了实验的样音。并提出可以通过替换GL vocoder达到更好的结果。
1Some audio samples can be found in “https://vcdemo.github.io”但是没有说是在什么样的数据集上训练出来的结果。
只做了主观评价,没有MCD的评价指标。
未完成的工作
1.对i-vector, GMM-UBM,以及EM算法的理解
2.对multi-head attention的理解。attention is all u need
3.speaker encoder的本质是什么?和i-vector的区别

Voice Conversion Across Arbitrary Speakers based on a Single Target-Speaker Utterance相关推荐

  1. 【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》

    <An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...

  2. 【20220121】Voice conversion

    voice conversion 1. autovc zero-shot 代码复现 retrain Vocoder 划分数据集 Bottleneck维度分析 2. CLSVC 代码复现 3. Spee ...

  3. 【VC/AC论文】Any-to-Many Voice Conversion withLocation-Relative Sequence-to-Sequence Modeling

    文章目录 Abstract Introduction Related Work Attention mechanisms in seq2seq model | seq2seq模型中的注意机制 A se ...

  4. 李宏毅DLHLP.09.Voice Conversion.1/2. Feature Disentangle

    文章目录 介绍 什么是VC 应用 实操 分类 Feature Disentangle Using Speaker Information Pre-training Encoders Content E ...

  5. 李宏毅DLHLP.10.Voice Conversion.2/2. CycleGAN and starGAN

    文章目录 介绍 2nd Stage Training Direct Transformation Cycle GAN starGAN Reference 介绍 本门课程是2020年李宏毅老师新课:De ...

  6. Voice conversion相关语音数据集综合汇总

    CSTR VCTK Corpus:英语语音,109个说话人,每个说话人平均400句话,每句话4至10秒,平行语料. TIMIT Acoustic-Phonetic Continuous Speech ...

  7. 机器学习-40-GAN-07-Feature Extraction(InfoGAN,VAE-GAN,BiGAN,Feature Disentangle(Voice Conversion))

    文章目录 Feature Extraction InfoGAN 问题引出 What is InfoGAN? 结果 VAE-GAN VAE-GAN Algorithm BiGAN BiGAN Algor ...

  8. [2020 icassp] PitchNet-Unsupervised Singing Voice Conversion with Pitch Adversarial Network

    单位:腾讯AI lab 作者:Chengqi Deng 会议: 2020 icassp demo: 文章目录 abstract: 1. introduction 2. method model arc ...

  9. 李宏毅《DLHLP》学习笔记7 - Voice Conversion

    视频链接:https://www.youtube.com/watch?v=Jj6blc8UijY&list=PLJV_el3uVTsO07RpBYFsXg-bN5Lu0nhdG&ind ...

最新文章

  1. Dubbo基础专题——第四章(Dubbo整合Nacos分析细节点)
  2. GHOST分区丢失只剩C盘
  3. MySQL安装时出现的问题
  4. 【HDU - 6231】K-th Number(二分,思维)
  5. 好的PPT——准备工作
  6. HTML期末作业-旅游网页
  7. 制药企业BI系统方案整体设计分享
  8. oracle中的函数
  9. 网页后门危害大 网站安全狗帮助查杀
  10. 如何在数据库中创建表
  11. 轮子哥:回顾我走过的编程之路
  12. mysql数据库的单引号用法_[数据库]mysql单引号和双引号的用法
  13. Android面试题汇总
  14. 基于增强现实的室内导航系统如何设计架构
  15. 20P18 Pr预设模板300个现代商务婚礼简洁迷你创意文字标题排版设计动画
  16. OVERLAPPED I/O 异步APC
  17. ioredis自定义函数以及在ts声明文件库添加声明
  18. 万字解读商汤科技ICLR2019论文:随机神经网络结构搜索
  19. windows 远程桌面研究
  20. Ansible配置文件ansible.cfg详解

热门文章

  1. linux 更改/home 挂载点
  2. 更轻更好用的蓝牙耳机,日常佩戴更舒适,QCY Crossky Link体验
  3. “无限流量”套餐何时替代WiFi
  4. 阿里云windows ftp 200 Type set to A. 227 Entering Passive Mode
  5. 在线格式转换网站设计-Gif的存储格式-GIF压缩具体实现
  6. 数据的完整性(实体完整性、域完整性、引用完整性)
  7. 数据库完整性(实体完整性、参照完整性、用户定义的完整性、完整性约束命名字句、断言、触发器)
  8. 基于51单片机模拟键盘---超级简单
  9. PPT嵌入pyechart和htmls网页
  10. 计算机原理较好的教材,《高等学校计算机专业教材精选·计算机原理:计算机组成原理》低价购书_教材教辅考试_孔网...