视频链接:https://www.youtube.com/watch?v=Jj6blc8UijY&list=PLJV_el3uVTsO07RpBYFsXg-bN5Lu0nhdG&index=9&ab_channel=Hung-yiLee
课件链接:https://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/Voice%20Conversion%20(v3).pdf

1. 语音转换分类

语音转换的用处很多,如合成其他人的声音、合成不同情绪的声音等。本节介绍的技术都是从acoustic features到acoustic features,并不是生成真实可以听的语音信号。因为从acoustic features到wave之间,还有一个vocoder的工作,这个不在本文中介绍。

我们按图的方式进行分类,第一类是parallel data,这种事对于同一句话,有两个不同人的声音数据,这种数据是很匮乏的;第二类是unparallel data,这就不需要前面的那种成对的声音数据了。思路也是借鉴与图像的风格迁移技术。

2. Feature Disentangle

在unparallel data中,第一种技术是feature disentangle。其思想是使用两个encoder,将声音讯号中的内容信息与声纹信息区分开。

下图是将原始的acoustic features经过两个encoder,分别提取出语音内容的embedding和speaker音色的embedding,然后,再将这两个embedding拼接起来,通过decoder再解码为acoustic features。

当有这样的content encoder, speaker encoder和decoder以后,就可以从speaker A的acoustic features中抽取content信息,从speaker B的acoustic features中抽取音色信息,再将两者拼接在一起,通过decoder生成speaker B的说话内容。

那么,如何做到让一个encoder用于处理content,另一个encoder用于处理音色呢?

2.1 Speaker Encoder

我们先从解决speaker encoder的问题开始,最简单的一种方案:使用one-hot取代speaker encoder,这样,我们就是在知道speaker encoder的前提下,去训练content encoder和decoder了。

当我们训练好content encoder和decoder以后,再使用Voice Conversion,就是简单地替换不同的speaker encoder了。当然,这里是存在一个局限的:我们可以合成的声音只能是明确已知的,也就是在one-hot中编码的。

另外,我们也可以采用预先训练模型的方式,提前训练好相应的encoder。

先来看看speaker encoder,我们可以使用各种已经公开的声纹模型,如:i-vector, d-vector, x-vectoer等。用这些声纹模型生成相应的speaker embedding,代替上面的one-hot,这样,或许可以合成出不再训练集中的声音。

2.2 Content Encoder

上面说过了speaker encoder,我们再看看content encoder。
我们可以考虑使用语音识别的模型当作content encoder,因为语音识别本身就是与speaker没有关系的。但是,语音识别模型会存在一个问题,就是输出是文字,而不是embedding。那么,我们该怎么办呢?
在介绍HMM的时候,我们说到HMM可以接DNN。在上图的右上角,DNN的输入是acoustic features,输出是属于每个status的概率,这样的话,我们就可以直接使用这个DNN来作为content encoder。

另外一种思路是使用GAN的方法,我们引入一个speaker classifier,用于识别content encoder输出的embedding是否包含speaker的特征。content encoder和speaker classifier交替进行训练。

2.3 架构设计

下面的技术也是借鉴与image style transformation的。
通过在content encoder中增加instance normalization以后,就可以去掉speaker 的信息了。

那么,为什么instance normalization可以去掉speaker的信息呢?

我们先以LAS中CNN版本的Encoder为例,看看Instance Normalization是如何工作的。每一个channel就是一种filter处理以后的输出,Instance normalization的作用就是在这一个channel上,计算出均值和方差,做normalize的操作。这样,经过instance normalization以后,每一个维度的均值都是0,方差都是1。
我们可以将不同的filter看作是抽取声音信号中的某种特征是否存在,如:是否是女性的声音或者是男性的声音。在没有经过instance normalization之前,某些channel是能够表现出不一样的性质的。但是,经过instance normalization以后,输出的都是类似的(均值为0,方差为1),这样,就将speaker的信息去掉了。

接下来,我们需要将speaker encoder的输出,加到decoder里,而且是只作用于speaker的特性上,使用的方法是AdaIN。

下面我们看看AdaIN的具体实现过程:

  1. 在Decoder中,也使用IN,将输出的特征做nomalize,去除speaker的信息,最终,生成特征向量z1,z2,...,znz_1, z_2, ..., z_nz1,z2,...,zn;
  2. 使用speaker encoder的输出,经过两个变换,生成两个向量γ\gammaγβ\betaβ;
  3. γ\gammaγβ\betaβ,对ziz_izi做处理,zi′=γ.zi+βz^{\prime}_i = \gamma . z_i + \betazi=γ.zi+β

    接着,就像一般的auto-encoder一样,e2e的训练下去,就结束了

但是,上面介绍的过程是存在一个问题:训练阶段使用的是同一个人的声音,但是在使用阶段,却是用两个人的声音。这样,最后合成的声音效果,可能会不好。

如何解决这个问题呢?可以使用下面这种2nd stage training的方式。
在训练阶段,引入额外的criterion,譬如说,引入GAN的机制,让discriminator判断合成的语音是真实语音,还是合成的;也可以引入一个提前训练好的speaker classifier,用于判断输入的语音是哪一个speaker。

在第二阶段的训练过程,只训练一个patcher,用于合成语音,并将合成的语音与Decoder生成语音叠加在一起,合成新的语音。用这个新的合成语音,作为最终的语音。

3. Direct Transformation

下面介绍直接将speaker X的声音转换成speaker Y的声音,使用的方法就是CycleGAN。

3.1 CycleGAN

这里使用的CycleGAN就是图像风格迁移中使用的CycleGAN。
下面简单回顾一下CycleGAN的原理:

  1. 生成器GX−>YG_{X->Y}GX>Y的作用是将speaker X的语音转成speaker Y的语音;
  2. Discriminator DYD_YDY的作用是判断生成的语音是Y的概率,越大越好;

    如果仅有上述的GX−>YG_{X->Y}GX>YDYD_YDY,生成的语音很有可能会忽略掉speaker X的语音,而直接合成speaker Y常说的话,这也不是我们所期望的,那么,该怎么办呢?

    解决上面问题的方法是:再引入一个生成器GY−>XG_{Y->X}GY>X,作用是将Y的语音转成X的语音,最后,输入的X的语音与输出X的语音,尽可能的接近。
    另一个小trick:在训练GX−>YG_{X->Y}GX>Y的时候,可以输入Y的语音,输出也是Y的语音,应该让两者之间尽可能地接近,这样可以让整个训练过程比较稳定。

    当然,我们也可以再引入一个反向的生成过程,就组成了完整的CycleGAN了。

3.2 StarGAN

接着,我们讲一下StarGAN,这是CycleGAN的进阶版。
在StarGAN中,我们需要对Generator和Discriminator做一些修改。
在原先的Generator和Discriminator基础上,增加speaker的表示。这个是可以使用已经训练好的speaker encoder来完成。

接下来,我们看一下StarGAN的整体工作过程,其实,与CycleGAN就大同小异了。下图的上半部分是CycleGAN,下半部分是StarGAN

在训练StarGAN的时候,其实,还需要一个classifier,可以参看论文。

3.2 Blow

另外一种比StarGAN更进阶的技术,叫Blow

这里,就不再展开说明,可以参看论文。
关于flow-based model也可以看之前的视频介绍。

李宏毅《DLHLP》学习笔记7 - Voice Conversion相关推荐

  1. 李宏毅深度学习笔记——呕心整理版

    李宏毅深度学习笔记--呕心整理版 闲谈叨叨叨: 之前看过吴恩达的一部分课程,所以有一定理论基础,再看李宏毅的课程会有新的理解.我先以有基础的情况写完学习过程,后续再以零基础的角度补充细节概念(估计不会 ...

  2. 【《2021机器学习-李宏毅》学习笔记】

    文章目录 简介 内容示意 个人学习笔记 01-Regression 02.1-deeplearning-general_guidance 02.2-deeplearning-类神经网络优化技巧 02. ...

  3. 深度学习李宏毅PPT学习笔记一(深度学习介绍)

    文章目录 什么是深度学习?DNN就是有多个隐层的NN 为什么是深度网络,而不是宽度网络? 深度学习第一步,使用keras训练mnist手写数字识别模型 什么是深度学习?DNN就是有多个隐层的NN 机器 ...

  4. 李宏毅NLP学习笔记,NLP模型LAS。

    转自:http://t.zoukankan.com/yanqiang-p-13257228.html 语音识别模型: 语音识别模型主要分为两种,一种是基于seq2seq的,一种是基于HMM的. seq ...

  5. 李宏毅nlp学习笔记06:Text Style Transfer

    1.Text Style Transfer 可以把消极的消息变成积极的消息: 进行的应该是无监督的学习. 以把消极的句子转为积极的句子为例. G:模型是消极的模型转化为积极的模型 D:则应该能够判断转 ...

  6. 李宏毅nlp学习笔记10:QA(Question answering)

    1.QA的基本流程: 问题的答案可能是明确的,也可能是有变化的. 答案给出的方式,可能是一个词,或者是一个单个的句子, 获取知识的来源,可以使文本,声音,搜索,视频. 答案形式部分: 2.输出的答案就 ...

  7. 李宏毅深度学习笔记(CNN)

    卷积神经网络(CNN) 为什么使用CNN? CNN可以很好用于图像的处理,这主要基于两个假设: 图像中同样的特征片段可能出现在不同的位置.图像上不同小片段,以及不同图像上的小片段的特征是类似的,也就是 ...

  8. 李宏毅nlp学习笔记12:DST(Dialogue State Tracking)

    该任务所处的位置: 下图中红色框框框住的地方. 该任务很重要: DST具体做什么: 最后给出的结果一般是一个set: 一般key是提前给好的. value则会给出一个范围. key一般会分成domai ...

  9. C++学习笔记 转换函数(conversion function)

    #include <iostream> using namespace std;class Fraction // 分数 { public:explicit Fraction(int nu ...

最新文章

  1. (C++)strlen(),strcmp(),strcpy(),strcat()用法
  2. 点击别的地方隐藏下拉列表
  3. CV之CycleGAN:CycleGAN算法相关思路配图、论文集合
  4. 第三章 Matlab数组
  5. Python中的迭代遍历 for in
  6. docker镜像启动后端口号是多少_14,Docker容器必知必会,你会了吗?
  7. android 上下滚动文字_android高仿今日头条富文本编辑(发布文章)
  8. mysql建库权限_mysql数据库用户权限及建库脚本
  9. 我们在使用计算机时,不能做什么?,11秋季学期计算机应用技术基础学习周期_01任务-在线作业[1]1...
  10. springboot请求处理
  11. 测试人员与开发人员之间的关系如何?
  12. 1算法:控制字幕左右移动
  13. python自动保存图片_python抓取豆瓣图片并自动保存示例学习
  14. 计算机驱动程序安装不了,Win7系统安装不了主板驱动的解决方法
  15. STEAM 自动安装时提示C++ 安装不了等问题
  16. 计算机汉字50字一分钟,一分钟的演讲稿一分钟演讲稿50字
  17. 如何用 js 获取虚拟键盘高度?- 20170817 前端开发日报
  18. C语言 运算符优先级表
  19. lua游戏代码_在游戏中如何使用LUA脚本语言
  20. USACO-Preface Numbering

热门文章

  1. 国际互联网Internet
  2. 海康威视错误代码0xf_海康威视设备网络SDK编程指南(报 警主机).pdf
  3. 多线程初体验——使用2个线程根据莱布尼兹级数计算PI、多线程排序
  4. 找不到 Web 地址对应的网页:_Web服务器的配置与管理
  5. 台式计算机风扇润滑油,电脑CPU风扇,显卡风扇千万不要加缝纫机油或机油
  6. 《码出高效:java开发手册》六-数据结构与集合(一)
  7. QGIS输出地图图片操作指引
  8. 企业员工培训管理系统(JAVA,JSP,SQLSERVER,SSH)
  9. Swift4.0判断本函数是否在其它类有相同的方法
  10. Firebird 2.5的部分操作