论文阅读——WaveNet: A Generative Model for Raw Audio

1.文献名称：wavenet

2.期刊会议：由Google旗下的Deepmind团队推出

3.影响因子：

①研究的领域、背景、业界现状、进展

研究的课题、研究的内容

wavenet，一种原始音频波形的深度生成模型，可以生成模仿任何人类声音的语音。该模型是完全概率和自回归的，每个音频样本的预测分布以所有先前的音频样本为条件。

业内现状和存在的问题

用计算机产生语音——通常被称为语音合成(speech synthesis)或文本到语音(TTS)——仍然主要基于所谓的连接式TTS(concatenative TTS)，它要求记录单一的录制者大量的短语音片段来形成一个巨大的数据库，然后重新组合这些片段以形成完整的话语。这使得在没有重新录制整个新的数据库的情况下，修改声音变得十分困难(比如转换成不同的说话者，或者改变他们声音的重点或情感)。
这导致了对参数式TTS(parametric TTS)的迫切需求，其中生成数据所需要的所有信息都保存在模型的参数中，并且语音的内容和特征可以通过模型的输入来控制。但目前为止，参数式TTS比连接式TTS听起来更不自然。现有的参数式模型往往将输出通过名为声码器(vocoders)的信号处理算法来生成音频信号。
WaveNet改变了这种范例，它直接对音频信号的原始波形进行建模，一次一个样本。使用原始波形意味着，除了生成听起来更自然的声音外，WaveNet可以模拟任何音频，包括音乐。

研究人员常常避免对原始音频建模，因为它的速度非常快：通常每秒有16000个或更多样本，且在许多时间尺度上具有重要结构。构建一个完全自回归(autoregressive)模型显然是一项具有挑战性的任务，其中每个样本的预测都受到先前所有样本的影响(从统计学上来说，每个预测的分布都以先前所有观察为条件)。
然而，我们在今年(2016年)早些时候发布的PixelRNN和PixelCNN模型显示，不仅可以通过一次生成一个像素，而且可以通过一次生成一个颜色通道，来生成复杂的自然图像，其中每幅图像需要上千次这样的预测。这促使我们将二维的PixelNets改编为一维的WaveNet。

②研究的动机、目的、意义

这项工作探索了原始音频生成技术，其灵感来自最近神经自回归生成模型的进展，这些模型为复杂的分布建模，如图像（van den Oord et al.，2016a；b)和文本(J’ozefowicz et al.，2016)。使用神经结构，作为条件分布的乘积来建模像素或单词上的联合概率，产生了最先进的生成。
这些体系结构能够对数千个随机变量上的分布进行建模（例如，PixelRNN中的64×64像素（van den Oord et al.，2016a))。本文讨论的问题是，类似的方法能否成功地产生宽带原始音频波形，这些信号具有非常高的时间分辨率，至少每秒16000个样本。

③研究的方法、思路、关键技术

核心idea、方法：

论文中也提到主要的思想是借鉴了PixelCNN在图像上的应用，大致的思想就是利用图像中先前生成的像素点来进行新像素点的生成。图像是二维的，那么应用在音频信号中，则是一维的。

本文提出了一种新的直接处理原始音频波形的生成模型。波形x={x1,…,xT}的联合概率分解为条件概率的乘积，因此，每个音频样本xt以所有先前时间步骤的样本为条件。如下所示：

与PixelCNNs类似（van den Oord et al.，2016a；b)，条件概率分布由卷积层的堆栈建模。网络中没有池层，模型的输出具有与输入相同的时间维数。该模型以softmax层输出下一个值xt上的分类分布，并对其进行优化以最大化数据的对数似然度W.R.T参数。

wavenet设计思路：

蓝色的input表示一个个的音频信号采样点，使用一个叠层的一维卷积（也称为因果卷积casual convolutional layers）来进行表示。这个一维卷积的宽度为2，卷积每次移动的步长为1。如下图所示，在这种配置下，我们叠层四次的感受野为5个点。在这种条件下如果要提高我们的感受野，那么我们需要增加额外的层数，最终导致的结果是，我们需要花费巨额的计算量。

为了减少计算量和提高感受野，论文中使用了膨胀因果卷积（dilated casual convolutional layer）。

简单说来，就是将卷积每次移动的步长设置为了2。这样子就会导致每次的卷积不会有重叠的部分。如下图所示，计算量上与图3保持一致，但是感受野从5个点扩张到16个点。它是一个完全的卷积神经网络，其中卷积层具有多种扩张因子，这使得其感知场(receptive field)随着深度呈现指数增长，以此覆盖上千的步长。
训练时，输入序列是记录人类声音的真实波形。训练之后，我们可以对网络采样生成合成声音。在采样的每个步骤中，我们从网络计算出的概率分布中抽取数值。将这一数值反馈到输入中，就可产生下一步的新的预测。像这样一次一步的建立样本的计算成本很高，但我们发现这对于生成复杂且逼真的音频十分重要。

网络结构：

1、使用扩张卷积

首先WaveNet的主要成分是因果卷积。通过使用因果卷积，我们确保模型不会违反我们对数据建模的顺序：模型在时间步t发出的预测p(xt+1x1，…，xt)不能依赖于任何未来的时间步xt+1，xt+2，…,xT如图2所示。因果卷积的一个问题是：需要许多层，或大的过滤器来增加感受野。

扩张卷积：在本文中，我们使用膨胀卷积将感受野提高了一个数量级，而不需要大大增加计算量。堆叠的膨胀卷积使网络由很大的感受野。

扩张卷积（也称为’A trous，或带孔卷积）是一种卷积，其中滤波器通过跳过输入值以某一步在大于其长度的区域上应用。它等价于一个卷积与一个更大的滤波器从原始滤波器通过用零膨胀它，但明显更有效。扩展的卷积有效地允许网络在比普通卷积更粗的规模上运行。这类似于池或跨行卷积，但这里的输出与输入大小相同。作为一个特例，膨胀量为1的膨胀卷积得到标准卷积。图3描绘了扩张1、2、4和8的扩张因果卷积。膨胀卷积以前曾用于各种上下文，例如信号处理（Holschneider et al.，1989；Dutileux，1989)和图像分割（Chen et al.，2015；Yu&Koltun，2016)。

2、门控激活单元

我们使用与门控PixelCNN中使用的相同的门控激活单元（van den Oord et al.，2016b)

其中*表示卷积算子，表示元素相乘算子，⊙ 为对应位置相乘运算符。σ(·)是sigmoid函数，k是层索引，f和g分别表示滤波器和门，W是可学习卷积滤波器。在我们最初的实验中，我们观察到这种非线性比校正的线性激活函数（奈尔&辛顿，2010)对音频信号建模效果要好得多。

3、残差和跳跃连接

残差（He et al.，2015)和参数化跳过连接这两种结构以加快收敛速度，并能够训练更深层次的模型。

最后的结果是根据每一层的输出的中间结果进行叠加（Skip-connections）后得到。

4、条件生成

给定一个附加输入h，WaveNets可以对给定该输入的音频的条件分布p（x h）进行建模。公式变成：

全局条件(其影响跨越所有时间步骤的输出分布)体现在门控单元中为：

局部条件，首先使用转置卷积网络（学习的上采样）对该时间序列进行变换，该网络将其映射到与音频信号具有相同分辨率的新时间序列y=f(h)，然后在激活单元中使用如下：

其中Vf,k*y现在是一个1×1卷积。作为转置卷积网络的替代方案，也可以使用Vf,k*h并跨时间重复这些值。在我们的实验中，我们发现这种方法的效果稍差一些。

5、上下文堆栈

我们已经提到了几种不同的方法来增加波网的感受野大小：增加扩张阶段的数量，使用更多的层，更大的过滤器，更大的扩张因子，或它们的组合。一种补充方法是使用单独的、较小的上下文堆栈来处理音频信号的很长一部分，并在局部条件下使用较大的WaveNet，该WaveNet只处理音频信号的较小一部分（在末尾裁剪）。

可以使用具有不同长度和隐藏单元数量的多个上下文堆栈。感受野较大的堆栈每层的单位较少。上下文堆栈也可以有池化层以较低的频率运行。这将计算需求保持在一个合理的水平，并且与直觉一致，即在较长的时间尺度上建模时间相关性需要较少的容量

6、SOFTMAX分布

对单个音频样本上的条件分布p(xt|x1，.，xt-1)建模的一种方法是使用混合模型，例如混合密度网络(Bishop，1994)或条件高斯尺度混合(MCGSM)(Theis&Bethge，2015)。然而van den Oord等人(2016a)表明，softmax分布倾向于更好地工作，即使数据是隐含连续的（就像图像像素强度或音频样本值一样）。其中一个原因是，范畴分布更灵活，可以更容易地为任意分布建模，因为它不对它们的形状做任何假设。

因为原始音频通常存储为16位整数值序列（每时步一个），所以softmax层需要每时步输出65,536个概率来建模所有可能的值。为了使这一点更容易处理，我们首先对数据应用μ律压缩变换(ITU-T，1988)，然后将其量化为256个可能的值：

其中，-1<xt<1和μ=255。这种非线性量化比简单的线性量化方案产生了明显更好的重建。特别是对于语音，我们发现量化后的重构信号听起来与原始非常相似。

④研究进行的实验、结果和结论

实验设置

实验设置TEXT-TO-Speech：我们使用Google的部分TTS数据来训练WaveNet，以此来评估模型的表现。下图显示了WaveNets的性能，分数从1到5，并与Google目前最好的TTS系统(参数式和连接式的)和使用Mean Opinion Scores(MOS)的人类语音相比较。MOS是用于主观声音质量测试的标准，获取自人类受测试者的盲评(来自100个测试句子的500多个评级)。正如我们看到的，WaveNets使得美式英语和普通话的最好表现与人类表现间的差距缩小了50%以上。
对于中文和英文，Google目前的TTS系统被认为是全球最先进的系统之一，因此使用单一模型就能对二者进行改进是一项巨大的成就。
评价指标
结果：指标进步多少

⑤总结

提出方法达到的结果、下结论=此研究的意义

我们表明，wavenets可以产生有主观自然度的原始语音信号，这在文本到语音(TTS)领域是前所未有的，正如人类评分者所评估的那样。

我们开发了基于扩展因果卷积的新结构，它表现出非常大的感受野

在一个小的语音识别数据集上测试时，同样的体系结构显示出很强的效果，并且在用于生成其他音频模式（如音乐）时也很有希望。
解决的问题(研究创新性)
未解决的问题(研究局限性)==未来研究方向

⑥对自己课题的意义

可借鉴的内容

方法、思路、流程