MOCKINGJAY: UNSUPERVISED SPEECH REPRESENTATION LEARNING WITH DEEP BIDIRECTIONAL TRANSFORMER ENCODERS

文章：MOCKINGJAY: UNSUPERVISED SPEECH REPRESENTATION LEARNING WITH DEEP BIDIRECTIONAL TRANSFORMER ENCODERS
作者：Andy T. Liu Shu-wen Yang Po-Han Chi Po-chun Hsu Hung-yi Lee
National Taiwan University
GitHub：https://github.com/andi611/Self-Supervised-Speech-Pretraining-and-Representation-Learning

ABSTRACT

我们提出了Mockingjay作为一种新的语音表示学习方法，其中双向Transformer编码器在大量未标记的语音上进行了预训练。以前的语音表示方法是通过对过去的帧进行条件调整并预测有关未来帧的信息来学习的。而Mockingjay旨在通过共同调节过去和未来的环境来预测当前框架。 Mockingjay表示可改善许多下游任务的性能，包括音素分类，说话者识别和语音内容的情感分类，同时胜过其他方法。 Mockingjay在经验上很强大，可以在下游模型中进行微调，仅用2个时间段，我们就可以进一步显着提高性能。在只有0.1％标记数据的低资源设置中，我们优于使用全部100％标记数据的Mel功能的结果。

INTRODUCTION

语音表示学习的目标是从语音中找到一种转换，使高级信息更易于SLP（语音和语言处理）下游任务访问，因为语音信号具有丰富的声学和语言内容，包括音素，单词，语义，语气，说话者特征，甚至是情感信息。在本文中，我们建议Mockingjay通过无监督的训练来学习语音表示，而无需使用任何标签。我们使用多层变压器编码器和多头自注意力[1]来实现双向编码；这个框架使我们的模型可以同时考虑过去和将来的环境。为了实现语音表示的无监督预训练，Mockingjay在建议的“蒙版声学模型”（MAM）任务下学习。在训练过程中，将给出蒙版帧，并且该模型将学习重建和预测原始帧。因此，我们给它起了模仿鸟的名字叫Mockingjay。提议的框架如图1所示。

1.1. Related work
无监督语音表示学习[2、3、4、5、6、7、8、9、10]可有效地从语音中提取高级属性。 SLP下游任务可以通过语音表示来改进，因为诸如对数梅尔频谱图或波形之类的表面特征可能很难揭示语音中的大量信息。
对比预测编码（CPC）[5]和wav2vec [7]使用多层CNN对过去的上下文进行编码，在对比二进制分类任务下，通过预测潜在空间中的未来来学习表示。自回归预测编码（APC）[6]使用自回归模型对过去声学序列的时间信息进行编码。该模型可以预测未来的帧，例如基于RNN的语言模型[11]，并通过重建损失进行优化。在以前的方法中[2、3、4、5、6、7]通常使用单向模型。但是，对模型体系结构的这种限制限制了语音表示学习的潜力。
最近提出的vq-wav2vec [8]方法尝试在连续语音上应用性能良好的自然语言处理（NLP）算法BERT [12]。输入语音被离散化到K-way量化嵌入空间，因此连续语音可以像NLP任务中的单词标记一样充当离散单元。在vq-wav2vec [8]中，由于量化过程不利于语音的连续性，因此需要具有大量计算资源的详尽的两阶段训练管道来使语音适应NLP算法。与[8]通过量化使语音适应BERT [12]不同，所提出的方法可以看作是BERT [12]的修改版本，可直接应用于连续语音。

1.2. Proposed Method
与以前的从左到右的单向方法仅考虑过去的序列来预测有关未来帧的信息不同，该方法允许我们训练双向语音表示模型，从而减轻了先前方法的单向性约束。结果，Mockingjay模型在几个SLP任务中获得了实质性的改进。此外，由于以前的方法将预训练模型的功能限制为仅表示提取[5、6、7、8]，因此该方法很健壮，因为可以轻松地在下游任务上对其进行微调。我们表明，对2个纪元进行微调很容易获得明显的改善。
所提出的方法优于其他表示和功能。与常用的log Mel功能相比，我们在语音音素分类准确度方面的表现优于35.2％（绝对改善），在说话人识别准确度方面优于28.0％（绝对改善），在情感识别方面的表现优于6.4％（绝对改善）。训练前看不到口语内容数据集。我们还对资源不足的环境进行了实验，以表明Mockingjay能够改善现实生活中资源匮乏情况下的监督培训。只需转录0.36小时（0.1％）的语音，所提出的方法就可以胜过具有360小时（100％）的标签的Mel功能。

2. MOCKINGJAY

在本节中，我们首先介绍模型体系结构及其设计，其次我们解释提出的无监督上下文预测任务，最后解释如何将提出的模型与下游任务模型一起使用。

2.1. Model Architecture
们使用具有多头自注意力的多层Transformer编码器进行左右双向编码，此体系结构如图2所示。每个编码器层都有两个子层，第一个是多头自层。注意网络，第二个是前馈层，根据[1]中所述的设计，每个子层都有一个剩余连接，然后进行层归一化[13]。模型中的所有编码器层以及子层均会产生尺寸相同的输出，称为Hdim。在图2中，我们将前馈大小表示为Fdim，将自注意头的数量表示为Anum，并将Transformer层的总数表示为Lnum。可以从Transformer编码器的隐藏状态中提取Mockingjay表示形式，并标记为Hidden（隐藏），我们将在2.3节中说明如何将其用作表示形式。
由于Transformer编码器不包含递归和卷积，因此我们使用位置编码使模型知道输入序列的顺序[1]。由于将声学特征直接添加到位置编码可能会导致潜在的训练失败[14]，因此在添加位置编码之前，首先将输入帧线性投影到Hdim的隐藏维度。我们使用正弦位置编码代替可学习的位置嵌入[16]，因为声学特征可以任意变长且具有高方差[15]。我们对输入要素应用下采样，以使我们的模型适应长序列。为了将帧长度减少Rfactor，我们使用[14，15]中的整形技术，将Rfactor连续帧堆叠为一个步骤。

2.2. Masked Acoustic Modeling
我们提出了“蒙面声学建模”任务，在该任务中，我们随机选择15％的输入帧，然后模型根据其左右上下文预测所选的帧，如图1所示。在训练过程中，我们添加了一个由以下项组成的预测头：两层具有层归一化的前馈网络，使用最后一个编码器层作为输入。我们使用L1损失来最小化所选15％的预测帧与真实帧之间的重构误差。训练模型后，将不再使用预测头。
在训练过程中，对于选定的15％帧，1）我们将其80％的时间全部屏蔽为零，2）在10％的时间中将其全部替换为随机帧，3）在10％的时间内保持不变。时间。我们引入此子随机过程，而不是总是屏蔽框架以减轻训练和推理之间的不匹配，因为在推理期间不会出现屏蔽的框架。请注意，与BERT [12]相比，子随机过程是对第i个所选令牌进行令牌方式执行的，而我们的子随机过程则是发话方式执行的。换句话说，我们的模型可能在10％的时间内有3％的时间接收到作为真实帧的输入，而不是像[12]那样总是增加一些输入。
为了避免模型利用声学帧的局部平滑度，我们提出了额外的连续屏蔽，其中将连续帧Cnum屏蔽为零。需要模型来推断全局结构而不是局部信息。我们还使用动态屏蔽[18]，其中每当我们向模型输入序列时，都会从均匀分布中采样屏蔽模式，这与[12]中采用的静态屏蔽不同，静态屏蔽是在数据预处理期间执行屏蔽的。正如[18]所建议的，我们仅使用单个上下文预测任务来训练我们的表示模型。与BERT [12]和ALBERT [19]不同，它需要两项任务来训练他们的语言模型。在我们的初步实验中，我们发现[12，19]中使用的句子预测任务没有帮助，因为其他任务可能会损害训练行为。由于篇幅所限，我们不提供详细信息。

2.3. Incorporating with Downstream Tasks
Mockingjay表示本质上是Transformer编码器的隐藏状态。有很多方法可以将学习的表示形式合并到下游任务中。在这项工作中，我们主要从最后一层提取表示。但是，我们还将Mockingjay的深层内部结构暴露给下游模型，在此模型中，我们使用了来自所有层的混合表示，类似于ELMO [20]的方法。换句话说，我们使用可学习的加权总和来集成来自所有层的隐藏状态。最后但并非最不重要的一点是，可以将预训练的Mockingjay模型与下游模型进行微调以创建改进的结果，我们将预训练的Mockingjay与随机初始化的下游任务模型一起更新。

3. IMPLEMENTATION

在这项工作中，我们使用两种类型的特征作为模型的输出重建目标：梅尔尺度谱图和线性尺度谱图。与线性刻度频谱图相比，由于梅尔刻度频谱图是更简洁的声学功能，因此我们提出了两种模型设置：BASE和LARGE。这两个模型都将Mel特征作为输入，并将输入Mel特征转换为高级表示。他们使用相同的隐藏维度尺寸Hdim = 768，前馈尺寸Fdim = 3072，注意头Anum = 12，但图层编号Lnum，下采样系数Rfactor和连续的蒙版编号Cnum除外，不同的模型设置列于表1。我们在实验部分中进一步分析它们之间的差异。

拟议的Mockingjay模型在LibriSpeech [21]语料库train-clean-360子集中进行了预训练。我们使用亚当[22]，其中，在500k总训练步骤的前7％中，学习率被加热到峰值4e-4，然后线性衰减。对所有图层和注意权重都应用0.1的下降量[23]。对于下游任务微调，除学习速率为4e-3以外，大多数超参数与预训练中的相同，并且训练时期的数量设置为2（约5万步）。我们使用单个1080Ti GPU以6的批量大小进行训练。我们在实施过程中提供了经过预训练的模型，这些模型可公开获得，以提高可重复性。

4. EXPERIMENT

根据先前的工作[2、3、4、5、6、7、8]，我们评估下游任务的不同功能和表示形式，包括：音素分类，说话者识别和语音内容的情感分类。为了进行公平的比较，尽管输入功能不同，但每个下游任务都使用相同的模型体系结构和超参数。
我们报告来自以下5种设置的结果：1）BASE和2）LARGE，其中Mockingjay表示是从最后一个编码器层中提取的； 3）BASE-FT2，其中我们使用了随机初始化的下游模型针对2个时期微调BASE，以及4） BASE-FT500，我们微调500k步长，最后5）LARGE-WS，通过可学习的加权总和，将LARGE模型所有编码器层的隐藏状态合并在一起。我们没有对LARGE模型进行微调，因为它是用于提取表示形式的。从经验上我们发现，即使进行监督训练，也很难从头开始训练随机初始化的Mockingjay模型及其后的任何下游模型。这表明所提出的预训练基本上是必不可少的。

4.1. Comparing with other representations
所提出的方法主要与APC [6]表示形式进行比较，因为它们还在电话分类和说话者验证上进行了实验。如[6]中所述，APC方法在两项任务中均胜过CPC表示法[5、7、9]，这使APC适合作为牢固的基准。 APC使用单向自回归模型。我们将提出的方法与APC进行了比较，以表明我们的双向方法在语音表示学习中具有优势。为了公平起见，我们使用APC的正式实现对APC进行了预训练，并报告了理想的参数和设置，但将模型的隐藏大小扩展为Hdim = 768以匹配我们的模型。我们还将报告关于160维对数梅尔特征的结果，这有助于评估常规声学特征对语音信息的可访问性。

4.2. Phoneme Classification
为了衡量语音信息的可访问性，我们使用LibriSpeech train-clean-360子集中的Mel功能，APC和Mockingjay表示来训练线性电话分类器。我们使用蒙特利尔强制比对器[24]获得了强制对齐的音素序列，其中有72种可能的电话类别。 LibriSpeech测试清洗子集的测试结果如图3所示。在使用所有360小时标签训练分类器的情况下，BASE和LARGE表示相对于Mel功能提高了11.8％和15.2％的准确性。 BASE-FT2模型在经过2个微调后，性能优于所有表示，与APC和Mel特性相比，绝对改进分别为10.2％和35.2％。我们观察到，对2个纪元进行微调足以显示我们方法的潜力，因为BASE-FT2和BASE-FT500之间只有很小的差距（3.9％）。此外，正如我们预期的那样，LARGE-WS比LARGE有所改进。
为了演示语音预训练如何在人力资源短缺的资源受限场景中改善监督训练，我们使用减少的训练数据量来训练分类器。图3中绘制了不同方法的性能变化，其中我们在受限训练数据的各个间隔进行测量以观察性能下降。 BASE和LARGE均可在各种转录数据量上提高Mel功能的准确性。尽管APC方法在完整资源上表现良好，但无法推广到有限数量的标记数据。如果只有0.36个小时的可用数据，我们的准确率将提高22.7％（相对于梅尔功能，这是绝对的提高）。请注意，只有0.36小时（0.1％）的标签可用，BASE-FT2（57.9％acc）甚至胜过表2。将不同方法与不同任务进行比较。
具有所有360小时（100％）标记数据的梅尔功能（准确度为49.1％）。我们得出的结论是，对Mockingjay进行语音预训练可以大大提高需要人工注释的监督任务的性能。

4.3. Speaker Recognition
为了证明所提出的方法对于所有SLP下游任务始终有效，我们在LibriSpeech 100小时选定子集上报告了说话人识别结果，其中训练/测试拆分以9：1的比率随机执行，并且有63位可能的说话人。我们使用不同的表示训练了一个简单的单层RNN分类器来进行说话人识别，结果在表2中列出以进行比较。拟议的BASE和LARGE表示均优于APC和Mel-Features。 BASE-FT2进一步提高了BASE的精度，同时获得了最高的精度，而LARGE-WS也胜过LARGE。

4.4. Sentiment Classification on Spoken Content
为了证明所提出的表示在不同数据集上的域不变性，Mockingjay模型在LibriSpeech上进行了预训练，并应用于MOSEI [25]数据集。我们还使用一个简单的单层RNN分类器，对模型进行训练以从语音中提取语言含义并区分情感。表2中列出的结果得出与上述说话人识别任务相同的结论。除了在情感分类的情况下，LARGE-WS在不需要微调的情况下也获得了最高分，这表明更深层次的模型具有提取一般语音表示的巨大潜力。作为本节的总结，我们认为建议的表示形式是通用的，可以用于具有各种未知域的数据集。

5. CONCLUSION

提议的表示形式包含各种知识，包括但不限于语音，说话者和情感信息。我们可以提高各种下游任务的性能，并在资源配置较低的情况下显示出令人鼓舞的结果，因为学习到的语音表示很健壮，可以跨不同的数据集传输到不同的任务。在以后的工作中，我们将研究Mockingjay表示形式并将其部署到更多下游SLP任务中，包括ASR，语音转换和语音翻译。