标题：利用单模态自监督学习进行多模态视听语音识别

论文：https://arxiv.org/pdf/2203.07996v2.pdf

代码：https://github.com/lumia-group/leveraging-self-supervised-learning-for-avsr

关键词：audio-visual speech recognition (A VSR)视听语音识别、unimodal data单模态数据、self-supervised learning自监督学习、CTC和Seq2Seq、

fine-tuning微调、Contrastive learning对比学习、wav2vec 、one-pass decoding单次解码、beam search集束搜索、label smoothing标签平滑、plateau scheduler、Babble noise

随机种子：设置随机种子能保证多次运行同样代码产生的随机数相同，即保证结果的可复现性

LayerNorm：LayerNorm是归一化的一种方法，与BatchNorm不同的是它是对每单个样本所以特征进行归一化，而BN是一个batch-size样本的所以特征进行归一化

摘要：

训练基于Transformer的模型需要大量的数据，而在多模态中获得对齐和标记的数据是相当有成本要求的，特别是对于视听语音识别（AVSR）。因此，利用未标记的单模态数据是非常有意义的。另一方面，尽管大规模自监督学习的有效性在音频和视觉模态中都得到了很好的证实，但如何将这些预训练的模型整合到多模态的场景中仍然没有得到充分的探索。在这项工作中，我们成功地利用了单模态的自监督学习来促进多模态的AVSR。

特别是，在大规模的单模态数据集上训练音频和视觉前端，然后我们将这两个前端的组件整合到一个更大的多模态框架中，该框架通过CTC和seq2seq解码的组合来学习识别并行的音频和视觉数据。我们表明，从单模态自我监督学习中继承下来的两个组件合作良好，从而使多模态框架通过微调产生有竞争力的结果。我们的模型在单词级和句子级任务上都得到了实验验证。特别是，即使没有外部语言模型，我们提出的模型在广泛接受的唇语阅读句子2（LRS2）数据集上的表现也有很大的提高，相对提高了30%

总结：

背景：自监督学习有效性得到证实，但如何将单模态的预训练模型整合到多模态中没有得到充分探索

本文工作：在大规模单模态数据集上训练音频和视频前端，再将预训练的前端整合到多模态框架中，通过CTC和Seq2Seq组合的解码来识别并行的视听数据；通过单模态的预训练，使多模态框架通过微调就能产生很好的效果。

1 介绍：

视听语音识别（AVSR）是一项语音识别任务，它同时利用了人声的音频输入和唇部动作的视觉输入。近几年它已成为涉及多模态的成功应用领域之一。由于标注的多模态对齐的数据量有限，以及从视觉输入（即读唇）中识别的难度，这是一项具有挑战性的任务。

现有的AVSR模型倾向于使用额外的数据来提高系统的性能，其形式是在训练过程中插入一个额外的监督学习阶段。例如，许多现有的方法依靠额外的序列级分类来引导其对视觉特征的学习。Petridis等人（2018）；Zhang等人（2019）在AVSR任务的学习之前，在LRW（Chung和Zisserman，2016）上训练其视觉前端。Afouras et al.(2018a,b)将MV-LRS数据（Chung和Zisserman，2017）分块成词，通过分类对模型进行预训练。VoxCeleb（Chung等人，2018）也被Afouras等人（2020）用于同一目的。即使有这些额外的监督学习任务，学习一个有效的视觉前端仍然可能是众所周知的困难。有时需要进行课程学习，以将学到的视觉前端适应于AVSR任务（Afouras等人，2018a）。直到最近，大规模A VSR数据的端到端学习还没有成功（Ma等人，2021）。

虽然自监督学习可以利用无标签甚至无对齐的数据，但它在这项任务上还没有得到充分的探索。Shukla等人（2020）是这方面为数不多的尝试之一，它从音频输入中预测唇部运动。他们提出的学习方案产生了强大的情感识别结果，但在语音识别方面相对较弱。此外，由于在AVSR中，对于识别语音内容来说，重要的是帧之间的唇形和运动，而不是单一图像中的物体，因此，为针对单帧图像的任务定制的预训练的视觉模型是否能够适用于AVSR仍然是未知数。在另一种情况下，单模态的自监督学习已经被确立为一种从无标签的例子中学习一般代表的范式，例如在自然语言处理（Brown等人，2020；Devlin等人，2019）、语音识别（Baevski等人，2020）和计算机视觉（He等人，2019；Chen等人，2020a；Grill等人，2020）。

在这项工作中，我们依靠一种简单而有效的方法，即通过使用预训练的模型来利用未标记的单模态数据，这些模型是通过自监督学习在单模态中训练的。具体来说，我们使用Baevski等人（2020）在大型LibriLight（Kahn等人，2020）数据集上进行的预训练作为我们的音频前端。对于视觉前端，我们发现它利用预训练的模型并不那么简单，因为我们必须用一个三维卷积层代替MoCo v2（Chen等人，2020b）中的第一个卷积层，并通过LRW对其进行微调。总的来说，我们的方法不需要课程学习阶段，整个训练时间也减少了（优点）。

实验结果表明，我们的新前端在纯音频和纯视觉的设置中都大大超过了以前的前端，并且在最终的AVSR设置中取得了新的SOTA。据我们所知，这是第一项将单模态预训练模型成功应用于多模态AVSR设置的工作。

总结：

现有方法：现有的AVSR模型倾向于使用额外的数据来提高性能，即在训练中插入一个额外的监督学习阶段；自监督学习在AVSR的任务上没有得到充分探索；

本文方法：通过在单模态的中预训练的模型来增强AVSR的效果，具体为：使用wav2vec2.0的预训练模型作为音频前端，对于视频前端，使用一个3D卷积层替代MoCo v2的第一层卷积层，并通过LRW进行微调。

模型优点：不需要使用课程学习策略，并且训练时间减少；在音频和视频中的新前端效果都超过以前，并在最终的AVSR模型中取得新的SOTA。

2 相关工作：

2.1 AVSR

最早的关于AVSR的工作可以追溯到大约20年前，当时Dupont和Luetin（2000）展示了手工制作的视觉特征改善了基于HMM的ASR系统。第一个现代AVSR系统是由Afouras等人提出的。(2018a)，其中使用了深度神经网络。此后，该领域一直在快速发展。大多数工作都致力于架构的改进，例如，Zhang等人（2019）提出了时间焦点块和空间-时间融合，Lee等人（2020）探索了使用Transformer的跨模态注意力机制。

另一条研究路线侧重于更多样化的学习方案，以提高AVSR性能。Li等人（2019）使用了一个跨模式的学生-教师训练方案。Paraskevopoulos等人（2020）提出了一个多任务学习方案，使模型在字符和子词层面上进行预测。Shukla等人（2020）也对自监督学习进行了探讨，通过从音频输入中预测视频帧来利用跨模态设置。

AVSR系统的端到端学习首次出现在Tao和Busso（2020）中，尽管是在比LRS2简单得多的数据集中。最近的工作（Ma等人，2021）通过使用Conformer声学模型和混合CTC/注意力解码器使LRS2的端到端学习成为可能。

2.2 自监督学习

近年来，自我监督学习一直受到追捧，因为它能够通过不需要标注的简单任务学习数据的一般表征。对比学习（Hadsell等人，2006）已经成为该领域中最具影响力的学习方案。在自然语言处理中，单向或双向的语言建模（Brown等人，2020；Devlin等人，2019）已被用于大幅提高各种任务的性能。在音频语音处理中，对比性预测编码（Baevski等人，2020）已被证明在语音识别中具有强大的作用。在视觉领域，早期的作品通过基于图像处理的方法创建了自我监督的任务，如失真（Gidaris等人，2018）、着色（Zhang等人，2016）和上下文预测（Doersch等人，2015）。最近，对比学习作为自我监督学习的一种范式出现，它产生了一组更具表现力的一般视觉表征，如MoCo（He等人，2019；Chen等人，2020b），SimCLR（Chen等人，2020a），BYOL（Grill等人，2020）等等。

3 结构：

我们模型的整体结构如图1所示。视听模型由四个部分组成：两种模式的前端和后端、融合模块和解码器。

3.1 前端

视觉前端：视觉前端作为一个组件来捕捉唇部运动并在其输出表示中反映唇部位置的差异。在视觉前端应用预训练模型的一个简单的方法是直接将每一帧的RGB通道作为输入。然而，由于同一片段中的帧在内容上基本相似，而视觉中的大多数预训练模型的目标是学习反映整个图像内容的一般表征，这种方法将导致所有帧的相似输出，从而消除了嘴唇位置在帧之间的差异信息。

为了克服上述问题，同时仍然能够利用预训练的模型，我们截断了MoCo v2（Chen et al., 2020b）中的第一个卷积层，它是在ImageNet（Deng et al., 2009）上预训练的，并用一个三维卷积层来代替它。三维卷积层的输出有意与MoCo v2的第一个ResBlock的输入相同（见表1）？，从而提供了一个兼容的接口，将MoCo v2的更高层转移到这个任务。另一方面，我们也采用了常见的做法，在将RGB输入图像送入模型之前将其转换为灰度，因为这样可以防止模型学习色差信息。

表1：视觉流的特征维度。特征的维度用{时间大小×（空间大小^2）×通道}来表示。Tf表示视觉帧的数量。

音频前端：音频前端是相当简单的。我们使用wav2vec 2.0（Schneider等人，2019）在Libri-Light （语音数据集）（Kahn等人，2020）上预训练，就像它通常用于ASR任务一样，一维卷积层和堆叠的Transformer编码器层都被转移到我们的音频前端。音频前端将16kHz的原始音频波作为输入，每20ms产生一个向量表示。音频特征尺寸如表2所示。

表2：音频流的特征尺寸。特征的维度用{时间大小×通道}来表示。Ts和Tf分别表示采样的音频输入和音频帧的数量。

3.2 后端

由于视觉帧为25FPS，而wav2vec 2.0的输出为49Hz左右，应该注意到在其前端输出的逐帧的视觉和音频表示的频率有2倍的差异。（这种几率是由于wav2vec 2.0一维卷积层的感受野较大，我们通过对音频序列进行适当的前缀和后缀并截断尾部的音频矢量来规避。因此，视觉帧和音频前端输出的完美1:2比例得到了保证。）在后端，我们在时间维度上使用1-D卷积层，结合Transformer编码器层，提供单一模式的时间建模，同时调整特征，使其具有相同的频率。

视觉后端：MoCo v2输出到视觉后端的特征尺寸为2048，频率为每秒25个向量。在视觉后端，我们保持这个频率，同时将特征大小减少到512。见表1。对于Transformer的位置编码，我们使用正弦函数形式的固定位置编码。

音频后端：在音频后端，输入的wav2vec 2.0输出的特征大小为1024，频率为每秒50个向量。我们通过将一维卷积层的步长设置为2来降低频率。Transformer编码器层的大小与视觉后端相同，同时使用一套单独的参数。表2显示了更清晰的音频前端和后端尺寸。

3.3 Fusion Module融合模块

来自音频和视觉模态的特征在这一部分被融合在一起，形成1024维的向量表示，速率相对较低，为25Hz。我们在每个模态上分别使用LayerNorm（Ba等人，2016），然后在特征维度上将它们连接起来。需要使用LayerNorm，因为它可以避免一个模态以较大的方差覆盖整个表示。类似的一维卷积层和随后的6层Transformer编码器块将融合后的表示作为输入，并为解码器编码。

3.4 Decoders解码器

按照Petridis等人（2018）的设定，有两个解码器同时基于融合模块的相同输出进行训练。

第一个是Transformer seq2seq解码器，使用了一个有6层的Transformer解码器，在训练过程中，我们使用Teacher forcing策略，通过使用真实字符作为输入。

第二个可以说是一个解码器，因为它为每个时间段产生字符概率，并在训练中依赖CTC（Connectionist Temporal Classification）损失。在最后一个转化器编码器层输出的基础上，使用了4个额外的具有ReLU激活功能的一维卷积层。我们还在每个层之间加入了LayerNorm。

3.5 损失函数

在这项工作中，我们使用所谓的混合CTC/注意力损失（Watanabe等人，2017）进行训练。让x = [x1, ..., xT ] 是融合模块中Transformer编码器的输入帧序列，y = [y1,..., yL] 是targets（即真实标签），其中T和L分别表示输入和目标长度。

CTC损失假设每个输出预测之间的条件独立性，其形式为

另一方面，自回归解码器通过基于链式规则直接估计后验概率来摆脱这种假设，其形式为

总体目标函数的计算方法如下：

其中λ控制混合CTC/注意机制中CTC损失和seq2seq损失之间的相对权重。不仅在将两个损失整合成一个训练损失时需要权重，而且在解码期间融合两个预测时也需要权重，我们将在下面的小节中再次讨论。

3.6 Training Pipeline 训练步骤

最终的 AVSR 模型是通过一系列训练阶段实现的。

对于音频模态，音频前端首先通过自监督学习进行预训练，由 wav2vec 2.0 完成。然后通过纯音频 (audio-only，AO) 设置以及专用解码器进行训练音频前端和后端。

对于视觉模态，视觉前端首先通过自监督学习进行预训练，然后通过 LRW 数据中单词级视频剪辑的序列分类进行修改和训练。之后，视觉前端由纯视觉（visual-only，VO）模型继承，其中使用视觉后端和专用解码器。

在纯音频和纯视觉模型融合后，可以训练最终的 AVSR 模型。由于计算限制，我们预先计算了音频和视觉后端输出，并且只在最后阶段学习融合模块和解码器部分的参数。我们的训练管道的详细可视化如图 2 所示。

图 2：模型的训练步骤。黄色块代表随机初始化的新参数，而蓝色块代表从最后训练阶段继承的参数

3.7 Decoding解码

解码是使用联合 CTC/注意力（one-pass decoding）单次解码 (Watanabe et al., 2017) 和集束搜索来执行的。我们应用浅层融合来结合 CTC 和 seq2seq 预测：

其中 y^ 表示目标符号的预测集，而 α 是在验证集上调整的相对权重。

4 实验：

在本节中，我们将首先介绍我们在模型的每个组件中使用的数据集和各种设置。然后我们将展示仅音频、仅视觉和视听设置的结果。我们还通过消融研究对每个组件的相对贡献进行了细分。

4.1 数据集

我们使用大规模公开的 AVSR 数据集，唇读句子 2 (LRS2) (Chung et al., 2017) 作为我们的主要测试平台。在训练期间，我们还使用野外唇读 (LRW) (Chung and Zisserman, 2016) 作为单词级视频分类任务来预训练我们的视觉前端。

LRS2 由 224 小时对齐的音频和视频组成，共有 144K 来自 BBC 视频的剪辑，剪辑处于句子级长度。训练数据包含超过 2M 的单词实例和超过 40K 的词汇表。该数据集非常具有挑战性，因为头部姿势、照明条件、流派和说话者的数量存在很大差异。

LRW 是一个单词级别的数据集，由 157 小时对齐的音频和视频组成，总共 489K 来自 BBC 视频的视频片段，每个片段包含 500 个词汇表中的单个单词的话语。视频的固定长度为 29 帧，目标词出现在剪辑的中间并被共同发音包围。所有视频都是正面的或近正面的。在我们的实验中，我们仅使用该数据集中的视觉模态来训练我们的视觉前端。

4.2 实验设置

我们使用输出大小为 40 的字符级预测，由字母表中的 26 个字符、10 个数字、撇号和用于 [space]、[blank] 和 [EOS/SOS] 的特殊标记组成。由于数据集的转录不包含其他标点符号，因此我们不将它们包含在词汇表中。

我们的实现基于 Pytorch 库 (Paszke et al., 2019)，并在四个 NVIDIA A100 GPU 上训练了 1 周，总内存为 160GB。网络使用 Adam 优化器（Kingma 和 Ba，2015）进行训练，β1 = 0.9，β2 = 0.999 和 eps= 10-8，初始学习率为 10-4。我们使用权重设置为 0.01 的标签平滑，学习率在plateau scheduler上预热和降低。 CTC 损失和 seq2seq 损失 λ 的相对权重设置为 0.2。解码时，我们将 α 设置为 0.1。预训练集中的样本通过随机采样整个话语的 1/3 单词的连续范围进行裁剪，以匹配训练集中剪辑的长度。超长样本在 160 帧处被进一步截断，以减少内存占用。

预处理：我们使用 dlib (King, 2009) 为每个视频检测和跟踪 68 个面部标志。为了消除与面部旋转和比例相关的差异，使用 Martínez 等人的相似变换将面部与神经参考框架对齐。（2020 年）。使用窗口宽度为 12 帧的插值和帧平滑处理 dlib 未能检测到的帧。然后使用 120 × 120 的边界框来裁剪嘴部 ROI。裁剪后的帧进一步转换为灰度，并根据训练集的整体均值和方差进行归一化。在 Baevski 等人之后，每个原始音频波形都被归一化均值为0方差为1。（2020 年）。

数据增强：跟随 Ma 等人。（2021），在训练纯视觉和视听模型时，在给定图像序列的所有帧上一致地执行大小为 112 × 112 的随机裁剪和概率为 0.5 的水平翻转。对于每个音频波形，在时域中执行叠加的噪声。（Afouras 等人，2018a）在训练纯音频和视听模型期间，以 5dB SNR（信噪比）和 pn = 0.25 的概率将 Babble 噪声添加到音频流中。通过混合来自 LRS2 的 20 个不同的音频样本来合成 babble 噪声。

评估：对于所有实验，报告单词错误率 (WER)，其定义为 WER = (S + D + I)/N。公式中的S、D和I分别表示从参考到假设的替换、删除和插入的数量，N是推理中的词数。在评估期间添加到音频波形的 babble 噪声是使用与训练相同的方式生成的，而我们设置了不同的种子以避免模型拟合特定生成的噪声。使用联合 CTC/注意力单通解码和集束宽度 5（这些值是在 LRS2 的保留验证集上确定的）执行解码。我们在实验中不使用外部语言模型。

4.3 结果

我们在表 3 中展示了所有实验的结果，报告了仅视觉、仅音频和视听模型的 WER。请注意，此处列出的许多模型也在训练管道的不同阶段使用额外的训练数据，例如 MVLRS (Chung and Zisserman, 2017)、LRS3 (Afouras et al., 2018b)、LibriSpeech (Panayotov et al., 2015) ) 和 LRW。

我们在表 4 中展示了我们的模型、TM-CTC 模型（Afouras 等人，2018a）和当前SOTA模型（Ma 等人，2021）的参数。我们的模型后端和融合模块配置遵循 TM-CTC 模型，seq2seq 解码器中的超参数设置与后端相同。最显著的区别是我们使用了预训练的前端，从而产生了更大的模型尺寸。

表 3：在 LRS2 上测试的单词错误率 (WER) 的纯音频、纯视觉和视听结果。带有 * 的模型表示结果使用的是外部语言模型，这表明在评估过程中优于我们的模型。用**表示的模型表示它使用了更强大的Transformer语言模型。

表 4：我们的，TM-CTC (Afouras et al., 2018a) 和 E2E Conformer (Ma et al., 2021) 模型的参数比较。

视听设置：在主视听设置中，LRS2中的预训练和训练集作为最后训练阶段的训练集。我们提出的视听模型在没有外部语言模型帮助的情况下实现了 2.6% 的 WER，比当前最先进的模型提高了 1.1%（Ma 等人，2021 年）。这是一个相当大的改进，相对改进了 30% 左右。

纯音频设置：用于训练纯音频模型的训练数据包括来自 LRS2 的 224 小时标记数据，以及通过继承 wav2vec 2.0 间接使用的来自 LibriLight (Kahn et al., 2020) 的 60K 小时未标记数据参数。我们的模型还实现了 2.7% 的 WER，这将当前最先进技术 (Ma et al., 2021) 的 WER 降低了 1.2%，表明相对提高了 31%。

仅视觉设置：仅视觉模型在其预训练和训练集中使用标记的 LRS2 数据，LRW 用于监督预训练，并通过 MoCo v2 间接使用来自 ImageNet的 128 万未标记图像。仅视觉模型的 WER 为 43.2%，落后于当前最先进的 E2E Conformer 模型 (Ma et al., 2021) 的 5.3%。与 E2E Conformer 相比，主要区别在于解码过程中使用了大型 Transformer 语言模型，与他们的消融研究中的普通 RNN 语言模型相比，其本身带来了 4.5% 的差异（Ma et al., 2021）。我们的纯视觉模型与使用 RNN 语言模型的 E2E Conformer 模型之间的差距为 0.8%，处于相当合理的范围内。此外，我们使用 6 层 Transformer 编码器来进行时间建模，而不是 12 层 conformer 编码器，这导致后端尺寸更小。

如果我们通过只查看基准而不使用外部语言模型来考虑更公平的比较，那么报告最好的基准是 Ren 等人（Distilling Cross-modal Advanced Knowledge for Lip Reading）。（2021），实现了 49.2% 的 WER，落后于我们的模型 6.0%。

4.4 消融研究

在本节中，我们通过在 LRW、纯音频和纯视觉设置中测试每个单独的构建块来研究它们的影响。

MoCo v2 在视觉词分类中的贡献：LRW 上的视觉词分类结果如表 5 所示。我们首先通过用 ResNet-50 前端替换 Stafylakis 和 Tzimiropoulos (2017) 中的 ResNet-18 前端来训练模型，匹配MoCo v2 的大小，但有新的权重。这导致 2.1% 的绝对改进。然后我们用 MoCo v2 权重初始化 ResNet-50 前端，观察到 2.3% 的进一步绝对改进，这意味着自监督学习实际上在更好地表示嘴唇运动方面发挥作用。此外，当使用 6 层 Transformer 编码器代替 TCN 作为后端时，我们可以观察到另一个 6.0% 的绝对改进。我们还注意到，使用 MoCo v2 前端可以显着减少训练时间。

表 5：LRW 视觉词分类性能的消融研究。

仅音频设置中的性能细分：LRS2 上纯音频模型的结果如表 6 所示。从 Afouras 等人开始。 (2018a)，我们首先通过在 LibriSpeech 上预训练的 wav2vec 2.0 前端替换 STFT 音频特征来训练模型，结果绝对提升了 11.1%。然后我们使用另一个在更大的未标记单模态数据集 Libri-Light 上学习的预训练模型，并观察到 0.6% 的进一步绝对改进。我们在训练阶段使用混合 CTC/注意解码器进一步训练模型，这导致了 0.9% 的另一个绝对改进。

表 6：LRS2 上纯音频模型性能的消融研究。

仅视觉设置中的性能细分：LRS2 上仅视觉模型的结果如表 7 所示。从 Afouras 等人开始。(2018a)，我们首先通过使用混合 CTC/注意解码器引入端到端训练（前端仍然通过 LRW 进行预训练），导致 16.0% 的绝对提升。然后我们用预训练的 MoCo v2 权重初始化前端，相同的端到端训练方式导致进一步的绝对提升 5.8%。

表 7：LRS2 上仅视觉模型性能的消融研究。

噪声输入下的鲁棒性：为了评估模型对音频噪声的容忍度，我们测试了模型在不同 SNR 水平的 babble 噪声下的性能。当 SNR 级别为 0dB 时，我们的纯音频和视听模型分别达到 32.5% 和 24.5% 的 WER，相当于Afouras 等人报告的结果。 (2018a) 减少了25.5% 和 9%（马等人。 (2021) 也提供了在噪声输入下的性能，但是，由于缺乏必要的细节来产生相同的噪声，我们无法与它们进行比较）。当 SNR 水平上升到 5dB 时，我们的纯音频和视听模型获得了 6.8% 和 6.3% 的 WER。

除了在 babble 噪声环境下对基线模型取得显着改进外，我们还进一步研究了在人类噪声环境下的模型性能。人类噪声极具挑战性，因为噪声本身包含一些单词，而模型无法轻易区分哪个音频信号是要识别的。我们通过从 LRS2 数据集中的不同音频样本中随机裁剪许多 1 秒信号来合成人类噪声。如图 3 所示，我们进行了不同水平的人类噪声的实验，模型使用 babble 噪声增强音频进行训练。 SNR 水平下降到 0db 以下后，WER 大大增加。这是因为模型在低信噪比水平下可能无法区分两个重叠的口语。

并且在各个信噪比水平下的整体性能都比乱码噪声差，表明具有特定信息的噪声比杂乱无章的乱码噪声更难。

低资源下的识别：使用自监督的预训练模型的一个显着好处是训练模型只需要少量的标记数据。为了进一步研究模型在低资源环境中的性能，我们使用 LRS2 的 28 小时训练集来训练纯音频和纯视觉模型。结果如表 9 所示。使用 28 小时数据训练的纯音频模型的 WER 为 3.4%，比使用 224 小时数据训练的模型稍差。结果表明，对于纯音频模型，在大规模单一模态数据集上预训练的自监督模型可以显着降低数据需求。而使用 28 小时数据训练的纯视觉模型与使用 224 小时数据训练的模型差距很大，原因可能是纯视觉模型更难训练并且需要更多的数据。

表 9：使用不同训练数据的纯音频和纯视觉模型的性能。

4.5 讨论与结论

在这项工作中，我们建议通过简单地结合在大量未标记的单一模态数据中训练的预训练模型来利用 AVSR 的自监督学习。尽管视觉预训练模型不能直接移植到视觉前端，但我们仍然设法将预训练模型集成到 AVSR 任务的两种模式中。实验结果令人印象深刻，相对提高了 30%。

有趣的是，音频模态的自监督模型比视觉模型有更大的改进。我们认为原因可以列举如下：

（1）音频模态的训练数据规模明显大于视觉模态，用于预训练的Libri-Light数据集wav2vec 2.0由6万小时的音频信号组成，相反，ImageNet数据集只有128万张图片，大致相当于14小时25FPS下的无声视频。

（2）MoCo v2模型对图像进行了预训练，以更好地表示帧级内容，而没有预训练步骤来模拟帧之间的时间相关性。相比之下，wav2vec 2.0模型对一致的音频进行了预训练，因此具有更好的时间建模能力。

由于在AVSR领域还没有出现一个主导性的跨模态自监督学习方法，在未来的工作中，我们将在这项工作的基础上探索自监督学习方案的另外两个方向。第一个是利用视觉领域内的时间相关性，另一个是音频和视觉模态之间的跨模态相关性。我们希望这项工作能够为多模态自监督学习铺平道路，特别是在AVSR的各个方面。

道德声明：

这项工作不会带来伦理问题，我们使用的数据资源都来自已发表的作品，不涉及与数据收集有关的隐私问题。数据收集自BBC，包含数千名不同的说话者，使语音识别模型能够对所有说话者进行归纳。在计算实验方面，我们使用了公开的预训练模型，这使得训练更加环保，降低了复制我们工作的计算要求

致谢：

参考文献：

读Leveraging Unimodal Self-Supervised Learning for Multimodal AVSR论文相关推荐

深度之眼Paper带读笔记1：Deep learning
文章目录前言作者介绍论文意义和主要内容基础知识论文结构 1引言 DL的应用领域 2监督学习Supervised learning 3反向传播算法BP 4卷积神经网络CNN 5基于深度卷积神经 ...
ML之SL：监督学习(Supervised Learning)的简介、应用、经典案例之详细攻略
ML之SL:监督学习(Supervised Learning)的简介.应用.经典案例之详细攻略目录监督学习(Supervised Learning)的简介 1.监督学习问题的两大类-分类问题和回归 ...
【论文导读】- Link Weight Prediction Using Supervised Learning Methods（使用监督学习方法的链路权重预测及其在Yelp网络中的应用）
文章目录论文信息摘要主要内容(contributions) 图模型和评价指标特征指标原图特征指标原始图转线图线图特征指标论文信息 Link Weight Prediction Usin ...
监督学习（supervised learning）与非监督学习（unsupervised learning）
一,监督学习(supervised learning): 监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测. 即:利用 ...
Self -Supervised Learning
Self -Supervised Learning 个人学习笔记: BART使用了MASS中的所有方法(五种),结果表现更好实验:将DNA表示中的A.T.C和G随机赋英文单词,将每个类别组成一个文本 ...
INF442 Amphi 6: Supervised learning and k-NN predictors | Genericity
INF442 Amphi 6: Supervised learning and k-NN predictors | Genericity 1. Supervised Learning 1.1 不同的损 ...
1.Supervised Learning with Projected Entangled Pair States
Supervised Learning with Projected Entangled Pair States 这份笔记是在阅读论文<Supervised Learning with Proj ...
关于弱监督学习的详细介绍——A Brief Introduction to Weakly Supervised Learning
目录介绍主动学习半监督学习多实例学习带噪学习 Snorkel 框架介绍参考介绍在机器学习领域,学习任务可大致划分为两类,一种是监督学习,另一种是非监督学习.通常,两者都需要从包含大量训 ...
弱监督学习 weakly supervised learning 笔记
周志华 A Brief Introduction to Weakly Supervised Learning 2018 引言在机器学习领域,学习任务可以划分为监督学习.非监督学习.通常,两者都需要从 ...
【论文阅读】Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations
一篇经典的弱监督分割论文,发表在CVPR2019上面论文标题: Weakly Supervised Learning of Instance Segmentation with Inter-pixe ...

读Leveraging Unimodal Self-Supervised Learning for Multimodal AVSR论文