摘要

鸟儿的鸣叫声，奔跑的汽车伴随着的噪音等等，这些自然的音视关联（一致）提供了探索和了解外部世界的可能性。然而，混合的多个对象和声音使得在不受约束的环境中执行有效匹配变得困难。为了解决这一问题，我们提出充分挖掘音视成分，并在它们之间进行精心的一致学习。具体地说，提出了一种新的无监督音视学习模型，称为深度多模态聚类(DMC)，该模型利用不同共享空间中卷积映射的多模态向量同步进行聚类，以获取多个音视组合关系。并且这种集成的多模态聚类网络能够以端到端的方式在具有max-margin损失的情况下被有效地训练。在特征评价和音视任务中进行了大量的实验。结果表明，DMC能够学习有效的单模态表示，分类器的性能甚至优于人类。此外，DMC在声音定位、多源检测和音视理解方面表现出显著的性能。

1.引言

当我们看到狗的时候，为什么我们脑海中出现的声音大多是吠叫，而不是喵叫或其他声音？回答“我们在日常生活中只能找到吠叫的狗”似乎很容易。由于特定的视觉外观和声音信号通常是同时出现的，我们可以意识到它们之间有很强的相关性，从而使我们能够识别出发出声音的狗的视觉和其独特的吠叫声。因此，同步的音视信息提供了更好地探索和理解外部世界的可能性[18]。
认知界在上个世纪就注意到了这种现象，并将其命名为多知觉处理[18]。他们发现，颞上沟(颞叶皮质的一个大脑区域)中的一些神经细胞可以同时对视觉、听觉和触觉信号做出反应[17]。当大脑感知到并发的音视信息时，这些神经细胞可以提供相应的机制来关联这些不同的信息，这进一步反映在各种任务中，如读唇语[7]和感知替代[28]。

鉴于人类音视学习的优点，使机器具有类似的能力，即通过并发的音视信息来探索和感知世界，被寄予了很高的期望。更重要的是，与昂贵的人工注释相比，音视一致还可以提供有价值的监督，而且它是无处不在的、可靠的和免费的[25]。因此，近年来，音视一致学习受到越来越多的关注。最初，音视信号的一致性被认为是提供跨模态监督信息的，其中一种模态的知识被传递给另一种原始模态。然而，学习能力明显受到传递知识的限制，很难将一致性扩展到未探索的情况。取而代之的是，一个自然的问题出现了：模型可以在没有任何先验知识的情况下，仅仅通过它们的一致性来学习音视感知吗？最近的研究给出了明确的答案[3，24]。他们提出通过简单地在顶层添加对应判断来训练音视双流网络。换句话说，模型学习将声音与包含正确声源的图像进行匹配。令人惊讶的是，视觉和听觉子网在训练模型后已经学会了对特定物体和声音的响应，然后可以用于单模态分类和声音定位等。

先前工作[25，3，6]背后的音视一致假设依赖于特定的音视场景，其中声音制造者应该存在于捕获的视觉场景中，并且期望单一声源的条件。然而，这种严谨的场景并不完全适合现实生活中的视频。首先，不受约束的视觉场景包含多个物体，这些物体可以是发声者也可以不是发声者，对应的声音场景是一种多源混合的声音场景。在没有深入了解复杂场景成分的情况下简单地执行全局一致验证可能会导致低效和不准确的匹配，因此需要大量音视组合来实现可接受的性能[3]，但是仍然可能产生语义不相关的匹配[31]。其次，发音者并不总是发出特定声音，如汽车喇叭、狗叫，因此当前的视频片段不包含任何声音，但下一个包含声音，这就为音视一致假设创造了不一致的条件。此外，发声者甚至可能不在屏幕上，所以我们在视频中看不到它，例如摄影师的画外音。上述错综复杂的音视条件使得分析和理解现实环境变得极其困难，特别是要正确匹配不同的发声者及其产生的声音。因此，人们期待一种精心设计的音视一致学习。

由于每个模态在不受约束的场景中涉及多个具体成分，因此很难关联真实的音视组合。为了解决这一问题，我们提出将每个模态分离成一组不同的组成部分，而不是传统的无差别的方式。然后，我们的目标是学习这些不同模态的分散表示之间的一致关系。更具体地说，我们认为卷积映射上的激活向量对不同的输入成分有不同的响应，这正好满足聚类假设。因此，我们将KMeans引入双流音视网络中，以区分视频捕获的具体对象或声音。为了使声音与其对应的产生者对齐，通过最小化联合三元(associated triplet)损失来有效地学习用于音视组合的共享空间集合。通过将聚类模块嵌入到多模态网络中，该模型被命名为深度多模态聚类(DMC)。在自然状态下音视组合上进行的大量实验表明，该模型在单模态特征生成、图像/声学分类以及单声音定位和多源声音事件检测(SED)等音视任务中具有一定的优越性。在现实场景中ultimate音视理解似乎具有初步的感知能力。

2.相关工作

源	监督	任务	参考文献
声音	视觉	声学分类	[5, 14, 13, 6]
视觉	声音	图像分类	[25, 6]
声音&视觉	匹配	分类	[3]
		声音定位	[4, 31, 24, 36]
		声源分离	[8, 24, 12, 36]

音视一致是一种自然现象，它实际上来源于“声音是由物体的振荡产生的”这一事实。简单的现象提供了发现音视外观和建立其复杂关联的可能性。这就是为什么我们可以在众多候选音频中将犬吠声与狗的外表进行匹配(声音分离)，并根据复杂视觉场景中的吠叫声找到狗的外观(声源定位)。与往常一样，机器模型也被期望具有与人类类似的能力。

在过去的几年里，已经出现了一些专注于音视机器学习的工作。学习设置和相关任务可以根据来源和监督模态分为三个阶段，如表1所示。早期的工作认为同一实体的音视信息应该具有相似的类别信息。因此，希望利用一个模态的训练好的模型来监督另一种模态，而不需要额外的注释。这种“师生”学习方式已成功地用于通过声音为图像分类和通过视觉识别声音[5]。

虽然上述模型显示出允诺的跨模态学习能力，但它们实际上比人类依赖更强的监督信号。也就是说，我们与生俱来的大脑并没有接受过良好的训练就能够识别各种物体或声音。因此，最近(几乎同时进行的)工作提出仅通过给定音视一致来训练一个双流网络，如表1所示。Arandjelović和Zisserman[3]训练他们的音视模型来判断图像和音频片段是否对应。虽然这种模型是在没有任何教师监督的情况下训练的，但它已经学会了高效的单模态表征和跨模态关联[3]。因此，执行相关的音视任务变得可行，例如声音定位和源分离。对于第一个任务，Arandjelović和Zisserman[4]修改了他们以前的模型[3]，以找到与当前音频片段具有最大相似性的视觉区域。Owens et al.[24]提出采用与[3]相似的模型，但是使用3D卷积网络来代替视觉通路，该网络可以捕捉运动信息以用于声音定位。然而，这些工作依赖于简单的全局对应。当在所显示的视觉形态中存在多个发声者时，很难准确地定位正确发声者。最近，Senocaket等人[31]将注意机制引入音视模型，在该模型中，视觉特征映射相关的区域学习关注特定的输入声音。然而，仍然存在另一个问题，即现实生活中的声学环境通常是多个声音的混合。为了定位特定声音的来源，还需要有效的声音分离。
在声音分离任务中，大多数工作都提出利用视觉嵌入的方法从人工混合的音轨中重建特定的音频流。例如，Zhaoet等人[36]关注音乐声音分离，而Casanovaset等人[8]、Owenset等人[24]和Arilet等人[10]对混合语音信息执行分离。然而，现实生活中的声音比具体的模拟例子更复杂、更常规，甚至缺乏分离声源的事实依据。因此，我们提出的方法将声音和视觉成分联合分离，并在它们之间建立精细的对应关系，这自然涵盖了声音分离和定位任务。

3.所提出的模型

3.1.视觉和音频子网

视觉子网。 视觉通路直接采用现成的VGG16架构，但没有全连接和Softmax层[32]。当网络的输入图像被调整到256×256时，生成的512特征映射的大小为8×8。为了实现跨模态的有效对齐，像素值被缩放到[-1, 1]的范围内，具有与音频信号的对数-梅尔谱图相当的尺度。由于音频信号的相关联视觉成分已被编码到特征映射中，所有映射上的对应条目可被视为它们的特征表征，如图1所示。换言之，原始的8×8×512的特征映射被重塑为64×512，其中每一行表示特定视觉区域的表征。因此，最终的视觉表征为{u1v,u2v,...,upv∣uiv∈Rn}\{u^v_1,u^v_2,...,u^v_p|u^v_i\in R^n\}{u1v,u2v,...,upv∣uiv∈Rn}，其中p = 64，n = 512

图1。激活分布的图示。很明显，不同的视觉成分在特征图上具有不同的激活向量。这种属性有助于区分不同视觉成分。

音频子网。 音频通路使用VGGish模型从单声道声音的mel对数声谱图中提取表征[16]。实际上，与[16]中的默认配置不同，输入音频剪辑扩展到496帧，每帧10ms，但保留有关短时傅立叶变换和mel映射的其他参数。因此，网络的输入为496×64的mel对数声谱图，对应的输出特征图为31×4×512。为了准备第二阶段聚类的音频表征，我们还执行了与视觉表征相同的操作。也就是说，音频特征映射被变形为{u1a,u2a,...,uqa∣uia∈Rn}\{u^a_1,u^a_2,...,u^a_q|u^a_i\in R^n\}{u1a,u2a,...,uqa∣uia∈Rn}，其中q = 124，n = 512。

3.2.多模态聚类模块

由于卷积网络在描述不同模态[32，16，35]的高层语义方面表现出很强的能力，我们认为特征映射中的元素对于相同的单模态成分具有相似的激活概率，如图1所示。通过聚合相似的特征向量来挖掘音视实体成为可能。因此，我们建议将单模态特征向量聚类成目标级表示，并在配套的音视环境中对齐它们，如图2所示。为简单起见，我们将{u1v,u2v,...,upv∣uiv∈Rn}\{u^v_1,u^v_2,...,u^v_p|u^v_i\in R^n\}{u1v,u2v,...,upv∣uiv∈Rn}作为特征表征，不考虑模态的类型。

图2。所提深度多模态聚类模型的图。这两种特定模态的卷积网络首先将成对的视觉图像和音频声谱图处理成各自的特征图，然后将这些特征图共同聚类到相应的成分中，这些成分表示具体的音视内容，如婴儿及其声音，击鼓及其声音。最后，该模型以模态间的相似性作为训练的监督。

为了将单模态特征聚类成k个簇，我们提出使用Kmeans来获得中心{c1,c2,...,ck∣cj∈Rm}\{c_1,c_2,...,c_k|c_j\in R^m\}{c1,c2,...,ck∣cj∈Rm}，其中m是中心维度。Kmeans的目标是最小化簇内距离并将特征点分配到k簇[19]中，因此，目标函数可以表示为，

其中min⁡j=1kd(ui,cj)\min^k_{j=1}d(u_i,c_j)minj=1kd(ui,cj)是当前点和它最近中心的距离。然而，简单地将方程1引入到深层网络中会使网络通过梯度下降进行优化变得困难，因为方程1中的最小化函数是针对簇的数据点的硬分配，并且是不可微的。要解决这个棘手的问题，一种方法是对每个点进行软分配。特别地，高斯混合模型(GMM)的期望最大化(EM)算法基于后验概率进行软分配，并收敛于局部最优[?]。

本文提出了另一种观点，将公式(1)中的硬分配问题转化为软分配问题，使之成为可微问题。公式(1)中的最小化运算通过利用下面的公式来近似，

其中z是关于量级的参数，dij=d(ui,cj)d_{ij}=d(u_i,c_j)dij=d(ui,cj)是为了简单起见。公式2表明，给定序列的最大值可以用相应指数函数的对数和来近似。直观地说，原始序列中的差异通过指数投影被急剧放大，这往往会忽略较小而保持最大的差异。然后，反对数投影给出近似的最大值。公式2的严格证明可以在材料中找到。

因为我们的目标是找到距离序列的最小值，公式2修改为

聚类的目标函数为

由于公式4处处可微，我们可以直接计算关于每个聚类中心的导数。具体地说，对于中心cjc_jcj，导数为

其中sij=e−dijz∑l=1ke−dilz=softmax(−dijz)s_{ij}=\frac{e^{-d_{ij}z}}{\sum^k_{l=1}e^{-d_{il}z}}=softmax(-d_{ij}z)sij=∑l=1ke−dilze−dijz=softmax(−dijz)。softmax系数的作用类似于为不同中心的整个视觉区域或音频声谱图软分割，我们将在以下部分给出更多的解释。
在实际应用中，每对特征点uiu_iui与中心cjc_jcj之间的距离dijd_{ij}dij可以通过不同的方法来实现，如欧氏距离、余弦距离等。在本文中，受胶囊网络[30, 33]启发，我们选择内积来测量一致性，例如dij=−⟨ui,cj∥cj∥⟩d_{ij}=-\lang u_i,\frac{c_j}{\|c_j\|}\rangdij=−⟨ui,∥cj∥cj⟩。将其带入式5，并将导数设为零，可得

这意味着中心和整合特征在同一个方向上。系数s⋅js_{·j}s⋅j为距离的softmax值，对应的中心cjc_jcj作为特征出现在可比范围内，为简便起见，将公式6近似计算为cj=∑i=1psijuic_j=\displaystyle\sum^p_{i=1}s_{ij}u_icj=i=1∑psijui。然而，还有一个问题是sij的计算依赖于当前的中心cj，这使得获取中心的直接更新规则变得困难。相反，我们选择交替更新系数sij(r)s^{(r)}_{ij}sij(r)和中心sj(r+1)s^{(r+1)}_{j}sj(r+1)，例如

实际上，更新规则与GMM中最大后验概率的EM算法非常相似[?]。具体来说，第一步是期望步骤或E步骤，它使用当前参数来评估后验概率，即将数据点重新分配到中心。第二步是最大化步骤或M步骤，目的是重新估计均值、协方差和混合系数，即更新Eq.(7)中的中心。

上述簇表示对输入图像或声谱图的一种软分配（分割），其中每个簇大多对应一定的内容（例如在图2中，图像中的婴儿脸和鼓，声音中的语音和鼓点），因此可以看作是每个模态的分散表征。我们认为，当音频和视觉信息共同描述同一自然场景时，它们应该具有类似的分散表征。因此，我们提出对音频和视觉信息进行不同中心特定的投影{W1,W2,...,Wk}\{W_1, W_2, ..., W_k\}{W1,W2,...,Wk}，以区分不同音视实体的表征，然后将这些投影特征聚类到多模态中心中，以寻找具体的音视内容。形式上，距离dijd_{ij}dij和中心更新变成了dij=−⟨Wjui,cj∥cj∥⟩d_{ij}=-\lang W_{j}u_i,\frac{c_j}{\|c_j\|}\rangdij=−⟨Wjui,∥cj∥cj⟩和cj(r+1)=∑i=1psij(r)Wjuic^{(r+1)}_j=\displaystyle\sum^p_{i=1}s^{(r)}_{ij}W_ju_icj(r+1)=i=1∑psij(r)Wjui，其中投影矩阵WjW_jWj是跨模态共享的，并被认为是与具体音视实体的关联。此外，在计算距离dijd_{ij}dij时，WjW_jWj也作为强度参数zzz。我们在算法1中展示了完整的多模态聚类。

我们使用余弦近似度来测量音视中心之间的差异，即s(cia,civ)s(c^a_i,c^v_i)s(cia,civ)，其中ciac^a_icia和civc^v_iciv分别是音视模态的中心。为了有效地训练双流音视网络，我们采用最大边缘(max-margin)损失来鼓励网络对真实的图像-声音组合给予比不匹配组合更大的置信度。

其中，∆∆∆是边缘超参数，s(cia,civ)s(c^a_i,c^v_i)s(cia,civ)为正样本音视组合，s(cja,civ)s(c^a_j,c^v_i)s(cja,civ)为负样本音视组合，cjac^a_jcja表示负音频样本。在实际操作中，负例是从训练集中随机抽取，但与正例不同。使用学习率为10−4的Adam优化器。选择批大小为64进行优化。我们对音视频网络进行了25,000次迭代训练，这在一个K80 GPU卡上花了3周时间。

4.特征评估

理想情况下，在训练DMC模型后，单模态网络应该已经学会对不同的物体或声音场景作出反应。因此，我们提议评估学习到的CNN内部层的音频和视觉表征。为了提高效率，DMC模型使用从SoundNet-Flickr数据集[5]随机采样的400K未标记视频进行训练。输入的音频和视觉信息与[5]相同，从每个视频中提取一对没有重叠的5s声音片段和对应的图像。需要注意的是，所构成的约1.6M的音视组合大约比L3[3]音视组合少17倍，比SoundNet[5] 音视组合少5倍。

4.1.音频特征

在复杂的环境声音分类任务中，对音频表征进行了评估。采用的ESC-50数据集[27]是2000个音频片段的集合，每个片段5秒。它们被平均分成50个类别。因此，每个类别包含40个样本。为了公平起见，每个样本还被分成1个音频摘要(excerpt)用于数据论证[5]，这些重叠的子片段构成了VGGish网络的音频输入。平均精度是通过five leave-one-fold-out的评估计算出来的。注意，这个数据集上的人类性能是0.813。

表2。基于ESC-50[27]的声场景分类和基于Pascal VOC 2007[11]的图像分类。(a)为公平起见，我们提供了使用与我们的相同的音视集训练的L3的弱化版本，而†††L3使用[3]中的更多数据训练。†††AVTS使用整个SoundNet-Flickr数据集[5]训练。‡‡‡DMC以训练良好的视觉网络作为监督来训练音频子网。(b)所显示的结果是[25]中除具有FC特征的结果外的最佳结果。

音频表征是通过对特征图进行池化来提取的（与SoundNet[5]类似，我们评估不同VGGish层的性能，并选择conv4_1作为提取层。）。利用提取的音频表征向量训练出多类one-vs-all线性支持向量机。每个片段的最终准确率是其子片段得分的平均值。为了公平起见，我们还将DMC模型修改为“教师-学生”(‡DMC)方案，在该方案中，使用ImageNet预训练VGG网络，并在训练期间保持固定。在表2 (a)中，很明显，DMC模型超越了之前的所有方法，除了音视时间同步(AVTS)[?]。这种性能是在较少的训练数据(仅400K个视频)下实现的，这证实了我们的模型可以利用无约束视频中更多的音视一致来有效地训练单模态网络。我们还注意到AVTS是用[5]的整个2M+视频训练的，是DMC的5倍。即便如此，在DCASE2014基准数据集上，DMC的表现仍然优于AVTS(更多细节可以在材料中找到)。而跨模态监督版本的‡DMC进一步提高了准确率，其中最值得注意的一点是，‡DMC优于人类[27](82.6%vs 81.3%)。由此证明，精细对齐有效地发挥作用，音视一致确实有助于单模态感知的学习。

4.2.视觉特征

在目标识别任务中对视觉表征进行评价。选取的PASCAL VOC 2007数据集包含20个对象类别，这些对象类别是在真实场景中收集的[11]。我们对VGG16网络的conv5_1特征进行全局池化，得到视觉特征。仍采用多类one-vs-all线性支持向量机作为分类器，并使用均值平均精度(mAP)对结果进行评价。由于DMC模型不像之前的工作那样包含标准FC层，所以选择了其他方法中最好的conv/pooling特征进行比较，这些特征在[25]中已经报道过。为了验证多模态聚类在DMC中的有效性，我们选择与[25]中的视觉模型进行比较，它将分离的声音簇作为视觉监督的目标指标。相比之下，DMC模型联合学习音视表征，而不是上述从声音到视觉的单一流程，因此学习音视一致更加灵活。如表2 (b)所示，我们的模型确实比简单的聚类监督有明显提升，甚至它的多标签变体(二值的)[25]。此外，我们还与ImageNet预训练的VGG16网络进行了比较。但令我们惊讶的是，DMC模型在声学分类方面与人类的表现相当，但与图像分类基准存在较大差距。这种差异可能来自于视觉场景相对于听觉场景的复杂性。尽管如此，我们的模型仍然为通过音视一致学习有效的视觉表征提供了有意义的见解。

5.音视评估

5.1.单一声音定位

在这个任务中，我们的目标是在视觉场景中定位声源[4,24]，考虑简单的单声源情景。因为音频轨道中只有一个声音，所以生成的音频特征应该共享相同的中心。在实践中，我们将音频中心平均池化到cac^aca中，然后通过余弦相似度将其与所有视觉中心进行比较，在这个简单的例子中，视觉中心的数量被设置为2(即发声者和其他成分)。以得分最高的视觉中心作为相应声源的指示。为了进一步可视化声源，我们采用了所选视觉中心cjvc^v_jcjv的软分配s⋅jvs^v_{·j}s⋅jv，即。当指派sijv∈[0,1]s^v_{ij}\in[0,1]sijv∈[0,1]时，系数向量s⋅jvs^v_{·j}s⋅jv被重塑回原始特征图的大小，并视为表示聚类属性的热力图。

图3。声源定位的例子。在将音频和视觉消息输入DMC模型后，我们将属于与音频消息最相关的视觉簇软分配可视化了出来。注意，视觉场景从上到下变得更加复杂，标签只是用于可视化目的。

在图3中，我们展示了来自SoundNet-Flickr数据集的不同视频的声源位置的示例。显然，DMC模型已经学会了区分不同的视觉外观，并将声音与相应的视觉源关联起来，尽管训练阶段完全是在无监督的方式下进行的。具体来说，在简单的场景中，婴儿声音和汽车噪声的视觉源很容易定位。当视觉场景变得更加复杂时，DMC模型也可以成功地定位相应的源。狗的外表与吠叫声高度相关，而猫则没有。与观众和背景形成对比的是，只有舞台上的合唱团能对歌声做出回应。在复杂的交通环境中，无论驾驶员或其他视觉内容如何，都能成功地实现移动车辆的定位。

表3。声源定位的评估。图中显示了阈值为0.5和0.7的cIoU。此外，还提供了将阈值从1变到0的cIoU曲线下的面积(AUC)。[31]中的无监督†方法采用了一种改进的注意机制。

除了定性分析外，我们还提供了定量评价。我们直接采用带注释的声源数据集[31]，它最初是从SoundNet-Flickr数据集收集的。这个子数据集包含2,786个音频图像组合，其中每组的发声者分别由三个受试者定位。随机抽取250组来构建测试集(单个声音)。通过在分配s⋅jvs^v_{·j}s⋅jv上设置一个任意的阈值，我们可以获得一个可能指示声音位置的视觉目标的二值分割。因此，为了将自动分割与人工标注进行比较，我们采用cIoU和[31]中相应的AUC面积作为评价指标。如表3所示，将所提出的DMC模型与最近的带有注意机制[31]的声音定位模型进行了比较。首先，DMC明显优于无监督注意力模型。特别是当cIoU阈值变大(即0.7)时，DMC的表现甚至优于监督的方法。其次，除了与声道最相关的视觉中心外，也评估了不相关的视觉中心。不相关中心的大幅下降表明DMC的聚类机制能够有效区分不同的模态成分，并准确地将它们关联在不同模态之间。

5.2.真实生活中的声音事件检测

在本节中，相对于特定的声音分离任务（声分离任务主要集中于特定的任务场景，需要原始源的有效监督[8,24,36]，这超出了我们的情况。），我们将重点放在一个更一般且更复杂的声音任务，即多源SED之上。在现实环境中，多声道通常同时存在，即街道环境可能是人的讲话声、汽车的噪音、行走的声音、刹车的吱吱声等的混合。期望它将检测到每时每分都存在的声音，这比以往单一的声音识别[15]更具挑战性。因此，评估DMC学习多音轨声音有效表征的能力就显得更加有价值。在DCASE2017声学挑战中，第三个任务(http://www.cs.tut.fi/sgn/arg/dcase2017/challenge/task-sound-event-detection-in-real-life-audio)就是多源SED。本任务中使用的音频数据聚焦于复杂的街道声场景，其中包括不同的交通水平和活动。整个数据集被划分用于开发和评估，每个音频长度为3-5分钟。基于分段的F评分和错误率作为评价指标。

表4。基于DCASE 2017挑战赛评估数据集的真实生活声音事件检测。我们选择25ms窗口大小和10窗口步长的默认STFT参数[16]。§MLP、L3L^3L3和VGGish也采用此参数，其他方法采用[15]中的默认参数。

由于我们的模型为训练音频子网提供了精细的视觉监督，相应的音频表征应该为多轨声音提供充分的描述。为了验证这个假设，我们直接将输入声谱图替换为我们在MLP[15]的基线模型中生成的音频表征。如表4所示，将DMC模型与挑战中排名前五的方法、音视网络L3L^3L3[3]和VGGish网络[16]进行比较。很明显，我们的模型在F1指标上排名第一，在错误率上可以与最好的模型相媲美。具体来说，有三点我们应该注意。首先，利用DMC模型的音频表征代替原始声谱可以得到明显改进。这种改进表明，不同模态的音视一致学习确实提供了区分不同音频内容的有效监督。其次，由于L3网络只是对音频和视觉场景进行全局匹配，而没有探索其中的具体内容，因此无法为多源SED提供有效的音频表征。第三，尽管VGGish网络是在比我们的训练数据大得多的YouTube-8M(带有标签)的初步版本上训练的，但我们的模型仍然优于它。这得益于DMC模型更高效的音视一致学习。

5.3.音视理解

如第1节所介绍的，现实生活中的音视环境是不受约束的，每个模态由多个实例或成分组成，如音频模态中的说话、刹车的吱吱声、行走的声音，街道环境的视觉模态中的建筑、人、车、路等。因此，很难在每个模态中分解它们，并在模态之间建立确切的关联，即音视理解。在本节中，我们尝试使用DMC模型来执行音视理解，在这种情况下，由于没有注释，只能提供定性评估。为了更好地说明结果，我们通过0.7的阈值将聚类的软指派转换为二值映射。图4为不同现实生活视频匹配的音视聚类结果，其中声音以声谱图表示。在“婴儿击鼓”视频中，捕捉并关联了鼓声和相应的动作，同时从复杂的音视内容中提取出婴儿脸和人的声音。这两个不同的中心共同描述了音视结构。在更为复杂的室内外环境中，DMC模型还可以通过对音频特征向量的聚类，从背景音乐和聒噪的环境噪声中捕捉到人们的喊叫声和谈话声，并通过共享投影矩阵将其与相应的发声者(即视觉中心)关联起来。然而，仍然存在一些失效案例。具体地说，在当前的视觉聚类中，视野外的发声者是难以关联的。相比之下，DMC模型不恰当地将第二段视频中的背景音乐与厨房用具关联起来。同样，在第三个视频中，说话的声音来自可见的女性和视野外的摄影师，但我们的模型只是简单地提取了所有的人类声音，并将它们分配到女性的视觉中心。这些失败案例也提醒我们，现实生活中的音视理解远比我们想象的要困难得多。此外，为了更自然地感知音频中心，我们从隐藏的声谱图信息中重建音频信号，并将其展示在发布的视频demo中。

图4。复杂音视理解的定性例子。我们首先将音视消息输入DMC模型，然后捕获并显示相应的音视簇，其中指派(assignments)通过阈值0.7被二进制化到每个模态的掩膜中。图中的标签表示学到的音视内容，它们在训练过程中没有使用。

3.讨论

在本文中，我们的目标是利用所提出的深度多模态聚类方法来探索无约束环境下音频和视觉信息之间的精细对应关系。与以往的粗略对应相比，我们的模型可以有效地学习更有效的音视特征，甚至超过人类的学习能力。此外，这种精细的学习有助于显著改善复杂的音视任务，如声音定位、多源SED和音视理解。
尽管所提出的DMC在这些任务中相比其他方法有很大的优势，但仍存在一个问题，即簇的数量k是预先确定的，而不是自动确定的。当只有一个声音时，对于前景和背景很容易设置为k=2。但当多个发声者出现时，很难预先确定k的值。虽然在音视理解任务中设置k=10后，我们可以得到不同的簇，但仍期望有更可靠的确定音视成分数量的方法[29]，这将是未来工作的重点。

翻译：Deep Multimodal Clustering for Unsupervised Audiovisual Learning相关推荐

[2021-CVPR] Jigsaw Clustering for Unsupervised Visual Representation Learning 论文简析及关键代码简析
[2021-CVPR] Jigsaw Clustering for Unsupervised Visual Representation Learning 论文简析及关键代码简析论文:https:/ ...
[论文翻译] Deep Learning
[论文翻译] Deep Learning 论文题目:Deep Learning 论文来源:Deep learning Nature 2015 翻译人:BDML@CQUT实验室 Deep learnin ...
[论文翻译]Deep Learning 翻译及阅读笔记
论文题目:Deep Learning 论文来源:Deep Learning_2015_Nature 翻译人:BDML@CQUT实验室 Deep Learning Yann LeCun∗ Yoshua ...
[论文翻译]Deep learning
[论文翻译]Deep learning 论文题目:Deep Learning 论文来源:Deep Learning_2015_Nature 翻译人:BDML@CQUT实验室 Deep learning ...
无监督特征学习——Unsupervised feature learning and deep learning
无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优 ...
Deep Multimodal Subspace Clustering Networks
Deep Multimodal Subspace Clustering Networks 作者:Mahdi Abavisani , Student Member, IEEE, and Vishal M ...
Deep Multimodal Learning A survey on recent advances and trends读书笔记
Deep Multimodal Learning A survey on recent advances and trends 读书笔记-YH Introduction 在介绍这一节中提出了本文的目的 ...
Deep Subspace Clustering with Sparsity Prior 翻译
Deep Subspace Clustering with Sparsity Prior 翻译摘要: 子空间聚类旨在通过隐式地寻找子空间以匹配每个类别,来将未标记的样本聚类成多个簇.大多数现有方法基 ...
【论文阅读】Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift
Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift SUMMARY@ 2020 ...

翻译：Deep Multimodal Clustering for Unsupervised Audiovisual Learning

摘要