【论文阅读一】Adaptive Cross-Modal Few-shot Learning

1、introduction

这篇文章提出了一种将语义与视觉知识相结合的自适应的cross-modal。视觉和语义特征空间根据定义具有不同的结构。对于某些概念，视觉特征可能比文本特征更丰富，更具辨别力。但当视觉信息在图像分类中受到限制时，语义表示（从无监督的文本语料库中学习）可以提供强大的先验知识和上下文以帮助学习。此文就是基于此开展研究的，提出了Adaptive Modality Mixture Mechanism（AM3），an approach that adaptively and selectively combines information from two modalities, visual and semantic, for few-shot learning。AM3在基于度量的元学习方法上形成的，通过比较在已学习的度量空间中的距离来实现分类。文章在原型网络Prototypical Networks for Few-shot Learning的思想基础上，加入了文本信息（即语义表达）。

2、algorithm

在AM3中，文章增加了基于度量的FSL方法，以结合由词嵌入模型W学习的语言结构（pre-trained on unsupervised large text corpora)，在所有类别中包含了label embeddings。由于考虑到了label embeddings，AM3对每个类修改了原型表达（prototype representation）。有上图（左）就可以看出AM3将视觉和语义特征表达的凸组合形成最终的类原型（category prototype），参数化表示为：

其中：

对于每一个episode（片段）e，类c的嵌入原型 $p_c$ （即support set的均值，这里与原型网络设计一致）。

few-shot learning分类的训练是通过在给定的support set来最小化在query set中样本的预测损失。

训练时和原始的原型网络相似，但是这里距离度量改变了，AM3加入了语义信息，此时d为query point与cross-modal 原型 $p'_c$ 的距离。上图（右）现实了AM3的work过程；假设query 样本q是属于类别i的，但是在视觉信息上与q最相近的是 $p_j$ （a），（b）显示了每个类的语义原型；在加入了语义嵌入时，AM3修改了原型的位置（c）；通过更新，离q最近的原型为类i。

算法流程为：

3、experiments

文章分别在miniImageNet、tieredImageNet（few-shot learning）和CUB-200（zero-shot learning）上进行实验，结果表明AM3性能表现最好，模型简单且易扩展。实验中发现在ZSL领域中的方法扩展到基于度量的方法（FSL)性能都提升了。其余详细的内容见原文。

总结：

看完整片文章，AM3的亮点就是在原型网络的基础上将语义信息与视觉信息相结合，形成一种自适应的模型，即当样本较少时，此时 $\lambda _c$ 较小，文本信息占主要地位，当 $\lambda _c$ 较大时，视觉信息占主要地位。