理解《Charting the Right Manifold: Manifold Mixup for Few-shot Learning》

摘要：小样本学习算法目标是学习模型参数，使其能够适应于少量有标签的未见类样本分类。最近，正则化方法——流形混合算法（Manifold Mixup），集中于学习广泛的表示，以适应数据分布的小变化；另一方面，自监督学习是仅利用数据内在结构学习语义特征。针对小样本任务，本文利用自监督和正则化技术，研究学习相关特征流形。

注释：流形混合算法（Manifold Mixup）作用是使网络对输入数据进行变换/嵌入后，更加平滑和均匀，从而使得系统的泛化，性能得到改善。

1. 主要贡献：

1）发现Manifold Mixup的正则化技术，对数据分布的小变化具有鲁棒性，增强小样本任务的性能；

2）在训练处理过程增加自监督损失，能够对语义特征稳定学习，推动小样本分类的重大进步。在自监督任务中使用旋转（rotation[18]）和标本（exemplar[11]）。（了解自监督可参考解读自监督学习(Self-Supervised Learning)几篇相关paper - 知乎）

3）运用Manifold Mixup的正则化技术在特征流形上，利用自监督任务，可以进一步改善小样本任务性能。

2. 方法

2.1基本情况

考虑典型的小样本学习问题。 $D_{b}$ ：大量有标签样本集，共 $M_{b}$ 类； $D_{n}$ ：少量有标签样本（支撑集S）和无标签样本（查询集Q），类别共 $M_{n}$ 新类。

学习的第一步是训练 $N_{b}$ 类的神经网络分类器：

$f_{\theta }$ 是卷积特征, $CW_{b}$ 是余弦分类器， $\theta$ 是模型的超参数。

学习的第二部是：fine-tuning模型，冻结特征层，训练 $N_{n}$ 类余弦分类器。该模型（S2M2）如图1所属。

该方法关键是借助自监督和规则技术学习通常目的的表示来解决小样本任务。自监督方法是采用文献[18]的旋转和文献[11]的exemplar来得到适合的特征流形，之后使用Manifold Mixup的正则化[62]来提供稳定的特征提取架构。

2.2 Manifold Mixup for Few-shot Learning

在神经网络分类器高层表示经常看作是有意义的流形，提供数据相关几何特征，可以解决某个具体任务。因此，空间上特征向量的线性插值与分类相关。依据这一出发点，Manifold Mixup借助神经网络线性插值可有助于训练模型泛化性。

假设Manifold Mixup在基类上，训练损失表示如下：

式中，：分别是输入 $x$ 和 $x^{'}$ 的第l层特征，损失L：标准交叉熵，混合系数 $\lambda$ 是从β分布中取样。

训练损失函数Lmm是为了激励模型预测，更少地信任隐含层表示的线性插值。

2.3 Charting the Right Manifold

2.3.1 Self-Supervision: Towards the Right Manifol
（1）旋转

在该自监督任务里，输入图像旋转不同角度，模型的附属目的是预测旋转量。在图像分类中，附属损失被加到标准类损失来学习更一般的表示。

在本文中，使用了4类线性分类器 $c_{Wr}$ 来，预测属于4类中哪一个。线性分类器位于特征表示倒数第二层，其中特征表示为图像x旋转了4个角度。

（2）Exemplar

Exemplar训练目的是使特征表示对于广泛的图像变形（平移、尺度、旋转、对比度和色彩变换）具有不变性。在某个小批次M，每个图像通过随机增量产生4个副本，这4个副本是图像的正例，该批次的其他图像是负例。之后，在特征上使用硬批次三元组损失和软边界，使得正例特征表示更接近。

损失表示如下：

式中，D是特征表示空间f的欧式距离，是x中类别i的第k个示例，exp项是图像与正示例间最大距离，我们希望其减小。min距离是指图像与负示例间的距离，我们希望其最大化。

2.3.2 S2M2

小样本学习场景依赖于学习稳定性和特征泛化能力来区分基类（base classes）和新类(novel classes)。为了这个目的，重要的方法是使用更宽的决策边界来划分基类表示，这样允许模型对新类具有泛化性。Manifold Mixup提供有效方法使已知类扁平表示变得更紧凑。可是，文献[62]声称Manifold Mixup能处理小的分布变化，但是当基类和新类差距较大时就无能为力了。因此，本文使用自监督方法，当训练基类时附加损失提供了特征表示的更丰富的决策边界，允许模型更适应新类。

流程如下，具体包括两个步骤：

步骤1：自监督训练：利用自监督的附加损失训练模型，计算分类损失；
步骤2：混合流形的精调：利用混合模型损失精调步骤1的模型。
得到训练好的网络，利用余弦分类器适应小样本任务。

代码链接：https://github.com/nupurkmr9/S2M2 fewshot
文章链接：http://arxiv.org/abs/1907.12087v2

小样本学习的前提是训练样本集有大量样本，目标是解决少量未见样本的分类。但是，有很多领域，训练样本集也缺少。怎么办？