东南大学提出条件自监督小样本学习方法，显著提升小样本分类准确率

©作者 | 安悦瑄

单位 | 东南大学PALM实验室

研究方向 | 小样本学习、自监督学习

写在篇首

如何从有限的样本中学习可迁移的特征表示是小样本学习（Few-Shot Learning）的一个关键挑战。最近，自监督学习作为辅助任务被加入到小样本主任务的学习中，以提高小样本学习的表征能力。然而，传统的自监督学习方法往往依赖于大量的训练样本。在小样本场景中，由于缺乏足够多的样本，这些自监督方法可能学习到一种有偏的表示，从而导致对主任务的错误指导，引起小样本学习的性能下降。

本文提出条件自监督学习（Conditional Self-Supervised Learning，CSS）方法，利用先验知识指导自监督任务的表征学习。具体而言，CSS 利用有标记数据中固有的监督信息，改进自监督学习特征流形，从而减少表示偏差，以挖掘更有效的语义信息。另外，CSS 分别通过监督学习和改进的自监督学习挖掘出更多有意义的信息，并将这些信息整合成一个统一的分布，进一步丰富和拓展了原有的表示方法。大量实验表明，与现有的小样本学习方法相比，本文提出的方法在不进行任何微调的情况下，能够显著提高小样本分类的准确率。

论文标题：

Conditional Self-Supervised Learning for Few-Shot Classification

收录会议：

IJCAI 2021

论文链接：

https://www.ijcai.org/proceedings/2021/295

代码链接：

https://github.com/anyuexuan/CSS

背景介绍

与以往的深度学习方法需要大量人工标注数据不同，小样本学习仅需少量样本即可识别新的类别。最近的视觉小样本学习方法可以通过训练基类上的一组任务来学习可迁移的特征表示，并使用少量的样本将这种表示迁移到新（未见）类中 [1]。然而，由于数据的稀缺性，得到的监督信息主要集中在基类样本的差异上，而忽略了对新类有价值的语义信息。因此，对于小样本分类问题，需要从有限的样本中提取更多的语义信息以获取更好的特征表示。

自监督学习作为一种重要的学习范式，在不依赖标记的情况下，能够探索出良好的视觉表征 [2]。通常情况下，自监督学习通过对原始数据进行增强操作（如旋转）来构造增强视图，并构建可学习的任务来建立增强视图和原始视图的联系，从而从这些任务中学习自监督表示。另一种自监督方法使用对比损失，该损失使得来自相同数据的视图的表示（“正对”）更接近，不同数据的视图的表示（“负对”）更加分散。

动机

近年来，自监督学习被应用于小样本分类中。这些基于自监督的小样本学习方法以自监督任务为辅助任务，以原始的小样本分类任务为主任务，共同学习同一个特征表示 [3]。然而，自监督通常依赖于大量训练样本，不适合小样本场景。而自监督学习任务在小样本场景中的直接应用可能学习到一些不适当的“捷径”（如边缘的连续性），而不是关键的语义信息。因此，自监督学习可能存在偏差，导致对主任务的错误指导，引起性能下降。

为了解决上述问题，我们提出了条件自监督学习（CSS），它可以更好地适应小样本分类。CSS 分别从有监督的小样本学习和自监督学习中学习两种特征表示。对于自监督部分，CSS 利用监督信息作为教师指导自监督学习。最后，将所有的信息整合到一个统一的分布中，进一步丰富了原有的表征。因此，CSS 学习可以举一反三，进一步提高小样本的泛化性能。值得注意的是，我们的方法与半监督学习方法有本质的区别，不需要任何辅助的未标记数据。

方法

图 1 所示，CSS 采用三阶段训练方式。首先，在预训练阶段，CSS 通过原有的有监督学习方法学习初始特征提取器。在自监督训练阶段，CSS 使用在预训练阶段学习得到的作为先验条件，以优化自监督模型的学习。在最后的元训练阶段，CSS 通过一种新的融合蒸馏方法（Fussion Distillation，FD）蒸馏前两阶段学习的特征和到最终的特征嵌入网络。

▲ 图1 条件自监督学习框架

3.1 预训练阶段

在预训练阶段，使用原型网络从小样本分类任务学习特征提取器。对于 N-way K-shot 问题，在每个 episode 中，执行一个小样本分类任务。

原型构建为

给定一个新样本，分类器输出第 k 类的标准化分类分数

其中是相似度函数。

该阶段的分类损失为

3.2 自监督训练阶段

自监督训练网络由自监督模块和条件模块组成。为了简单和灵活，本文使用 SimSiam [4] 作为自监督任务，其他自监督方法同样适用，其损失为。

在条件模块中，CSS 将自监督模块学习到的特征与预训练阶段学习到的特性对齐，最小化和之间的负余弦相似度：

其最终损失为

3.3 元训练阶段

该阶段提出融合蒸馏方法。对于样本，CSS 首先计算其对应的两个嵌入向量和，然后使用增强操作。通过计算不同样本的融合特征向量，得到对应特征矩阵。然后，可以计算两个样本特征之间的余弦相似度，并生成一个图 [5]，其中每个顶点代表一个样本的特征

然后 CSS 对图矩阵进行标准化，以获得邻接矩阵：

然后采用融合蒸馏方法得到的嵌入向量

和预训练阶段类似，对于查询样本，分别获得和对应的原型分类器的第 k 类的标准化分数

最终的损失为

实验

4.1 与SOTA方法对比

为了验证方法的有效性，选取 CIFAR-FS、CUB-200、 -ImageNet 数据集来比较 CSS 和 SOTA 小样本学习方法的性能。实验设置在 5-way 的情况下，比较 600 个 episode 的平均准确度（%）和 95% 置信区间。

▲ 表 1 在 CIFAR-FS 数据集上与 SOTA 的比较

▲ 表 2 在 CUB-200 数据集上与 SOTA 的比较

▲ 表 2 在 -ImageNet 数据集上与 SOTA 的比较

在所有情况下，元训练完成后，CSS 的分类性能超过所有的 SOTA 算法，并取得了显著的优势。在 CIFAR-FS、CUB-200 和 -ImageNet 数据集上，CSS 与 5-shot 设置下的原型网络相比，性能提高了约 6%、7% 和 4%，而在 1-shot 设置下，性能提高了 13%、15% 和 6%。同时，在所有设置中，我们的方法的性能都比所有的 SOTA 方法高出 2% 到 5%。

4.2 消融实验

本节探讨条件模块在自监督学习中的重要性以及不同阶段的效果，并分别设计了五个案例来研究不同阶段组合时的表现。

SSL：原始的自监督学习

SL+SSL+FD：去除条件模块

SL（S1）：只保留预训练阶段

CSS（S1+S2）：不执行元学习训练阶段

CSS（S1+S2+S3）：完整的CSS

▲ 图3 不同设定在5-way 5-shot的对比结果

▲ 图3 不同设定在5-way 1-shot的对比结果

实验结果表明，条件模块在自监督学习中起着至关重要的作用，有效的特征融合方法可以进一步提高模型性能。

总结

在这项工作中，我们提出了条件自监督学习（CSS）的三阶段训练过程：预训练阶段、自监督的训练阶段和元训练阶段，每个训练阶段都有利于模型性能的提高。对于自监督训练阶段，CSS 利用预训练阶段学习到的监督信息来指导自监督学习，从而提高自监督学习在小样本环境下的适应性。在元训练阶段，CSS 采用了融合蒸馏方法，将前两个阶段的信息整合成一个统一的分布，从而丰富和扩展了原有的特征表示。充分的实验体现了 CSS 相比于其他 SOTA 算法的优越性。

参考文献

[1] Wei-Yu Chen, Yen-Cheng Liu, Zsolt Kira, Yu-Chiang Frank Wang, and Jia-Bin Huang. A closer look at few-shot classification. In ICLR, 2019.

[2] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey E. Hinton. A simple framework for contrastive learning of visual representations. In ICML, volume 119, pages 1597–1607, 2020.

[3] Spyros Gidaris, Andrei Bursuc, Nikos Komodakis, Patrick Perez, and Matthieu Cord. Boosting few-shot visual learning with self-supervision. In ICCV, pages 8058–8067, 2019.

[4] Xinlei Chen and Kaiming He. Exploring simple siamese representation learning. CVPR, pages 15750-15758, 2021.

[5] Thomas N. Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. In ICLR, 2017.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

东南大学提出条件自监督小样本学习方法，显著提升小样本分类准确率相关推荐

ACL 2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效，提出评价框架...
©作者 | 清华大学.DeepMind等来源 | 机器之心以 GPT-3 为代表的预训练语言模型的发展,引发对小样本自然语言理解任务的极大关注.各种方法不断发展并展现出日渐强大的小样本自然语言理解 ...
《Few-shot Classifier GAN》一篇不一样的小样本学习方法
<Few-shot Classifier GAN>一篇不一样的小样本学习方法本博客前言摘要引言相关工作方法假类编码小样本分类器GAN 网络选择器(Network Switch ...
基于SE的半监督元学习网络在小样本故障诊断中的应用
Semi-supervised meta-learning networks with squeeze-and-excitation attention for few-shot fault diag ...
图像风格迁移cvpr2020_CVPR 2020 | 浙大李俊成：用无监督强化学习方法来获得迁移能力...
作者 | 李俊成编辑 | 蒋宝尚本文是对浙江大学和加州大学圣巴巴拉分校合作完成的,被CVPR 2020收录的论文<Unsupervised Reinforcement Learning of ...
新突破！CVPR2019接收论文：新的基于自编码变换的无监督表示学习方法—AET
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散该文翻译由联盟成员翻译,若有不妥,欢迎指正深度神经网络的成功往往依赖于大量标记的例子,这在许多实际场景中是很难获得 ...
（一）一种硬盘故障预测的非监督对抗学习方法（2019-西安电子科技大学学报）
内含动画的PPT已经上传,可以在我上传的资源里看到,可免费下载该篇论文主要围绕"异常检测+硬盘故障预测+GAN+非监督"展开,以下是个人对整篇文章脉络的整理和理解. 文章目录 * ...
自监督表征学习方法——BYOL(Bootstrap Your Own Latent)
自监督表征学习方法--BYOL(Bootstrap Your Own Latent) 参考文献:<Bootstrap Your Own Latent A New Approach to Self ...
IJCAI 2023 | 腾讯优图实验室入选论文解读，含小样本学习方法、玻璃物体分割、RSI变化检测研究方向...
关注公众号,发现CV技术之美近日,IJCAI 2023(International Joint Conference on Artificial Intelligence)国际人工智能联合大会公布了 ...
CVPR 2022 | 利用域自适应思想，北大、字节跳动提出新型弱监督物体定位框架
©作者 | 朱磊来源 | 机器之心将弱监督物体定位看作图像与像素特征域间的域自适应任务,北大.字节跳动提出新框架显著增强基于图像级标签的弱监督图像定位性能. 物体定位作为计算机视觉的基本问题,可以 ...

东南大学提出条件自监督小样本学习方法，显著提升小样本分类准确率

东南大学提出条件自监督小样本学习方法，显著提升小样本分类准确率相关推荐

最新文章

热门文章