[论文阅读] Self-Sustaining Representation Expansion for Non-Exemplar Class-Incremental Learning

论文地址：https://arxiv.org/abs/2203.06359
发表于：CVPR 22

Abstract

无示范的类增量学习是指在旧类样本无法保存的情况下，同时识别新旧两类。这是一项具有挑战性的任务，因为只有在新类的监督下才能实现表征优化和特征保留。为了解决这个问题，我们提出了一个新颖的自我维持的表征扩展方案。我们的方案包括一个结构重组策略，该策略融合了主枝扩展和侧枝更新来保持旧的特征，以及一个主枝蒸馏方案来转移不变的知识。此外，还提出了一种原型选择机制，通过有选择地将新样本纳入蒸馏过程来提高新旧类别之间的区分度。在三个基准上进行的广泛实验显示了显著的增量性能，分别以3%、3%和6%的幅度超过了最先进的方法。

I. Overview

本文的创新点同样也是经典的三个，分别为图中的Dynamic Structure Reorganization(DSR)、Main-Branch Distillation(MBD)、Prototype Selection Mechanism(PSM)。

首先，我们先简单复习下经典的带示例的增量学习的流水线。对于新类样本，在使用交叉熵损失学习表征的同时，也使用蒸馏损失来减少对旧类的遗忘。此外，存储的旧类示例也会被一同训练，以显式监督的形式进一步去强化对旧类的回忆。然而，由于NECIL(Non-Exemplar CIL)不能去直接存储旧类的样本，因此本文采取了一种较为常见的替代方式，即直接存储旧类的原型表征(prototype representation)本身，具体的存储实现与PASS[1](CVPR 20)类似。一个不同之处在于，本文相比与PASS而言还使用了over sample策略，以对分类头进行进一步的校准。

II. Dynamic Structure Reorganization

DSR包含Structural Expansion与Structural Reparameterization两个部分。

Structural Expansion，字面意思，结构扩充，就是为深度网络添加的额外的层，以增大网络参数量的形式使得网络在学习新知识的同时，减少对旧知识的覆盖。但是，持续增大参数量的话会使网络变得臃肿，从而违背增量学习的原则。实际上，本文添加的结构仅仅是为了辅助网络进行学习。我们来回看一下示意图：

其中灰色立方体框出来的部分就是深度网络的一个Encoder Block。Encoder Block由若干个卷积组成，而一个深度网络一般包含五个Encoder Block。本文的做法是，在Encoder Block的基础上添加额外的residual connection，对应蓝色连接线部分。在训练时，首先冻结主网络参数，只对这些residual connection进行训练。在训练完后，这些residual block中就可以包含一些新类的知识。

接下来，问题就成了怎么把这一额外结构中的新类知识给融合回主网中。这一过程对应着Structural Reparameterization，其结构如下：

具体做法可能源自于RepVGG[2]，通过zero-padding与linear transformation实现。在新类知识被融合后，额外的residual connection被移除以保证网络参数不变。

III. Prototype Selection

具体做法是，对于新类样本，计算其embedding与原型向量的相似性。如果这个相似性超过了某个阈值，说明该新类样本与旧类样本相似，容易混淆，此时为蒸馏损失增加一个mask，强调对新旧类的区分；如果这个相似性低于某个阈值，则说明该新类样本与旧类样本差异很大，此时为交叉熵损失增加一个mask，强调对新类特征的学习。

Ref

[1] Zhu, Fei, et al. “Prototype augmentation and self-supervision for incremental learning.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[2] Ding, Xiaohan, et al. “Repvgg: Making vgg-style convnets great again.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.