©作者 | FlyingBug

单位 | 哈尔滨工业大学(深圳)

研究方向 | 小样本学习

写在篇首

本文分享的这篇论文是 NeurIPS 2021的一篇 Few-Shot 增量学习 (FSCIL) 文章,这篇文章通过固定 backbone 和 prototype 得到一个简单的 baseline,发现这个 baseline 已经可以打败当前 IL 和 IFSL 的很多 SOTA 方法,基于此通过借鉴 robust optimize 的方法,提出了在 base training 训练时通过 flat local minima 来对后面的 session 进行 fine-tune novel classes,解决灾难性遗忘问题。

论文标题:

Overcoming Catastrophic Forgetting in Incremental Few-Shot Learning by Finding Flat Minima

收录会议:

NeurIPS 2021

论文链接:

https://arxiv.org/pdf/2111.01549.pdf

代码链接:

https://github.com/moukamisama/F2M

Motivation

不同于现有方法在学习新任务时尝试克服灾难性遗忘问题,这篇文章提出在训练 base classes 时就提出策略来解决这个问题。作者提出找到 base training function 的 flat local minima,最小值附近 loss 小,作者认为 base classes 分离地更好(直觉上,flat local minima 会比 sharp 的泛化效果更好,参阅下图 [2])。

1.2 Contribution

作者发现一个简单的 baseline model,只要在 base classes 上训练,不在 new tasks 上进行适应,就超过了现有的 SOTA 方法,说明灾难性遗忘问题非常严重。作者提出在 primitive stage 来解决灾难性遗忘问题,通过在 base classes 上训练时找到 flat minima region 并在该 region 内学习新任务,模型能够更好地克服遗忘问题。

1.3 A Simple Baseline 

作者提出了一个简单的 baseline,模型只在 base classes 上进行训练,在后续的 session 上直接进行推理。

Training(t=1)

在session 1上对特征提取器进行训练,并使用一个全连接层作为分类器,使用 CE Loss 作为损失函数,从session 2 () 开始将特征提取器固定住,不使用 novel classes 进行任何 fine-tune 操作。

Inference(test)

使用均值方式获得每个类的 prototype,然后通过欧氏距离 采用最近邻方式进行分类。分类器的公式如下:

其中 表示类别 的 prototype, 表示类别 的训练图片数量。同时作者将 中所有类的 prototypes 保存下来用于后续的 evaluation。

作者表示通过这种保存 old prototype 的方式就打败了现有的 SOTA 方法,证明了灾难性遗忘非常严重。

1.4 Method

核心想法就是在 base training 的过程中找到函数的 flat local minima ,并在后续的 few-shot session 中在 flat region 进行 fine-tune,这样可以最大限度地保证在 novel classes 上进行 fine-tune 时避免遗忘知识。在后续增量 few-shot sessions () 中,在这个 flat region 进行 fine-tune 模型参数来学习 new classes。

1.4.1 寻找Base Training的flat local minima

为了找到 base training function 的近似 flat local minima,作者提出添加一些随机噪声到模型参数,噪声可以被多次添加以获得相似但不同的 loss function,直觉上,flat local minima 附近的参数向量有小的函数值。

假设模型的参数 , 表示特征提取网络的参数, 表示分类器的参数。 表示一个有类标训练样本,损失函数 。我们的目标就是最小化期望损失函数。

是数据分布 是噪声分布, 和 是相互独立的。

因此最小化期望损失是不可能的,所以这里我们最小化他的近似,empirical loss:

是 , 是采样次数。这个 loss 的前半部分是为了找到 flat region,它的特征提取网络参数 可以很好地区分 base classes。第二部分是通过 MSE Loss 的设计为了让 prototype 尽量保持不变, 避免模型遗忘过去的知识。

1.4.2 在Flat Region内进行IFSL 

作者认为虽然 flat region 很小,但对于 few-shot 的少量样本来说,足够对模型进行迭代更新。

通过欧氏距离使用基于度量的分类算法来 fine-tune 模型参数。

1.4.3 收敛性分析

我们的目标是找到一个 flat region 使模型效果较好。然后,通过最小化期望损失(噪声 和数据 的联合分布)。为了近似这个期望损失,我们在每次迭代中多次从 采样,并使用随机梯度下降 (SGD) 优化目标函数。后面是相关的理论证明,感兴趣的可以自行阅读分析。

参考文献

[1] Shi G, Chen J, Zhang W, et al. Overcoming Catastrophic Forgetting in Incremental Few-Shot Learning by Finding Flat Minima[J]. Advances in Neural Information Processing Systems, 2021, 34.

[2] He H, Huang G, Yuan Y. Asymmetric valleys: Beyond sharp and flat local minima[J]. arXiv preprint arXiv:1902.00744, 2019.

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

NeurIPS 2021 | 通过寻找平坦最小值,克服小样本增量学习中的灾难性遗忘相关推荐

  1. 克服神经网络中的灾难性遗忘(EWC):Overcoming catastrophic forgetting inneural networks

    克服神经网络中的灾难性遗忘 Introduction Results EWC Extends Memory Lifetime for Random Patterns EWC Allows Contin ...

  2. 弹性响应蒸馏 | 用弹性响应蒸馏克服增量目标检测中的灾难性遗忘

      欢迎关注我的公众号 [极智视界],获取我的更多笔记分享   大家好,我是极智视界,本文解读一下 用弹性蒸馏克服增量目标检测中的灾难性遗忘.   传统的目标检测不适用于增量学习.然而,仅用新数据直接 ...

  3. NeurIPS 2021 | 港中文周博磊组:基于实例判别的数据高效生成模型

    ©作者 | 杨孟平 学校 | 华东理工大学 研究方向 | 深度生成模型.小样本学习 本文介绍一篇利用实例判别实现数据高效(Data Efficienct)图像生成的论文,发表在 NeurIPS 202 ...

  4. 直播 | 孙剑团队最新工作:用于物体检测的实例条件知识蒸馏 | NeurIPS 2021

    近期,旷视孙剑团队最新工作提出了一种新的目标检测知识蒸馏框架:实例-条件知识蒸馏(ICD)方法利用实例-特征交叉注意力来选择和定位与人类观察到的实例相关的知识,性能表现SOTA,这篇论文已经开源(地址 ...

  5. NeurIPS 2021 | 简单且通用的多视图对比图聚类方法

    随着信息时代的蓬勃发展,产生了大量多视图属性图图数据.随即,也出现许多的多视图聚类方法,但这些方法只利用数据中的多属性信息或者多拓扑图信息,没有完整地利用属性图数据的所有信息. 本期 AI Drive ...

  6. NeurIPS 2021 | PCAN:高效时序建模,提升多目标追踪与分割性能

    ©作者 | 柯磊 单位 | HKUST/ETHz 研究方向 | 计算机视觉 本文是对我们 NeurIPS 2021 接收的 spotlight 文章 Prototypical Cross-Attent ...

  7. NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法

    ©作者 | 机器之心编辑部 来源 | 机器之心 常规符号函数的梯度几乎处处为零,不能用于反向传播.为此,来自华为诺亚方舟实验室等机构的研究者提出一种在频域中估计原始符号函数梯度的新方法. 二值神经网络 ...

  8. NeurIPS 2021 Transformer部署难?北大华为诺亚提出Vision Transformer的后训练量化方法...

    关注公众号,发现CV技术之美 本文分享 NeurIPS 2021 论文『Post-Training Quantization for Vision Transformer』,由北大&华为诺亚联 ...

  9. 用AI取代SGD?无需训练ResNet-50,AI秒级预测全部2400万个参数,准确率60% | NeurIPS 2021...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 一次前向传播便可预测几乎任何神经网络的参数,我们离用单一元模型取代手 ...

最新文章

  1. [记录]calculate age based on date of birth
  2. MyBatis之简单了解Plugin
  3. GetLastError()函数返回值及含义
  4. Android中Handler消息传递机制应用之子线程不允许操作主线程的组件
  5. TI Davinci DM6446 开发攻略(序)
  6. 常见的网站服务器架构有哪些?
  7. PowerPoint Storyboarding:Visual Studio 2012 RC带给开发者的秘密杀器
  8. python输出日期语句_如何从Python的原始语句中提取时间-日期-时间段信息
  9. gels imagej 图片处理_如何用ImageJ进行粒度分析
  10. sql聚合函数及分组的注意事项
  11. 多个PDF合并后页面大小不一
  12. codeblocks20.03汉化版 附汉化补丁|codeblocks汉化版
  13. 幼儿园数学目标_幼儿园数学区目标
  14. 如何提高软件开发团队的协作效率
  15. 蓝桥杯-模拟风扇控制系统
  16. spline本地运行的方法
  17. 原函数与反函数的关系
  18. 微信扫码下载APK遮罩提示示例
  19. 腾讯云服务器配置LNMP环境并安装wordpress
  20. mac 竖屏显示屏鼠标无法从显示器移到mbp上

热门文章

  1. Ubuntu 安装简单samba
  2. 前端数据的加密和解密--对象解密的坑
  3. C++调用python(C++)
  4. linux 下 php 扩展
  5. MVC与单元测试实践之健身网站(八)-统计分析
  6. 《构建之法》阅读笔记4
  7. 虚幻4蓝图快速入门(二)
  8. java实现串的匹配和替换
  9. 2014编程之美热身赛 - 传话游戏
  10. Office SharePoint Server 2007 规划和体系结构2