关注公众号,发现CV技术之美

 写在前面

自然世界中的数据通常遵循长尾分布,大多数样本中只占据少数几个类。这种长尾分布导致分类器倾向于过拟合多数类(majority class)。为了解决这一问题,以前的解决方案通常采用类别平衡的策略,如数据重采样损失函数重加权

然而,通过平等“对待”一个类中的每个样本,这些方法无法解释“样本难度”的重要概念,即在同个类中,一些样本可能比其他样本更容易分类。为了将这种难度的概念融入到学习过程中,作者提出了早期退出框架(EarLy-exiting Framework,ELF)

在训练中,ELF能够根据辅助分支的结果,判断是否要提前退出网络。这带来了两个好处:

1)神经网络越来越关注难例样本 ,因为它们对整个网络损失的贡献更大;

2)释放了额外的模型容量来区分难例样本

在两个大型数据集ImageNet LT和iNaturalist'18上的实验结果表明,ELF可以将SOTA模型的精度提高3%以上,此外,可以减少20%的推理时间。ELF是对先前工作的补充,可以与各种现有方法集成,以应对长尾分布的挑战。

 1. 论文和代码地址

ELF: An Early-Exiting Framework for Long-Tailed Classification

论文地址:https://arxiv.org/abs/2006.11979

代码地址:未开源

 2. Motivation

真实数据通常遵循长尾分布,其中大多数样本仅来自少数几个类。在遵循这种分布的数据集上,神经网络通常倾向于多数类,导致稀有类的泛化性能较差。这种不平衡问题传统上是通过重新采样数据 (欠采样、过采样)或修改损失函数 (损失重新加权、正则化)来解决的。

然而,这些现有的方法侧重于类别中样本数量,以解决数据不平衡的挑战,而没有考虑类中每个样本的“难度”。因此,少数类中可能有一些简单的样本被错误地增加了权重,而多数类中可能有一些困难的样本被错误地减少了权重。

因此,作者提出了早期退出框架(EarLy-exiting Framework,ELF) (如上图所示),以在训练过程中考虑样本难度的概念。ELF的思想是在网络中尽早退出“简单”样本,最后再退出“较难”样本

为了实现这一点,ELF将辅助分类器分支连接到主干网络,作者称之为早期出口(early-exits) 。在每次提前退出时,神经网络都需要以高置信度正确预测输入。如果预测不正确或者置信度不够高,则样本会继续到下一个出口。相比于以前的方法,本文提出的ELF主要有以下几个优点:

1.通过增加较难样本的平均损失,能够将模型训练重点转向较难的样本

2.通过在网络早期退出较容易的样本,从而释放模型容量,将重点放在较难的样本上

3.通过减少每个图像所需的平均FLOPs,在推理过程中节省计算量

4.能够基于不同的计算限制,来灵活选择不同计算预算的模型

 3. 方法

3.1 Input-Hardness Intuition

作者认为,在所有类别中,存在一些样本相对来说更容易识别。因此,并非每一个少数类别的样本都需要同等地提高权重;同样,并不是多数类别中的每一个样本都需要同样地被降低权重。上图展示了CIFAR-10 LT数据集中,预测置信度和样本数量的结果。可以看出少数类和多数类中都存在简单样本和困难样本。

在符号表示方面,输入数据集为,输入样本表示为,对应的标签为。类别的样本数量表示为,,所有的样本数量表示为。然后对类别的数量进行排序,可以得到。在长尾设置中,。

本文的目标是学习一个神经网络,将输入映射到类预测得分,其中。第个出口的神经网络参数为,因此,第k个出口的输出可以表示为,其中为c个类别的置信度。

3.2 Early-Exiting During Training

如上图所示,本文方法的核心思想是不同样本退出网络的时间是不同的 。ELF使用辅助分类器分支扩充主干神经网络。在训练期间,每次输入按顺序通过所有辅助出口,直到满足出口标准即,样本仅在预测正确且置信度较高时才退出 。在第k个出口的标准表示如下:

其中,为第k个出口的置信度。为简单起见,作者为所有出口设置了相同的置信度。通过这种方式,模型可以在早期就退出简单样本,释放模型容量,促进困难样本的训练。较难的样本不满足退出标准,会继续留在网络中,并在每个出口会累积额外的损失。因此,总的损失函数为:

其中,为出口总数,为满足条件的第一个出口。也就是说,ELF在样本退出之前,会聚合所有的损失函数。作者认为,通过让简单样本在训练早期退出,可以将模型的注意力转移到更难的样本上。

从上面的公式可以看出,本文的方法与具体的损失函数无关,因此损失函数可以是任何形式。在每个出口处使用类加权交叉熵时,ELF的损失函数可以表示如下:

其中,代表某个类别的具体权重,在实验中,作者将该权重设置为:

其中为类别c样本的数量,为超参数。在每个出口处使用LDAM时,损失函数可以表示为:

其中,是每一个类的margin。

3.3 Early-Exiting During Inference

使用ELF损失函数进行训练可以使神经网络学习输入难度的概念。在推理过程中,可以利用这一点,根据难度进行提前退出。测试时,第k个出口的退出标准可以放松为:

其中,是在第k个出口处获得的输入的预测向量,是推理时的阈值,为简单起见,所有出口的预测向量设置相同的阈值。因此,输入的预测向量就可以表示为:

其中,为满足条件的第一个出口。可以看到同时由输入和阈值决定。此外,降低可以使得更多的样本提前退出,同时也会导致更少的FLOPs。因此,设置不同的可以得到一组具有不同计算预算的模型。

 4.实验

4.1 Datasets

作者在四个长尾分布数据集上进行了实验,上图展示了不同数据集的数据分布。

4.2 Evalution on Long-Tailed Classification

Generating a family of models along the Accuracy-FLOP curve

上图展示了在ImageNet LT数据集上,本文方法和其他方法的FLOPs-Acc对比,可以看出,本文方法能够在FLOPs更小的情况下,实现更高的性能。

Evaluating classification accuracy

从上表可以看出,本文的方法能够在ImageNet LT和 iNaturalist' 18数据集上实现SOTA性能。

从上表可以看出,本文能够在CIFAR-10 LT和CIFAR-100 LT数据集上,实现比较高的性能提升,并且只需更少的计算量。

Visualizing the learned notion of input-hardness

上图展示了第一个、第三个和最后一个出口的图片可视化,可以看出,越到后面的出口,图片会越复杂,越难进行分类。

 5. 总结

在本文中,作者提出了样本难度的概念,来提高长尾分布的数据中模型的泛化性能。为了在学习过程中融入样本难度的概念,作者提出了ELF框架。ELF是对长尾分类中现有工作的补充,可以作为即插即用的模块,与现有方法集成,以提高分类精度。

在多个数据集上实验结果表明,ELF的性能优于现有的SOTA方法,同时支持针对不同计算预算的动态模型选择。

▊ 作者简介

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END

欢迎加入「计算机视觉交流群

《ELF》即插即用!解决长尾问题!GTUIUC联合提出基于Early-Exiting的网络框架,涨点并加速!...相关推荐

  1. 宜泊科技与阿里云联合打造基于云原生架构的停车系统解决方案,加速智慧停车产业数字化发展

    宜泊信息科技有限公司成立于2015年6月3日,总部设立在成都.目前员工百余人,公司股东成员来自联想.腾讯.华为等知名企业.宜泊科技产品拥有多项停车场领域发明专利和软件著作权,解决方案已经广泛投入商业化 ...

  2. 华威、剑桥与三星联合提出基于时间核一致性的盲视频超分辨率

    关注公众号,发现CV技术之美 ✎ 编 者 言  本文是第一个在深度盲VSR中研究真实视频中核的时间一致性的方法,它展示了如何通过核估计和运动补偿的相互作用以便在盲VSR中利用时间核和帧信息. 详细信息 ...

  3. 商汤港理工提出基于聚类的联合建模时空关系的 GroupFormer 用于解决群体活动识别问题,性能SOTA...

    关注公众号,发现CV技术之美 ▊ 写在前面 群体活动识别是一个关键而又具有挑战性的问题,其核心在于充分探索个体之间的时空交互,产生合理的群体表征 .然而,以前的方法要么分别建模空间和时间信息,要么直接 ...

  4. FedIC: 通过校准蒸馏对非独立同分布和长尾数据进行联合学习(ICME 2022)

    ‍ 关注公众号,发现CV技术之美 本篇分享 ICME 2022 论文『FEDIC: Federated Learning on Non-IID and Long-Tailed Data via Cal ...

  5. 中科院、百度研究院等联合提出UGAN,生成图片难以溯源

    作者 | 中国科学院.北京航空航天大学.百度研究院团队译者 | 凯隐编辑 | 夕颜出品 | AI科技大本营(ID: rgznai100) 导读:生成对抗网络(GAN)是近年大热的深度学习模型,中国科学 ...

  6. 腾讯ARC、华中科大联合提出QueryInst,开启基于Query的实例分割新思路

    视学算法专栏 机器之心编辑部 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景.来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Q ...

  7. concat特征融合_MSFNet:多重空间融合网络进行实时语义分割(北航和旷视联合提出)...

    作者:Tom Hardy Date:2020-02-01 来源:MSFNet:多重空间融合网络进行实时语义分割(北航和旷视联合提出) 原文链接:https://arxiv.org/abs/1911.0 ...

  8. CVPR2021 DRConv:即插即用!旷视孙剑、张祥雨团队提出动态区域感知的卷积,涨点显著!...

    关注公众号,发现CV技术之美 ▊ 写在前面 在本文中,作者提出了一种名为动态区域感知卷积(DRConv) 的新卷积,它可以自动将多个滤波器分配给具有相似特征表示的空间区域.标准卷积层通常是增加滤波器的 ...

  9. 深入BBN,如何解决长尾数据分布的同时兼顾表示学习

    1. 问题引入 本次要记录的论文是,CVPR2020 的 " BBN: Bilateral-Branch Network with Cumulative Learning for Long- ...

最新文章

  1. 项目总结10:通过反射解决springboot环境下从redis取缓存进行转换时出现ClassCastException异常问题...
  2. C++_复合、委托、继承
  3. 利用dsamain.exe挂载快照(活动目录快照配置管理系列四)
  4. Atcoder 084D - Small Multiple(最短路径+思维)
  5. 搭建webpack基础配置
  6. sklearn分类器性能评估
  7. linux服务器运维操作命令,Windows和Linux系统服务器运维基本操作指令
  8. Varnish Glossary(varnish术语)
  9. MongoDB-概述:跨平台的面向文档的高性能高可用性易扩展数据库
  10. 解决Linux系统中python matplotlib画图的中文显示问题
  11. MacOS的OCR文字识别,节约时间,提高效率
  12. C语言Windows程序设计-第三天-属于自己的窗口
  13. html设置为壁纸win10,Win10默认桌面背景怎么设置
  14. moveit双臂机器人程序
  15. 能够实时显示CPU温度的软件
  16. cmd 组合命令和管道命令的使用
  17. 深入探访支付宝双11十年路,技术凿穿焦虑与想象极限 | CYZONE特写 1
  18. 计算机画大熊猫教案,幼儿园大班教案:水墨画《大熊猫》
  19. FPGA Vivado XDC 约束文件编写方式语法笔记
  20. Kali安装VMware Tools,解决“安装VMware Tools”灰色按钮问题

热门文章

  1. TensorFlow 第四步 多层神经网络 Mnist手写数字识别
  2. 计算机视觉:相机成像原理:世界坐标系、相机坐标系、图像坐标系、像素坐标系之间的转换(转载)
  3. python中grid函数_Python / NumPy中meshgrid的目的是什么?
  4. bool转nsnumber ios_iOS开发之NSDecimalNumber的使用,货币计算/精确数值计算/保留位数等...
  5. openwrt源码分析_openwrt 15.05.1源码
  6. mysql limit 表的长度_mysql中的limit用法有哪些(推荐)
  7. python做数据可视化视频_Python数据分析系列视频课程--玩转数据可视化
  8. android程序怎么导出数据库,将android程序中的数据库导出到SD卡
  9. python 抽样函数_python中resample函数实现重采样和降采样代码
  10. python itemgetter函数用法_Python itemgetter函数怎么用?