©PaperWeekly · 作者|吴桐

学校|香港中文大学博士生

我们的 Distribution-Balanced Loss for Multi-Label Classification in Long-Tailed Datasets 很荣幸被接收为 ECCV 2020 的 Spotlight Presentation。

本文关注的是长尾分布下的多标签分类问题,并提出了一种分布平衡损失函数(Distribution-Balanced Loss),在 COCO-MLT 和 VOC-MLT 这两个人工构造的多标签长尾数据集上进行实验验证,取得了很好的效果。文章和代码均已公开。

论文链接:https://arxiv.org/abs/2007.09654

代码链接:https://github.com/wutong16/DistributionBalancedLoss

视频链接:youtu.be/AoEJF-osMgM

背景

真实世界中的数据分布往往是不平衡的,少数几个头部类别(比如人、车等)拥有大量可训练样本,而大多数类别的样本数量十分有限,在统计直方图上形成长长的“尾巴”。

长尾分布问题近年来广泛受到大家的关注,常用以验证的有 ImageNet-LT, Place-LT, MS1M-LT [1],iNaturalist, long-tailed CIFAR10/100 [2] 等单标签数据集。MMLab 也是最早关注并正式定义长尾识别的实验室之一 [1] 。

然而,采集自真实场景的图片常常具有丰富的语义信息,多个物体共存是一种普遍情形。因此长尾分布下的多标签分类任务是这篇文章主要关注的问题。

动机

从单标签向多标签的转换,有几个自然的思路:对前者有效的方法对后者来说是否仍适用?两种设定在训练时的主要区别有哪些,又有怎样的影响呢?

采样难解耦

对于第一个问题,我们注意到重采样(re-sampling)是一个常见而有效的策略,在几个最新工作 [1,2,3,4] 中都作为关键组件出现,其中 [3,4] 提出重采样法对分类器学习有显著促进作用。但这种方法并不能顺滑地迁移到多标签情景中,因为标签的共存性(co-occurrence)将导致不同类别在采样时无法解耦。

举个栗子,如果数据集中有限的几张牙刷图片样本都同时包含刷牙的人在其中,那么在对“牙刷”这一尾部类别进行重采样时,对“人”这一头部类别的采样也会只多不少。同时,注意到“刷牙的人”此时就会比“单独出现的人”具有显著更高的采样频率,为头部类别额外引入类内不均衡的问题。

▲ 图1 重采样过程以及采样前后分布直方图对比

分类器出走

对于第二个问题,我们知道 Cross-Entropy Loss(CE Loss)是单标签分类中常见的损失函数,其中 softmax 的计算强调分类器需要输出唯一最大预测值,同时正负类别的预测值在损失函数中存在相互影响;而多标签分类则多使用 Binary Cross-Entropy Loss(BCE Loss),将任务拆解为一系列相互独立的二分类问题,并以 sigmoid 计算每一类别的输出预测值。

现在我们来考虑分类器对一个负类输出值的求导,两种损失函数对应梯度的差别如上式所示。对于 CE Loss,当同一样本中的正类输出足够高时,对负类输出求导的梯度值也会随之减小,而对 BCE Loss 来说,构造上的独立性导致只有不断降低负类输出值本身才能够降低自身梯度值,从而在训练后期该输出将稳定在一个相对更低的位置上。

这个过程的二者的可视化对比如下图所示。(注意这里是损失函数的梯度函数,梯度值的大小影响优化速度)

▲ 图2 CE 和 BCE 对负类输出的梯度函数可视化

然而,对于一个特定类别(尤其是尾部),数据集中绝大多数都是它的负样本,当分类器被海量负样本包围,且被要求对每一个负样本都输出一个足够低的预测值时,分类器向量在训练过程中将被迫远远偏离大量自然样本的分布,而仅仅过拟合在它的个别正样本上。

可以想像分类器预测值在特征向量(feature vector)空间中的分布具有一个尖锐的波峰,泛化性能很差。

方法

针对上述问题,我们分别提出了 Re-balanced weightingNegative-tolerant regularization 两个策略,并最终整合为一个损失函数的形式。

理想现实有差距,加权弥补

现在来对采样过程做一个简单的定量分析:假设我们希望所有类别都以相同的概率被采样到,那么在不考虑标签共存时,包含类别  的样本  被采样到的概率可记作  ;但该样本还可能含有其它正标签,每一个正标签都对它实际的采样概率有所贡献,后者可以计算出并记为  。

我们通过计算上述二者的比值  并以其作为加权系数加入训练,来弥补期待与实际采样概率之间的差距。特别的,我们还设计了一个平滑函数,将权重系数映射到一个合理范围内。权重系数的计算过程如下所示。

过度惩罚不可取,点到为止

第二个问题我们在文中称为负样本的过度抑制(over-suppression of negative labels),一个简单粗暴的解决思路便是,不要对负样本持续施加过重的惩罚,而是点到为止。

我们只需要对分类器的负类输出进行一个简单的线性变换就能够实现上述功能,不要忘记加上正则化系数约束梯度值的范围。变换后函数请见后文的整体公式,它对负类输出的梯度与 CE 和 BCE 一同对比如下图所示。

▲ 图3 三种损失函数对负类输出的梯度函数对比

权值正则两相宜,统一框架

最后,上面两个方法可以自然地融合为一个损失函数,并进行端到端的训练,下图可视化了它的构造过程。

▲ 图 4 分布平衡损失函数构造过程

我们来回顾一下整体计算框架:(1) 首先应用重采样法促进尾部类别分类器的学习,同时也对头部类别引入了一定的类内采样不均衡性;(2) 接着,利用重加权的方法对无法解耦的采样在权重上予以平衡;(3)最后,正则化方法缓解了对负类别输出的过度抑制。

如下图所示,特征向量(feature vector)空间各类别预测值的分布得到了递进式的平衡,这也是分布平衡损失函数(Distribution-Balanced Loss)命名时的想法。

▲ 图5 整体流程示意图

实验结果

我们基于 Pascal VOC 和 MS COCO 以抽取的方式人工构造了两个长尾分布的多标签数据集用以训练,称为 VOC-MLT 和 COCO-MLT,并以 mAP 为主要评价指标在原始测试集上进行验证。

我们根据每个类别含有的训练样本数量 将其划分为头部(head,  ),中部(medium,  )和尾部(tail,  )三个子集,并在整体和各子集上都进行了结果对比,结果如下表所示。

特别的,我们还测试了递进实施每一步骤后,每一类别的指标增量(mAP increment),来分析每个技术对长尾分布的不同位置处类别的影响,具体结果以及更多的 Ablation study 可以参考原文。

展望

这篇文章关注的是长尾分布下的多标签分类问题,并从已经较为成熟的单标签不平衡分类方法中得到启发,从二者的差别入手,提出了一个简单而有效的方法。深度学习发展到今天,学术界默认采用的单一域平衡数据集已无法反映 AI 算法的真正泛化能力。

我们邀请大家一起来攻关这个新兴且更符合现实数据的领域,开放世界学习(Open World Learning),既包含类别分布上的复杂性 [1],也包含数据域分布上的复杂性 [5]。

最后,欢迎大家关注我们的工作,提出宝贵的建议!

参考文献

[1] Liu et al., Large-Scale Long-Tailed Recognition in an Open World, in CVPR 2019 (Oral), liuziwei7.github.io/pro 
[2] Cui et al., Class-Balanced Loss Based on Effective Number of Samples, in CVPR 2019 
[3] Kang et al., Decoupling Representation and Classifier for Long-Tailed Recognition, in ICLR 2020 
[4] Zhou et al., BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition, in CVPR 2020 (Oral)
[5] Liu et al., Open Compound Domain Adaptation, in CVPR 2020 (Oral), liuziwei7.github.io/pro

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

ECCV 2020 Spotlight | 多标签长尾识别前沿进展相关推荐

  1. ECCV 2020 Spotlight 谷歌论文大盘点

    ECCV2020 已经结束,官方放出了所有论文: ECCV 2020 论文合集下载,分类盘点进行中 ECCV 2020 总计录取1361篇论文,其中Oral 102篇,Spotlight 161 篇. ...

  2. ECCV 2020 Spotlight,COCO关键点检测冠军算法RSN解析

    "15分钟看顶会"是旷视研究院全新推出的论文快速解读专栏,聚焦旷视在全球各大顶会.期刊等平台所发表的工作,覆盖深度学习.计算机视觉.视觉导航与控制.计算摄影学.大规模机器学习系统. ...

  3. ECCV 2020 Spotlight | 图像定位上的细粒化区域相似性自监督

    ©PaperWeekly · 作者|葛艺潇 学校|香港中文大学博士生 研究方向|图像检索.图像生成等 本文介绍一篇我们发表于 ECCV 2020 的论文,很荣幸该论文被收录为 spotlight pr ...

  4. ECCV 2020 Spotlight | CFBI:前背景整合的协作式视频目标分割

    ©PaperWeekly · 作者|杨宗鑫 学校|悉尼科技大学博士生 研究方向|视频分割.网络结构设计 半监督视频目标分割 视频目标分割(VOS)是计算机视觉领域的一个基础任务,具有非常多潜在的应用场 ...

  5. hrsc2016 下载 数据集_PIoU Loss:倾斜目标检测专用损失函数,公开超难倾斜目标数据集Retail50K | ECCV 2020 Spotlight...

    > 论文提出从IoU指标延伸来的PIoU损失函数,能够有效地提高倾斜目标检测场景下的旋转角度预测和IoU效果,对anchor-based方法和anchor-free方法均适用.另外论文提供了Re ...

  6. 19篇顶会论文探索多模态情感识别前沿进展

    近年来,随着AI在日常交互场景中的普及,自然交互场景下的情感识别的需求也在不断提升,如车内驾驶人情绪识别.家用机器人情绪监控.人机情感交互等. 通常,人的情绪的变化对时序信息具备高度依赖性和瞬时性,以 ...

  7. ECCV 2020 论文大盘点-人员重识别(ReID)篇

    本文盘点ECCV 2020 中所有与人员再识别(Person Re-Identification,ReID)相关的论文,总计 24 篇,其中两篇Oral 论文,15篇已经或者将开源代码. 这一领域可称 ...

  8. ECCV 2020 论文大盘点-动作检测与识别篇

    本文盘点 ECCV 2020 所有动作检测与识别(Action Detection and Recognition)相关论文,总计 26 篇. 包含动作识别(Action Recognition).动 ...

  9. ECCV 2020 论文大盘点-6D 位姿估计篇

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源丨我爱计算机视觉 本文盘点ECCV 2020 中所有与物体6D位姿估计(6D Object Pos ...

最新文章

  1. 【论文】ICLR 2020 九篇满分论文!!!
  2. linux5启动过程及故障排除
  3. PHP函数之日期时间函数date()使用详解
  4. Java并发编程—自旋锁CLHLock原理
  5. 《音乐达人秀:Adobe Audition实战200例》——实例7 定时录制网络音乐节目
  6. html缩进快捷键_Windows IDEA 快捷键终极大全,果断收藏!
  7. Android Activity绑定到Service
  8. Windows10安装IIS服务器
  9. 凿音下载 1.26 安卓版
  10. troublemaker中文谐音_trouble maker的中文音译歌词 希望准确的遵循原来的发音。。。不是中文歌词和韩语歌词!要的是音译啊 注意...
  11. iOS Orientation 屏幕旋转
  12. CNN 入门讲解:什么是标准化?
  13. 在LibreOffice 中启用录制宏的功能
  14. Lazada和Shopee选品分析之马来西亚电商市场详解-海鲸跨境
  15. 脾胃不好,有哪些在家可以做的暖胃汤方?
  16. 基于kmeans聚类算法的微博舆情热点事件分析系统
  17. IIS架构与HTTP请求处理流程(1)
  18. Python3,正则表达式查询手册,这一篇就够。
  19. 打印机批量扫描显示服务器超时,惠普打印机常见故障及解决方法,27年打印故障经验总结...
  20. Xilinx FPGA开发基本流程

热门文章

  1. JAVA定义一个多边形类_如何在每个数据类别中绘制多个多边形?
  2. # select sort 选择排序
  3. SPListItem.Update() 与 SPListItem.SystemUpdate()区别
  4. 【图论】Tarjan 缩点
  5. Setting property 'source' to 'org.eclipse.jst.jee.server:hczm' did not find a matching property
  6. Jzoj4790 选数问题
  7. 关于小程序取data- 的值的问题
  8. [C#] Socket 通讯,一个简单的聊天窗口小程序
  9. 使用存储过程及触发器案例
  10. 申请域名的理由_申请网站名称和域名注册为商标的重要性增加了吗?原因?