点击上方“视学算法”,选择加"星标"或“置顶”

重磅干货,第一时间送达

本文转载自:机器之心

在图像分类任务中类别不均衡问题一直是个难点,在实际应用中大部分的分类样本很可能呈现长尾分布。新加坡国立大学和 Facebook AI 的研究者提出了一种新型解决方案:将表征学习和分类器学习分开,从而寻找合适的表征来最小化长尾样本分类的负面影响。该论文已被 ICLR 2020 接收。

图像分类一直是深度学习领域中非常基本且工业应用广泛的任务,然而如何处理待分类样本中存在的类别不均衡问题是长期困扰学界与工业界的一个难题。相对来说,学术研究提供的普通图像分类数据集维持了较为均衡的不同类别样本分布;然而在实际应用中,大部分的分类样本很可能呈现长尾分布(long-tail distribution),这很有可能导致分类模型效果偏差:对于尾部的类别分类准确率不高。

针对长尾分布的图像识别任务,目前的研究和实践提出了大致几种解决思路,比如分类损失权重重分配(loss re-weighting)、数据集重采样、尾部少量样本过采样、头部过多样本欠采样,或者迁移学习。

在 ICLR 2020 会议上,新加坡国立大学与 Facebook AI 合著了一篇论文《Decoupling Representation and classifier for long-tailed recognition》,提出了一个新颖的解决角度:在学习分类任务的过程中,将通常默认为联合起来学习的类别特征表征与分类器解耦(decoupling),寻求合适的表征来最小化长尾样本分类的负面影响。

  • 论文链接:https://openreview.net/pdf?id=r1gRTCVFvB

  • GitHub 链接:https://github.com/facebookresearch/classifier-balancing

该研究系统性地探究了不同的样本均衡策略对长尾型数据分类的影响,并进行了详实的实验,结果表明:a) 当学习到高质量的类别表征时,数据不均衡很可能不会成为问题;b) 在学得上述表征后,即便应用最简单的样本均衡采样方式,也一样有可能在仅调整分类器的情况下学习到非常鲁棒的长尾样本分类模型。

该研究将表征学习和分类器学习分离开来,分别进行了延伸探究。

表征学习

对于表征学习来说,理想情况下好的类别表征能够准确识别出各种待分类类别。目前针对长尾类型数据分类任务,不同的采样策略、损失权重重分配,以及边界正则化(margin regularization)都可用于改善类别不均。

假设 p_j 为样本来自类别 j 中的概率,则 p_j 可用如下公式表示:

其中 n 为训练样本总数,C 为训练类别总数,而 q 为 [0,1] 其中一个值。

采样策略包含以下几种常用采样方式:

  • 样本均衡采样(Instance-balanced sampling):该方法最为常见,即每一个训练样本都有均等的机会概率被选中,即上述公式中 q=1 的情况。

  • 类别均衡采样(Class-balanced sampling):每个类别都有同等的概率被选中,即公平地选取每个类别,然后再从类别中进行样本选取,即上述公式中 q=0 的情况。

  • 平方根采样(Square-root sampling):本质上是之前两种采样方式的变种,通常是将概率公式中的 q 定值为 0.5。

  • 渐进式均衡采样(Progressively-balanced sampling):根据训练中的迭代次数 t(epoch)同时引入样本均衡(IB)与类别均衡(CB)采样并进行适当权重调整的一种新型采样模式,公式为

其中 T 为数据集训练迭代总数。

分类器学习

该研究也针对单独拆分出来的分类器训练进行了调研和分类概括:

  • 重训练分类器(Classifier Re-training, cRT):保持表征固定不变,随机重新初始化分类器并进行训练。

  • 最近类别平均分类器(Nereast Class Mean classifier, NCM):首先计算学习到的每个类别特征均值,然后执行最近邻搜索来确定类别。

  • τ-归一化分类器(τ-normalized classifier):作者提出使用该方法对分类器中的类别边界进行重新归一化,以取得均衡。

实验结果

通过以上观察和学习拆分,该研究在几个公开的长尾分类数据集上重新修改了头部类别和尾部类别的分类决策边界,并且搭配不同的采样策略进行交叉训练实验。训练出的不同分类器之间的对比结果如下图所示:

同时,在 Places-LT、Imagenet-LT 和 iNaturalist2018 三个公开标准数据集上,该研究提出的策略也获得了同比更高的分类准确率,实现了新的 SOTA 结果:

通过各类对比实验,该研究得到了如下观察:

1. 解耦表征学习与分类为两个过程均取得了非常好的效果,并且打破了人们对长尾分类固有的「样本均衡采样学习效果最好,拥有最具泛化性的特征表示」这一经验之谈。

2. 重新调整分类边界对于长尾分布的物体识别来说是非常有效的。

3. 将该研究提出的解耦学习规则应用到传统网络(如 ResNeXt)中,仍能取得很好的效果,这说明该策略确实对长尾分类具备一定指导意义。

该研究针对业界和学界频繁遇到的长尾样本分类难题,提出解构传统的「分类器表征联合学习」范式,从另一个角度提供了新思路:调整它们在表征空间的分类边界或许是更加高效的方法。

该研究思路比较新颖,实验结果也具有一定的代表性。对于研究长尾分类的学者或者业界工程师而言,这在传统采样方式下「面多了加水,水多了加面」的经验之外,提供了额外思路。目前该研究的相关代码已在 GitHub 上开源,感兴趣的读者可以下载进行更多的尝试。

代码实现

研究者在 GitHub 项目中提供了对应的训练代码和必要的训练步骤。代码整体是相对基本的分类训练代码,比较容易实现。具体到复现模型训练,作者也给出了几点注意事项。

1. 表征学习阶段

  • 学习过程中保持网络结构(比如 global pooling 之后不需要增加额外的全连接层)、超参数选择、学习率和 batch size 的关系和正常分类问题一致(比如 ImageNet),以确保表征学习的质量。

  • 类别均衡采样:采用多 GPU 实现的时候,需要考虑使得每块设备上都有较为均衡的类别样本,避免出现样本种类在卡上过于单一,从而使得 BN 的参数估计不准。

  • 渐进式均衡采样:为提升采样速度,该采样方式可以分两步进行。第一步先从类别中选择所需类别,第二步从对应类别中随机选择样本。

2. 分类器学习阶段

  • 重新学习分类器(cRT):重新随机初始化分类器或者继承特征表示学习阶段的分类器,重点在于保证学习率重置到起始大小并选择 cosine 学习率。

  • τ-归一化(tau-normalization):τ 的选取在验证集上进行,如果没有验证集可以从训练集模仿平衡验证集,可参考原论文附录 B.5。

  • 可学习参数放缩(LWS):学习率的选择与 cRT 一致,学习过程中要保证分类器参数固定不变,只学习放缩因子。

欢迎给我"在看"!

ICLR 2020 | 如何解决图像分类中的类别不均衡问题?不妨试试分开学习表征和分类器...相关推荐

  1. 【机器学习】什么是学习曲率?如何解决模型中方差和偏差问题?什么是迁移学习?什么是模型的精确率和召回率?

    系列文章目录 第十二章 Python 机器学习入门之构建机器学习系统 系列文章目录 文章目录 一.学习曲率 二.利用大型神经网络解决方差和偏差问题 三.机器学习开发的迭代循环 四.误差分析 五. 添加 ...

  2. 机器学习-特征工程中的样本不均衡处理方法

    如果你才开始学习机器学习,那么你使用过的数据集很大程度上都是简单.普通.规整的.其中一个原因就是,当你构建分类器时,样本类都是平衡的.在教学中,数据集通常是处理过的,这样才能够把注意力集中在特定算法或 ...

  3. 类别不均衡的分类问题

    文章目录 1. 欠采样 (1)NearMiss (2)Tomek Link (3)ENN(edited nearest neighbour) 2. 过采样 (1)SMOTE(Synthetic Min ...

  4. 阿里巴巴达摩院ICLR 2020论文:从群体动态中认知个体

    2020-01-21 16:17:16 人工智能顶会 ICLR 2020 将于 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行.据了解,本次大会共有 687 篇论文被收录,其中,阿里巴巴达摩院提交的 ...

  5. 【图像分类】 关于图像分类中类别不平衡那些事

    欢迎大家来到图像分类专栏,类别不平衡时是很常见的问题,本文介绍了类别不平衡图像分类算法的发展现状,供大家参考学习. 作者&编辑 | 郭冰洋 1 简介 小伙伴们在利用公共数据集动手搭建图像分类模 ...

  6. ICLR 2020丨微软亚洲研究院精选论文解读

    编者按:在全球疫情影响之下,原计划首次在非洲举行的国际 AI 学术会议 ICLR 2020 将成为第一届完全通过网络远程举行的 ICLR 会议.本文为大家介绍的4篇微软亚洲研究院精选论文分别研究了 B ...

  7. 76分钟训练BERT!谷歌深度学习的大批量优化研究被ICLR 2020接收

    点击上方"深度学习技术前沿",选择"星标"公众号 资源干货,第一时间送达 爱也BERT,恨也BERT!BERT是史上最强的NLP模型之一,但却也是工业界目前最耗 ...

  8. 组合求解器 + 深度学习 =?这篇ICLR 2020论文告诉你答案

    2020-01-26 20:17:46 选自TowadsDataScience 作者:Marin Vlastelica Pogančić 机器之心编译 参与:郭元晨.魔王 如何将组合求解器无缝融入深度 ...

  9. ICLR 2020 | “同步平均教学”框架为无监督学习提供更鲁棒的伪标签

    ©PaperWeekly · 作者|葛艺潇 学校|香港中文大学博士生 研究方向|图像检索.图像生成等 本文介绍一篇由港中文发表于 ICLR 2020 的论文 Mutual Mean-Teaching: ...

最新文章

  1. sql 减法_SQL学习笔记整理(持更)
  2. xgboost每次迭代取得最优值方法
  3. 建立文件服务器好处,文件服务器好处
  4. Apache Velocity官方指南-资源
  5. easyuefi只能在基于uefi启动的_云计算学习体系-1.1-计算机硬件基础扩展知识BIOS/UEFI/MBR/GPT...
  6. ES6知识点汇总(全)
  7. 拖动同级别元素显示辅助线,辅助对齐,吸附.
  8. linux清除硬盘,linux下清除硬盘的几种方法
  9. jQuery UI 拖动(Draggable) - 还原位置
  10. 经济学原理_宏观经济学,微观经济学合集 N.格里高利·曼昆PDF
  11. 一文足矣:Unity行为树
  12. 2013级C++第2周(春)项目——结构体应用大体验
  13. kubernetes部署Ingress-nginx
  14. python面向对象编程实例pdf_Python面向对象编程指南 ([美]StevenFLott洛特) 中文pdf扫描版[52MB]...
  15. 怎么用python算单价和总价_excel
  16. eclipse简单导入xtend项目
  17. 2021年五一赛A题-疫苗生产优化问题
  18. 无线路由器在信号无法连接网络连接服务器,能搜索到wifi信号连接不上是怎么回事?...
  19. Python——列表的常用操作
  20. 【硬见小百科】看完这篇,请不要再说不懂MOSFET!

热门文章

  1. Matlab与线性代数 -- 对数化间隔向量
  2. 【ACM】杭电OJ 2149
  3. 关于机器学习,不可不知的15个概念
  4. 深挖谷歌 DeepMind 和它背后的技术
  5. 五年循环期限已到,我们又要步入“AI寒冬”了吗?
  6. IBM重磅开源Power芯片指令集?国产芯迎来新机遇?
  7. 澎思科技成立新加坡研究院,将与多家机构合作研发自动驾驶等项目
  8. 在TensorFlow2.0发布前,帮你掌握TensorFlow的必备内容
  9. 癌症治疗新曙光:AI助力科学家更好地观察人类活体细胞
  10. 技术 | Bengio终结Theano不是偶然,其性能早在Keras支持的四大框架中垫底