导读  

2020年9月17日,商汤泰坦公开课第013期、ECCV 2020论文解读第五期的线上课程开播,围绕 ECCV LVIS Challenge 2020 冠军项目和 ECCV 2020 Spotlight 最新论文成果,由商汤科技和商汤联合实验室的两位同学对 LVIS 挑战赛中两届冠军方案进行了简要解读,介绍了近年来长尾识别任务的发展和几篇代表工作,并分享了另一篇发表于 ECCV 2020 的长尾分布多标签图像分类工作,专注于解决长尾分布数据集下的分割、分类等问题。小助手已为大家做了图文整理,快来一睹为快吧~

Part 1  ECCV LVIS Challenge 冠军项目分享

・LVIS 数据集以及背景介绍

・LVIS 竞赛两届冠军方案与经验

Part 2  ECCV 2020 Spotlight 论文分享

・长尾识别任务发展

・论文解读

Part 3  Q&A

课程PPT获取方式见文末提示~

Part 1 ECCV LVIS Challenge 冠军项目分享

1. LVIS挑战赛背景介绍

LVIS 是用于长尾识别的实例分割数据集。它使用了和 COCO 完全相同的图片,但使用了不同的标注策略,以自然的方式发现类别,这导致类别的数量很多,且呈现长尾分布。其使用了 Sparse Annotation 的方法,对每个类别都有 positive & negative image set ,这导致了一些 miss annotation 的问题,如下图所示。

此外,LVIS 的长尾分布导致 frequent 和 rare 的数据差别很大,使得识别出现明显的倾向。LVIS 的标注也比 COCO 更加精细,这给了我们机会去评估更高质量的 mask。

总结来讲,LVIS有以下四个特点:

・Large scale

・Long tail distribution

・Federated dataset

・High quality mask Annotations

2. LVIS冠军工作

上一届比赛中的工作重心放在了长尾识别上,我们提出了新的损失函数 Equalization Loss:

通过实验验证我们发现,通过简单地 block 这些梯度,rare 类别和 common 类别都能得到很大的提升,而对 frequent 基本没有影响。

这项工作也在额外的数据集上做了一些探索,例如用 COCO 的 pre-training 得到了较大的提升,以及将 COCO 的标注用作 ignore 的机制,在 open image 上也找到了与LVIS相同的类别一起训练。

总结起来,我们使用了数据探索,以及 EQL,Repeat Factor Sampling,结果得到了很大的提升,最终 rare 和 common 的精度达到了最高。

LVIS Challenge 2019 Results

今年的 LVIS Challenge 2020 发布了1.0的版本,训练集和 validation 更大,训练结果更加稳定,也规定了新的规则。LVIS Challenge 2020 的工作可以总结为 Two-stage Training Pipeline 如下图:

其中由于新的比赛规则不允许使用有标注的数据,我们引入了 Self-Training。我们在 LVIS 和 Open image 预测了伪标签,对于 LVIS 上的伪标签,如果和某个训练的 negative proposal 有足够大的 overlap,则 ignore 掉这些 proposal 的 loss,以此来缓解 miss annotation 的问题;对于 open images 上的伪标签,我们在每个 epoch 随机 sample 一些和 LVIS 的训练数据放在一起训练。

在 Fine-tuning stage 中,首先需要解决 balanced classifier 的问题,在此使用了 balanced group softmax 的方法,从而进一步提高 bbox head 对于 tail 类别的性能

本工作在高质量的 mask 上也做了一些探索。主要是发现存在一些类别, bbox 和 mask 的 AP 存在巨大的 gap ,其原因是存在一些 bbox 很大,但是 mask 很小的类别。这种 mask/bbox ratio 小的问题,使得在提取 feature 上如果使用 bbox 的 scale 来决定 FPN 的 level,会使得过于 coarse 的 feature 无法预测精细的 mask,因此在提取 feature 过程了综合考虑了 bbox 的 scale 和 mask/bbox 的 ratio 来决定 FPN 的 level,以此获得更加合适的 feature。另外,为了克服 mask/bbox ratio 小带来的训练过程中存在的 foreground/background 不平衡的问题,使用了一个 Dice loss 和 BCE Loss 结合的 Balanced Mask Loss。

本次工作的结果如下图,依然达到了最高的 rare 和 common :

3. 问题与展望

挑战:

・部分类别不适合用 box 表示/特征不明显,难以表示

・inconsistent annotation:有一些类别如细长的栏杆,box 很大,但 mask 很难预测和表示

展望:

・Large Scale Object Detection:大规模类别的物体检测和分类

・Semi-supervised Learning & Unsupervised Learning:对于长尾识别,是否可以引入半监督/无监督学习方法

・Better representation:可以尝试学习更好的特征,来训练 rare 和 common 类别更容易

・High quality mask prediction:LVIS 精细的标注可以预测更好的 Mask

Part 2 ECCV 2020 Spotlight论文分享

1. 长尾分布识别前沿进展回顾

Long tail 是一种普遍存在的现象,深度学习依赖于数据,但真实环境中采集到的数据如果未经过人工调平衡,会在数量上呈现长尾分布的形态,对模型性能有负面影响。因此要尝试解决 long tail 的数据不平衡问题。

关于长尾识别的定义,这篇 CVPR 2019 的 Oral 工作是这样来看待这个问题的:从头部到中部的过渡是传统的 Imbalanced Classification 问题;后面很多尾部类别仅有极少量个训练样本,是这几年受到广泛关注的 Few-shot Learning 问题;最后对于训练集中没有覆盖到的类别又构成了一个 Open-set 的问题。为了方便不同的工作进行衡量和比较,这篇文章建立了三个 long-tailed 的数据集,给出了类别划分方法,以及这个任务的 benchmark,之后的很多工作都在沿用它提出的数据集和设定。

常见的解决方法:

・Re-sampling

最常见也是很经典的一种思路就是重采样,比如头部类别的欠采样、尾部类别的过采样、以及类别均衡采样法,但过采样也可能会导致尾部类别的过拟合,欠采样也可能漏掉重要样本等等。在最近的工作中它常常作为整个 pipeline 的一个组件使用。

・Cost-sensitive learning

代价敏感学习是对损失函数做文章,比如早期用样本频率的倒数或者倒数的开方给损失函数做类别层面的加权、近年来的 focal loss 调整了损失函数的下降趋势,给困难样本保留相对更大的梯度、或者计算 efficient number 等。

● Transfer learning

Transfer learning 也是一种常见的思路,考虑到既然在头部有足够多的样本,可以把 knowledge 从 head 向 tail 传递,从而弥补尾部样本数量的不足。

・Decoupling representation and classifier learning

均匀采样能够学到更好的模型表征,而重采样则对分类器的学习有帮助,所以关键是要将基于不同的采样方法的这两个结构的学习解耦开,可以采用训练方式上的 2-stage training,或者模型结构上的 2-branch training,来实现这一目的。

2. ECCV 2020 Spotlight 论文解读

采集自真实场景的图片常常具有丰富的语义信息,多个物体共存是一种普遍情形。因此长尾分布下的多标签分类任务是这篇文章主要关注的问题。从单标签向多标签的转换,有几个自然的思路:对前者有效的方法对后者来说是否仍适用?两种设定在训练时的主要区别有哪些,又有怎样的影响呢?

・采样难解耦

在这个问题中,我们注意到重采样 (re-sampling)是一个常见而有效的策略,在几个最新工作[1,2,3,4]中都作为关键组件出现,其中[3,4]提出重采样法对分类器学习有显著促进作用。但这种方法并不能顺滑地迁移到多标签情景中,因为标签的共存性 (co-occurrence)将导致不同类别在采样时无法解耦。举个例子,如果数据集中有限的几张牙刷图片样本都同时包含刷牙的人在其中,那么在对“牙刷”这一尾部类别进行重采样时,对“人”这一头部类别的采样也会只多不少。同时,注意到“刷牙的人”此时就会比“单独出现的人”具有显著更高的采样频率,为头部类别额外引入类内不均衡的问题。

假设我们希望所有类别都以相同的概率被采样到,那么在不考虑标签共存时,包含类别的样本被采样到的概率可记作 ;但该样本还可能含有其它正标签,每一个正标签都对它实际的采样概率有所贡献,后者可以计算出并记为 。我们通过计算上述二者的比值并以其作为加权系数加入训练,来弥补期待与实际采样概率之间的差距。特别的,我们还设计了一个平滑函数,将权重系数映射到一个合理范围内。权重系数的计算过程如下所示。

・分类器出走

Cross-Entropy Loss (CE Loss) 是单标签分类中常见的损失函数,其中 softmax 的计算强调分类器需要输出唯一最大预测值,同时正负类别的预测值在损失函数中存在相互影响;而多标签分类则多使用 Binary Cross-Entropy Loss (BCE Loss) ,将任务拆解为一系列相互独立的二分类问题,并以 sigmoid 计算每一类别的输出预测值。

这个问题是负样本的过度抑制 (over-suppression of negative labels),它的解决思路是,不要对负样本持续施加过重的惩罚,而是点到为止。我们只需要对分类器的负类输出进行一个简单的线性变换就能够实现上述功能,不要忘记加上正则化系数约束梯度值的范围。变换后函数请见后文的整体公式,它对负类输出的梯度与 CE 和 BCE 一同对比如下图所示。

上面两个方法可以自然地融合为一个损失函数,并进行端到端的训练,下图可视化了它的构造过程。

整体计算框架:(1) 首先应用重采样法促进尾部类别分类器的学习,同时也对头部类别引入了一定的类内采样不均衡性;(2) 接着,利用重加权的方法对无法解耦的采样在权重上予以平衡;(3)最后,正则化方法缓解了对负类别输出的过度抑制。如下图所示,特征向量 (feature vector) 空间各类别预测值的分布得到了递进式的平衡,这也是分布平衡损失函数 (Distribution-Balanced Loss) 命名时的想法。

我们在人工创建的 Pascal VOC 和 MS COCO 的长尾版本上进行了实验,该方法取得了优异的性能,超过了几种 SOTA 方法。

Part 3 Q&A

Q: 如何理解Group Softmax?

Group Softmax 是将所有类别分成几个更小的 group,每个 group 内部分别做 Softmax。其核心思想是把 instance 数量相近的放到一起,这样在训练时竞争会比较 balance ,预测时 norm 靠近,得分就没有明显的倾向。

Q: 如何理解长尾分布中的损失函数?

EQL 有两个函数,E函数是 instance level 的函数,full ground 时输出0,w=1,函数退化为普通的 sigmoid 函数;T函数中一个类别的 frequency 低于某个阈值,T函数输出1,导致w=0,这一项无法产生影响,使得正样本无法对尾部产生影响。

公众号后台回复“LVIS”,即可获取相应的课程资料哦!

END

备注:分割

图像分割交流群

扫码备注研究方向拉你入群。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

LVIS挑战赛冠军总结 | 视觉任务中长尾分布问题研究进展与挑战相关推荐

  1. 文章推荐 | 城市规划中城市信息学的研究进展

    来源:北京城市实验室BCL 随着计算机技术的飞速发展,城市信息学作为城市规划领域的一门新兴学科,逐渐引起学术界的关注.城市信息学的兴起给城市规划带来了新的压力,但它也提供了新的城市分析视角.在此背景下 ...

  2. 水声被动定位中的机器学习方法研究进展综述

    水声被动定位中的机器学习方法研究进展综述 人工智能技术与咨询 来源:<信号处理>,作者牛海强等 摘 要: 本文对基于机器学习方法的水声被动定位研究进展进行了综述.所涉及的机器学习方法有多层 ...

  3. EMNLP 2021 | 多标签文本分类中长尾分布的平衡策略

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者 | 黄毅 作者简介:黄毅,本文一作,目前为罗氏集团的数据科学家 ...

  4. DNA/RNA基序挖掘中的深度学习研究进展(A survey on deep learning in DNA/RNA motif mining)

    摘要 DNA/RNA基序挖掘是基因功能研究的基础.DNA/RNA基序挖掘在识别DNA或RNA蛋白结合位点方面起着极其重要的作用,有助于理解基因调控和管理的机制.在过去的几十年里,研究人员一直致力于设计 ...

  5. EMNLP 2021中预训练模型最新研究进展

    © 作者|周昆 机构|中国人民大学信息学院 研究方向|序列表示学习与应用 导读 EMNLP 2021是人工智能领域自然语言处理( Natural Language Processing,NLP)三大顶 ...

  6. Keeping up with recently research: 在ACM和IEEE中订阅最新的研究进展

    目前ACM和IEEE都提供了邮箱和RSS两种订阅功能,我们在追踪某个期刊的时候可以使用订阅功能,每当期刊出了新文章我们邮箱就会收到通知. ACM 比如我们想订阅ACM Computing Survey ...

  7. ECCV 2022|计算机视觉中的长尾分布问题还值得做吗?

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复[ECCV2022]获取ECCV2022所有自动驾驶方向论文! 后台 ...

  8. 前沿科技 | 中科院科学家在视觉学习行为的神经机制研究中取得进展

    来源:中国科学院 6月3日,<自然-通讯>(Nature Communications)期刊在线发表了题为<眶额叶皮层通过调节初级视皮层的反应增益促进视觉偶联学习>的研究论文, ...

  9. ICML 2022 | 基于有偏不对称对比学习的长尾分布外检测

    ©作者 | 小舟 单位 | 电子科技大学 研究方向 | 计算机视觉 本文提出了一个 OOD Detection 的新方法,思想上没有什么创新,结合了现有 OOD 方法的思路,同时引入有监督对比学习的思 ...

最新文章

  1. python verilog顶层连线,如何在Verilog中连接两个模块?
  2. 2021斯坦福图机器学习课程CS224W开课了,Jure Leskovec主讲
  3. YBTOJ:比赛得分(期望)
  4. 变电站计算机监控系统相关技术,变电站计算机监控系统的研究
  5. stm32f103不同系列之间的代码移植
  6. POJ 3764 DFS+trie树
  7. 教师必备,4款超实用的微信小程序分享~
  8. 有效沟通沟通的9大技巧
  9. 英语语法特殊句型刷题总结
  10. 统信UOS应用商店十月活动
  11. 宅男也可变形男-我是如何在11个月零27天减掉80斤的
  12. el-tree 关键字搜索
  13. cocos creator2.3.5休闲游戏英文版(连连看)源码H5+安卓+IOS三端源码
  14. 深信服2019秋招技服岗面试总结
  15. 乱七八糟代码合集٩(๑◡๑)۶
  16. Ubuntu18 安装SciDavis
  17. 用好商品说话、为消费者服务、为全行业赋能:值得买科技618战报发布
  18. python-selenium使用 chrome chromedrive版本问题
  19. 一个简单的字符串,为什么 Redis 要设计的如此特别
  20. 非暴力沟通--日常沟通的技巧与实践

热门文章

  1. 【OpenCV】SIFT原理与源码分析
  2. 计算机桌面文件夹排序,电脑桌面文件整理前后对照
  3. 一个简单的PHP购物车系统
  4. 计算机游戏无法运行程序包,一体电脑显示或声音不正常,某些软件或游戏无法正常运行怎么办...
  5. php替换文本域中的换行符,文本域中换行符的替换示例
  6. mysql远程访问显示警告信息_开启mysql远程访问过程中所遇常见问题的解决办法...
  7. jquery页面跳转带cookie_搭建谷歌浏览器无头模式抓取页面服务,laravelgt;phpgt;pythongt;docker...
  8. plsql修改表名称_Excel教程:常见的工作表技巧(内有冻结拆分窗格)Excel神技巧...
  9. python从网址爬图片协程_python 用 gevent 协程抓取海量网页
  10. python爬虫更改ip_Python小说爬虫,有目录,有文字极简处理,还有IP解锁方式