来源丨新智元

编辑丨极市平台

导读

深度学习依赖于大量数据,但对于长尾类别来说,数据样本较为稀缺。为此,深度长尾学习从大量遵循长尾类分布的图像中训练出性能良好的深度模型,得到大量研究。来自NUS的颜水成等学者发布了首篇《深度长尾学习》综述论文,值得关注!

论文链接:https://arxiv.org/abs/2110.04596

摘要

深度长尾学习是视觉识别中最具挑战性的问题之一,其目标是从大量遵循长尾类分布的图像中训练出性能良好的深度模型。在过去的十年中,深度学习已经成为一种学习高质量图像表示的强大的识别模型,并导致了一般视觉识别的显著突破。

然而,长尾类不平衡是实际视觉识别任务中普遍存在的问题,这种不平衡往往限制了基于深度网络的识别模型在实际应用中的实用性,因为长尾类容易偏向主导类,在尾类上的表现较差。

为了解决这一问题,近年来人们进行了大量的研究,在深度长尾学习领域取得了可喜的进展。鉴于该领域的快速发展,本文对深度长尾学习的最新进展进行了综述。

具体地说,我们将已有的深度长尾学习研究分为三类(即类重平衡、信息增强和模块改进),并根据这三类对这些方法进行了详细的回顾。

之后,我们通过一种新提出的评价指标,即相对准确性,来评估它们在多大程度上解决了阶级失衡问题,从而对几种最先进的方法进行了实证分析。

最后,我们强调了深度长尾学习的重要应用,并确定了未来研究的几个有前景的方向。

引言

深度学习允许由多个处理层组成的计算模型学习具有多级抽象的数据表示,并在计算机视觉任务方面取得了令人难以置信的进展。

深度学习的关键因素是大规模数据集的可用性、GPU的出现和深度网络架构[9]的进步。深度神经网络具有很强的学习高质量数据表示的能力,在图像分类、目标检测和语义分割等视觉识别任务中取得了巨大的成功。

在实际应用中,训练样本通常表现为长尾类分布,其中一小部分类有大量的样本点,而其他类只与少数样本相关。然而,这种训练样本数量的类不平衡,使得基于深度网络的识别模型的训练非常具有挑战性。如图1所示,训练后的模型容易偏向训练数据量大的头类,导致模型在数据量有限的尾类上表现不佳。

因此,经验风险最小化常用实践训练的深度模型无法处理长尾类不平衡的现实应用,如人脸识别,物种分类,医学图像诊断,城市场景理解,无人机检测等。

针对长尾类的不平衡,近年来开展了大量的深度长尾学习研究。尽管这一领域发展迅速,但仍没有系统的研究来回顾和讨论现有的进展。

为了填补这一空白,我们旨在对2021年年中之前进行的近期长尾学习研究进行全面综述。

如图2(下图)所示,我们根据现有方法的主要技术贡献将其分为三类,即类重平衡、信息增强和模块改进; 这些类别可以进一步分为九个子类别:重采样、代价敏感学习、logit调整、迁移学习、数据增强、表示学习、分类器设计、解耦训练和集成学习。

根据这一分类,我们对现有的方法进行了全面的回顾,并对几种最先进的方法进行了实证分析,使用一个新的评价指标,即相对准确性来评价它们处理类不平衡的能力。我们通过介绍几个真实的深度长尾学习的应用场景,并确定了几个有前景的研究方向,可以由社区在未来探索。

我们总结了这项综述的主要贡献如下。

• 据我们所知,这是第一次对深度长尾学习的全面调研,将为研究人员和社区提供对深度神经网络的长尾视觉学习的更好理解。 

• 我们提供了对高级长尾学习研究的深入回顾,并通过一个新的相对准确性度量来评估它们在多大程度上处理长尾类别失衡,以实证研究最先进的方法。 

• 我们为未来的研究确定了四个潜在的方法创新方向以及八个新的深度长尾学习任务设置。

第二节介绍了问题的定义,并介绍了广泛使用的数据集、度量和网络骨架。第3节全面回顾了先进的长尾学习方法,第4节基于一个新的评价指标实证分析了几种最先进的方法。第5节给出了深度长尾学习的应用场景,第6节给出了未来的研究方向。我们在第7节结束调研。

本文仅做学术分享,如有侵权,请联系删文。

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~

172篇文献:NUS颜水成等发布首篇《深度长尾学习》综述相关推荐

  1. 去除冗余token的DETR效果怎么样?NUS颜水成团队提出端到端的PnP-DETR结构

    ​作者丨happy 编辑丨极市平台 本文原创首发于极市平台,转载请获得授权并标明出处. 原文链接:https://arXiv.org/abs/2109.10852 语言模型与目标检测这种八竿子打不着的 ...

  2. 依图颜水成:AI芯片设计要深度融合算法,才能实现极致性能

    数据.算法和算力被称为"AI三要素".今天,面对超大数据量.算法策略失效.算力不足等新问题,过去的方法已经不再适用.依图科技CTO.IEEE Fellow颜水成博士以AI学者和产业 ...

  3. 刚刚,2020 ACM Fellow放榜!陈怡然、颜水成、周昆等12名华人当选

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 转载自:新智元 [导读]纽约时间1月13日,ACM公布了2020年当选的95名ACM Fell ...

  4. 2020 ACM Fellow放榜!陈怡然、颜水成、周昆等12名华人当选

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元,ACM AI博士笔记系列推荐 周志华<机器学习 ...

  5. 加盟依图科技后,颜水成首篇顶会论文提出“高效多人体姿态检测SPM”

    唐木 发自 天龙寺  量子位 出品 | 公众号 QbitAI 颜水成团队研究实力依然强劲. 从360到依图,颜水成依然保持着高质量的学术输出. 最近提出的单阶段高效人体姿态检测模型SPM就是最好的例证 ...

  6. 正视长尾挑战!颜水成、冯佳时团队发布首篇《深度长尾学习》综述

    ©作者 | 机器之心编辑部 来源 | 机器之心 长尾学习是推动神经网络模型落地的重要范式.在这篇综述中,来自新加坡国立大学和 SEA AI Lab 的学者们首次系统地阐述了深度长尾学习及其方法和应用, ...

  7. 颜水成团队开源VOLO:无需额外数据,首次在ImageNet上达到87.1%的精度

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 自打Transformer横空出世以来,它在CV领域就取得了很多不俗的效果. 比如采用纯Transformer架构的ViT在很多图像分类任务 ...

  8. AI公开课:19.04.10颜水成—360副总裁《人工智能:观察与实践》课堂笔记以及个人感悟—191017再次更新

    AI公开课:19.04.10颜水成-360副总裁<人工智能:观察与实践>课堂笔记以及个人感悟 导读       颜水成,新加坡国立大学副教授.360集团副总裁.人工智能研究院院长. 颜水成 ...

  9. 实践者颜水成:在学术界「恋爱」 在工业界「结婚」

    编者按:2018年12月28日,由网易智能.清华大学数据科学研究院和24家评审机构共同评出的「2018中国AI英雄风云榜」年度人物榜单揭晓,10位人工智能领域的从业者获奖.其中,新加坡国立大学副教授. ...

  10. 原360首席科学家颜水成正式加入依图科技,任首席技术官

    7 月 29 日,依图科技宣布原 360 首席科学家颜水成正式加入,担任依图科技首席技术官(CTO)一职. 依图方面称,颜水成加入后将带领团队进一步夯实依图在人工智能基础理论和原创算法方面的技术优势, ...

最新文章

  1. 网闸与防火墙的区别是什么
  2. WCF服务支持HTTP(get,post)方式请求例子
  3. 第一题:Big Countries
  4. AspNetCore中使用Ocelot之 IdentityServer4
  5. asoc linux设备驱动_Linux驱动分析之I2C设备
  6. 云栖专辑| 阿里毕玄:程序员的成长路线
  7. php const用法详解
  8. windows server 2008安装wampserver后几种小问题个人总结
  9. B00005 函数atoi()(去空格,带符号)
  10. KVM虚拟化相关知识简介(脑补)
  11. 发那科机器人注油_安川机器人加油保养流程
  12. DCMTK开发笔记(一):我的第一个DCMTK demo
  13. ai关键词整理(分享)
  14. 联想E430使用移动硬盘做系统启动
  15. 韩国程序员面试考什么?
  16. letcode第319场周赛
  17. Mentor-dft 学习笔记 day44-Low-Power Design Test
  18. 基础练习21- Sine之舞(python答案)
  19. 无聊就来整活—Python自制小鸟管道游戏【含完整代码】
  20. centos阿里镜像下载

热门文章

  1. 分布式唯一id生成器的想法
  2. chrome浏览器再次打开黑屏一段时间
  3. 很好的c++和Python混合编程文章
  4. nginx js、css多个请求合并为一个请求(concat模块)
  5. 再探结构体字节对齐问题
  6. Java 代码混淆器
  7. C# 自己绘制报表,GDI你会用吗?
  8. JavaScript之爆肝汇总【万字长文❤值得收藏】
  9. TCP异常终止(RESET报文)
  10. 美国数学家维纳智力早熟,11岁就上了大学,他曾在1935-1936年 应邀参加中国清华大学讲学,一次他参加某个重要会议,年轻的脸孔 引人注意,于是有人询问他的年龄,他回答说“我年龄的立方是个4位数