CVPR 2019 Oral | 视觉识别新范式：开放世界下的大规模长尾识别

置顶我爱计算机视觉，更快获取CVML新技术

上周一篇发布于arXiv的CVPR 2019 Oral论文引起了广泛的关注，来自香港中文大学与加州大学伯克利分校的研究学者重新思考了真实世界的视觉识别类别分布的本质，提出了一种全新的视觉识别新范式：开放世界下的大规模长尾识别，并提出了应对此问题的算法，取得了很不错的效果，并开源了代码。本文是论文原作者对该工作的介绍，欢迎大家Follow。

论文作者信息：

Ziwei Liu*, Zhongqi Miao*, Xiaohang Zhan, Jiayun Wang, Boqing Gong, Stella X. Yu, Large-Scale Long-Tailed Recognition in an Open World, CVPR 2019 Oral. (CUHK & UC Berkeley)

感谢各位作者的优秀工作～

引言

我们所置身的视觉世界在本质上是长尾（long-tailed）且开放（open-ended）的：（1）我们日常生活中遇到的物体类别频率通常都符合长尾分布，包含一些经常出现的通用类别和更多较少出现的稀有类别。（2）在不断探索这个开放世界的过程中，我们还会一直遇到各种各样全新的视觉概念。

问题

尽管我们在真实自然场景下遇到的视觉数据分布是一个包含“头部类别”（head class，经常出现的通用类别），“尾部类别”（tail class，较少出现的稀有类别）和“开集类别”（open class，全新的视觉概念）的连续光谱，但是当今的计算机视觉领域仅仅关注于这个光谱中的一个方面，无法全面衡量一个视觉系统的真正性能。比如，大规模图像识别仅仅关注于“头部类别”，而小样本学习仅仅关注于“尾部类别”，如图1所示。

图1：在本文中，我们提出一个新的视觉识别范式——“开放长尾识别”（open long-tailed recognition, OLTR）。这个新的视觉识别范式融合了现有计算机视觉中的非平衡数据分类（imbalanced classification），小样本学习（few-shot learning）和开集识别等任务（open-set recognition）。

在本文中，我们提出一个新的视觉识别范式——“开放长尾识别”（open long-tailed recognition, OLTR）。这个视觉识别范式更符合我们在真实自然场景下遇到的数据分布。在此范式下，视觉识别系统需要面临以下挑战：（1）对于“尾部类别”的鲁棒性。因为“尾部类别”通常只包含1～20个训练样本，所以此时需要视觉系统能够迁移从“头部类别”学到的知识。（2）对于“开放类别”的敏感性。在训练观察不足的情况下，视觉系统需要有区分“尾部类别”和“开放类别”的能力。（3）对于所有类别的均衡处理。一个良好的视觉系统需要在所有类别上取得性能提升，而不能随着训练的进行而遗忘关于某一些类别的知识。

方法

为了解决这些挑战，我们提出一种融合了记忆模块的元学习网络——动态元嵌入（dynamic meta-embedding）。首先，我们通过卷积神经网络从输入图片中得到一个直接观察特征（direct feature）。然后，我们从学习得到的视觉记忆库（visual memory）中引入记忆联想特征（memory feature）。最后，我们通过比较元嵌入与视觉记忆之间的可达性（reachability calibration）来进行动态调整。

图2：动态元嵌入（dynamic meta-embedding）包含三个主要模块：直接观察特征（direct feature），记忆联想特征（memory feature）和可达性标定（reachability calibration）。

结果

我们提出的动态元嵌入（dynamic meta-embedding）方法在“头部类别”，“尾部类别”和“开集类别”都取得均衡的性能提升，如图3所示。

图3：我们提出的动态元嵌入（dynamic meta-embedding）在所有类别上都取得了均衡的性能提升。

总结

在本文中，我们提出了一个面向真实自然场景下的全新视觉识别范式——“开放长尾识别”（open long-tailed recognition, OLTR）。这个新的视觉识别范式融合了现有计算机视觉中的非平衡数据分类（imbalanced classification），小样本学习（few-shot learning）和开集识别等任务（open-set recognition）。我们相信OLTR可以更全面客观地衡量视觉识别系统的发展，并为计算机视觉走向真实自然场景打下坚实基础。论文、数据集和代码均已开源如下，希望能够帮助各位研究者在这个方向上继续探索和拓展。

论文：

https://arxiv.org/abs/1904.05160

项目主页：

https://liuziwei7.github.io/projects/LongTail.html（欢迎给大佬Star！）

数据集：

https://drive.google.com/open?id=1j7Nkfe6ZhzKFXePHdsseeeGI877Xu1yf

代码：

https://github.com/zhmiao/OpenLongTailRecognition-OLTR

论文、数据、代码下载：

在我爱计算机视觉公众号对话界面回复“OLTR“，即可收到百度云下载地址。

加群交流

关注计算机视觉与机器学习技术，欢迎加入52CV群，扫码添加52CV君拉你入群，

（请务必注明:52CV）

喜欢在QQ交流的童鞋，可以加52CV官方QQ群：702781905。

（不会时时在线，如果没能及时通过验证还请见谅）

长按关注我爱计算机视觉

麻烦给我一个“在看”！

CVPR 2019 Oral | 视觉识别新范式：开放世界下的大规模长尾识别相关推荐

新视觉任务！CVPR 2021 Oral | OWOD：面向开放世界的目标检测
转载自机器之心, 关注公众号"迈微AI研习社",获取更多前沿内容新视觉任务OWOD:Open World目标检测,可识别未知物体!更紧密地模拟现实世界!并提出一种解决方案:OR ...
CVPR 2021 Oral | OWOD：面向开放世界的目标检测 Towards Open World Object Detection
Towards Open World Object Detection 论文:https://arxiv.org/abs/2103.02603 代码:https://github.com/Joseph ...
CVPR 2019 Oral | 华科开源效果超群的人体姿态迁移算法
置顶我爱计算机视觉,更快获取CVML新技术今天跟大家重磅介绍华中科技大学刚刚开源的一款人体姿态迁移算法,其基于GAN思想构建,效果好到简直令人不可思议,论文<Progressive Pose ...
CVPR 2019 Oral | 京东目标检测算法ScratchDet的深入思考
本文为CVPR 2019 Oral ScratchDet算法的第一作者朱睿投稿,转载自作者公众号BringYourOwnVision,欢迎大家于文末右下角关注. 使用ImageNet预训练的网络模型能 ...
CVPR 2019 Oral 论文精选汇总，值得一看的 CV 论文都在这里（持续更新中）
CVPR 2019 即将于 6 月在美国长滩召开.今年有超过 5165 篇的大会论文投稿,最终录取 1299 篇,其中 Oral 论文近 300 篇.为了方便社区开发者和学术青年查找和阅读高价值论文, ...
亮风台新提端到端AR投影光学补偿算法 | CVPR 2019 Oral
[编者按]作为计算机视觉领域里的顶级会议,CVPR 2019 录取论文代表了计算机视觉领域在2019年最新的科技水平以及未来发展潮流.今年有超过 5165 篇大会论文投稿,最终录取 1299 篇.这些 ...
开放世界下的混合域适应 ——面向真实自然场景下的全新迁移学习范式
Ziwei Liu*, Zhongqi Miao*, Xingang Pan, Xiaohang Zhan, Dahua Lin, Stella X. Yu, Boqing Gong, Open Co ...
经典回顾 | 人脸照片秒变艺术肖像画：清华大学提出APDrawingGAN CVPR 2019 oral paper...
该项工作被CVPR 2019录取为oral paper.CVPR是计算机视觉和人工智能领域内的国际顶级会议,2019共收到投稿5160篇,录取1300篇,其中oral paper288篇,仅占全部投稿 ...
人脸照片秒变艺术肖像画：清华大学提出APDrawingGAN CVPR 2019 oral paper
该项工作被CVPR 2019录取为oral paper.CVPR是计算机视觉和人工智能领域内的国际顶级会议,2019共收到投稿5160篇,录取1300篇,其中oral paper288篇,仅占全部投稿 ...

CVPR 2019 Oral | 视觉识别新范式：开放世界下的大规模长尾识别

CVPR 2019 Oral | 视觉识别新范式：开放世界下的大规模长尾识别相关推荐

最新文章

热门文章