牛津大学VGG团队提出：改进遮挡检测的Tri-Layer插件

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者：Championchess | 已授权转载（源：知乎）编辑：CVer

https://zhuanlan.zhihu.com/p/575588904

点击进入—> CV 微信技术交流群

A Tri-Layer Plugin to Improve Occluded Detection

项目主页：

https://www.robots.ox.ac.uk/~vgg/research/tpod/

论文链接：https://arxiv.org/abs/2210.10046

代码仓库（刚刚开源）：

https://github.com/Championchess/Tri-Layer_Plugin_Occluded_Detection

关键词：遮挡物处理；分层表征；场景理解

1. 引言

在三维世界当中，物体之间的相互遮挡非常常见，这是由于场景中的各个物体在相机平面上投影时，距离相机更远的一部分场景消失在距离更近的不透明物体的后面。然而，如此常见的遮挡，却仍然是机器视觉系统在场景理解时的主要障碍。本文主要研究目标检测与实例分割任务当中的遮挡物问题。

当前仍缺乏大规模的、涉及多种常见物体种类的真实遮挡数据集，而本文提出了一套可扩大规模的方法来自动生成这样的数据集，定义了两大类不同的遮挡（被部分遮挡 v.s. 被割裂，partially occluded v.s. separated），并形成了衡量模型检测被遮挡物体性能的新的benchmark。

使用上述生成的数据集，本文尝试用三层式的分层表征（layered representation）去刻画物体之间的遮挡关系，从而让模型能够对遮挡有更好的理解，以提升其检测被遮挡物体的性能和在目标检测、实例分割任务中的总体表现。

2. 数据集生成

本文一共生成了四个数据集，包括用于测试的Separated COCO和Occluded COCO，以及用于训练的Occluder Mask和Occludee Mask。四个数据集已经全部公开，可以在项目主页上下载。

测试数据集：Separated COCO 和Occluded COCO 是自动生成的 COCO val 数据集的子集，收集了各种不同种类的被割裂和被部分遮挡的物体。通过这种方式，本文将遮挡定义为两大类：被割裂的和被部分遮挡的。其中被割裂指的是，目标物体掩码被遮挡物分成不同的区域；而被部分遮挡指的是目标物体被部分遮挡但掩码仍保持连接。这两种不同的遮挡，具有不同的难度等级。这两个可扩大规模的真实图像数据集对模型检测 80 个常见类别的被遮挡物体的能力设置了新的benchmark，已经在Paper With Code上发布。

训练数据集：Occluder Mask和Occludee Mask是用于训练“三层”插件的自动生成的训练数据集，对于每一个COCO train里面的物体，收集了其遮挡物（目标物体前面挡住它的物体）和被遮挡者（目标物体后面被它挡住的物体）。

生成方法：自动生成数据集的方法是不完整掩码补全（amodal completion），加以深度估计(depth estimation)来验证不完整掩码补全的推断结果。一般认为，如果物体A被物体B遮挡，那么A不完整掩码补全的结果，应当与B的掩码重合，并且，通常被遮挡者（occludee）会比遮挡者（occluder）有更深的深度。

如上图所示，左边是原始图像及其深度估计图，而右边则展示了两个物体（伞和女孩）的不完整掩码补全图，以及深度估计图。在这种情况下，可以得出结论，女孩遮挡了伞，因为：（i）伞的补全掩码与女孩原来的掩码重叠，但反之则没有重叠；(ii) 平均深度图表明伞的平均深度大于女孩的平均深度。所以，可以预测“伞被女孩所遮挡”。一旦得到了遮挡关系，就很容易为测试数据集收集被遮挡的物体（Occluded COCO & Separated COCO），并为训练中的每个物体收集遮挡物（Occluder Mask）与被遮挡者（Occludee Mask）。

3. 插件架构

4. 实验结果

与不同架构上的state-of-the-art进行比较。该插件提高了所有架构的性能，即使是最强的检测器（Swin-B + Cascade Mask R-CNN）。* 仅应用了三层建模，因为 Cascade Mask R-CNN 已经使用了多次迭代。

COCO val 上的定性结果。可以看出，基线模型在具有挑战性的遮挡情况下往往会失败，要么过度分割（over-segmentation）被部分遮挡的物体（第 1 行），要么对被割裂的（第 2 行）物体分割不足（under-segmentation）。本文提出的插件在很大程度上改进了对被遮挡物体的检测，例如，消除泰迪熊的歧义（第 1 行），并推断出被狗严重遮挡而割裂的椅子（第 2 行）。有关更多示例，请参见附录。

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer222，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群▲扫码或加微信号: CVer222，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！▲扫码进群
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看