DisARM：用于3D目标检测的位移感知关联模块（CVPR2022）

作者丨花椒壳壳@知乎

来源丨https://zhuanlan.zhihu.com/p/490441536

编辑丨3D视觉工坊

论文标题：DisARM: Displacement Aware Relation Module for 3D Detection

作者单位：国防科技大学

论文：https://arxiv.org/abs/2203.00871

代码：暂无

针对问题：目标不完整，包含噪声的时候是难以检测的。

解决方法：上下文信息的融合是三维理解的关键，可以提高目标检测性能。因此论文的重点就是如何利用上下文信息来提高3D目标检测的性能。同时为了避免冗余的关系特征对训练的误导和提取重要的信息，从两个方面选择和收集最关键的上下文。

基本步骤：

（1）通过一个3D backbone（VoteNet）生成一定数量的proposals （文中有的地方也成为anchor），此时proposals 较多

（2）对proposals 进行采样，这里使用了一种基于objectness分数的采用方式，objectness定义的方式可以往后看。这一步采样了一些更具代表性的proposals 。

（3）这里将上一步获得的proposals 成为Anchor，这里开始考虑引入上下文信息，计算不同的Anchor之间的权重，然后融合不同anchor之间的特征，融合的权重有两个部分组成，包括基于空间距离和特征距离的权重。这里获得了新的融合了上下文信息的Anchor特征。

（4）扔进检测头里面获得检测结果。

3. DisARM module

3.1. Overview

本文提出了一种便携式网络模块，即DisARM，以有效地利用3D上下文，它可以很容易地与现有的目标检测方法组合在一起，以提高性能。

在我们的案例中，我们认为在室内场景中检测有用的上下文信息需要满足两个条件:它可以反映物体之间的内在关系，并隐含地代表整个场景的布局。因此，提出了一种双向网络框架来有效地提取上下文信息。如下图2所示，DisARM的前一个模块对每个潜在目标提议学习到的深度特征之间的关系锚进行采样，后一个模块对每个提议在锚之间的相对位移进行编码场景布局。更具体地说，前者的核心是定位最具代表性和信息量最大的关系特征构造proposals，我们将这些选定的建议表示为锚点，后面的模块通过分析空间位移和特征位移来计算每个锚的权重，实验表明，本文提出的框架能够有效地提取用于三维目标检测的上下文，并且与其他现有框架相比，该框架的性能有显著提高。

3.2. Relation anchors

Initial proposals 采用VoteNet作为Backbone，产生proposals作为DisARM模块的输入。也可以使用其他的backbones。每个proposals都用它的中心点表示。该特征编码器网络具有多层感知功能(MLP)层和具有跳过连接的特征传播层。输出特征f(pi)是一个F维向量，它是对支持proposals pi的每一票所学习到的深度特征的集合。

Proposal objectness 如图3所示，P的整个集合在某种程度上是冗余的，并且包含大量不完整和无效的proposals ，考虑场景中所有可能的关系来构建上下文特征是无效的，可能会引入过多的噪声信息。因此，设计有效利用这些关系的机制的关键是找到最具代表性和信息量最大的关系。图3只展示了Backbone给出的少数proposals 是完整的。我们引入objectness的概念来过滤不完整和有噪声的信息。

给定一个proposals pi及其对应的特征f(pi)，我们将其objectness表示为o(pi)。计算objectness的网络模块是一个具有全连接层、sigmoid激活和批量归一化的简单MPL网络。因为大多数数据集只将标注了场景中的有效对象的真值，我们将objectness损失定义如下：

其中，χPgt(pi)为指示函数。如图3所示，o(pi)可以表示给定提案的完整性，这对于定位提案锚点至关重要。

Anchor sampling 先选择一个上一步中objectness最高的proposals ，然后使用FPS采用，选够M个，文中M=15。

这里FPS计算的是proposals 之间的特征距离，直观理解可能采样出来的是最具代表性又各不相同的proposals 。

3.3. Displacement based context feature fusion

Spatial displacement 该proposal anchors可以有效地描述整个输入场景的上下文。然而，他们对不同目标的检测贡献不应该是相等的，如下图4所示：

空间布局模式可以有效地描述室内场景中具有代表性的子结构。因此，我们认为检测的上下文信息也应该根据布局感知的空间位移分配权重。

我们认为，对于不同的空间布局移，一个物体对不同的建议锚有不同的感知。例如，橱柜通常放在床的旁边，椅子通常放在书桌或桌子的前面。这些模式可以通过建议锚对之间的空间布局来反映。因此，我们将提案周围不同位移的重要性视为位移权重，从而鼓励网络给予不同程度的关注。具体来说，给定位置c(pi)的目标提案pi和位置c(pj)的提案锚点pj，

他们的权重就是上面的计算方法，其实就是距离过一个MLP。

Feature displacement 与空间位移类似，在度量提议锚对的重要性时，也要考虑目标提议锚对pi和提议锚对pj给出的特征位移f(pi)−f(pj)。这里的重点是，布局模式有时是语义感知的。例如，浴缸的存在总是表示场景中的脸盆。这个特征可以通过预先编码的特征f(pi)和f(pj)反映出来，因为具有相似语义标签的对象在特征空间上也很接近，反之亦然。因此，给定目标建议pi，pj，它们之间的特征位移权重表示为dfeature(pi， pj) = σ(f(pi)−f(pj))，其中σ是MLP网络给出的感知函数。

Aggregated weights 我们将空间位移权值dspatial(pi， pj)和特征位移权重dfeature(pi）concatenate起来，将感知到的信息融合在一起，然后将它们放入如图2所示的MLP网络中。我们可以得到如下的最终汇总权重

其中φ是由多个MLP层启用的感知功能。为了进一步归一化Panchor中pi与所有锚点之间的权值，最后采用softmax函数。

最后，我们将用于检测的目标建议pi的融合关系特征ri表述如下：

但很明显，训练f(·)、w(·)与寻找最优P anchor高度相关，是一个具有挑战性的优化问题，我们提出了一个3阶段框架来寻找最优的ri，在热身阶段，将w(pi,pj)设为非活动状态，提出的模块专注于定位最优P anchor和训练f(pi)。这个设计的重点是w(pi， pj)只有在网络已经能够提取出一些合理的提案锚点的情况下才具有功能性,下一阶段，我们冻结Panchor和f(pi)来优化w(pi)pj)。本设计将充分利用从现场提取的布局信息来衡量锚的重要性。在这两个阶段之后，w(pj， pj)， Panchor和f(pi)一起进行微调，最终达到最优。

4. Experiments

略

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近5000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

DisARM：用于3D目标检测的位移感知关联模块（CVPR2022）相关推荐

3d目标检测_CVPR 2020 |基用于3D目标检测的层级图网络
论文:A Hierarchical Graph Network for 3D Object Detection on Point Clouds论文地址:https://www.aminer.cn/pu ...
DETR3D：将DETR用于3D目标检测任务
作者 | 慕弋云子 @知乎(已授权) 原文 | https://zhuanlan.zhihu.com/p/430198800 编辑 | 南山本文只用作学术讨论.转载需联系原作者. 前几天被导师扔了 ...
RandomRooms：用于3D目标检测的无监督预训练方法（ICCV2021）
论文标题:RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Obje ...
【DETR用于3D目标检测】DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries
DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries 论文简介: 论文贡献: 具体实现: 总体框架特征学习 ...
BEV蒸馏来了！BEVDistill：用于多目3D目标检测的跨模态BEV蒸馏
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取点击进入→自动驾驶之心[3D目标检测]技术交流群后台回复[3D检测综述]获取最新基于点云/BEV/图像的3D ...
地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达这是一篇由地平线机器人发表在CVPR2020 Workshop的文章,主要是将Anchor Free的 ...
谷歌AI良心开源：一部手机就能完成3D目标检测，还是实时的那种
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 来源:量子位@微信公众号导读: 昨天,谷歌开源了能在移动设备上实时计算面向对象的 ...
史上最全综述：3D目标检测算法汇总！
来源:自动驾驶之心本文约16000字,建议阅读10+分钟本文将演示如何通过阈值调优来提高模型的性能.本文的结构安排如下:首先,第2节中介绍了3D目标检测问题的定义.数据集和评价指标.然后,我们回顾 ...
3D目标检测学习笔记
博主初学3D目标检测,此前没有相关学习背景,小白一枚-现阶段的学习重点是点云相关的3D检测. 本文是阅读文章:3D Object Detection for Autonomous Driving: A ...

DisARM：用于3D目标检测的位移感知关联模块（CVPR2022）

DisARM：用于3D目标检测的位移感知关联模块（CVPR2022）相关推荐

最新文章

热门文章