参考代码:暂无

1. 概述

介绍:FCOS使用2D图像作为感知输入,在经过trick调整和优化之后也能在3D目标检测任务中获得不错的效果,也就说明了只使用2D图像对于3D目标也是具备感知,这一点是这篇文章便是以此关键点出发构造BEV检测算法。在以往的BEV目标检测算法中,只会在BEV特征上使用检测头去检测场景中的目标,之后通过梯度反传去更新网络之前的模块,这就可能会导致如backbone性能无法有效发挥或出现灾难性遗忘的情况,对此文章在2D特征维度引入一个附加3D目标检测头,用以为网络添加特征约束和优化后面BEV中DETR检测任务头中的query,使得网络收敛更快。结合InternImage作为backbone、时序特征融合、检测query优化等策略文章的算法目前刷到了SOTA。

对于常见2D和BEV下的检测算法其pipeline见下图所示:

上面左右两幅图展示了2D和BEV模态下的目标检测任务,但是它们都有一个特点便是loss产生的梯度会传递很长的距离才能到达输入节点。在现有的BEV分割任务中已经证实添加2D辅助分支对于提升BEV的感知结果是有收益的。基于这样的观察文章在2D特征处添加3D目标检测模块,并用它的检测结果优化BEV检测中的query。

2. 方法设计

2.1 整体pipeline


从上图中可以看到文章的BEV检测算法与Bevformer算法框架类似,最大的区别是添加了一个2D辅助感知分支,将其检测结果作为后续BEV的额外query,类似于两阶段检测算法中第一阶段的检测用于提取proposal,而后续阶段在此基础上进一步优化。

2.2 具体实现

1. backbone部分:
在检测任务中经常使用VoVNet-99作为backbone,而文中则采用InternImage,其原因便是其设计思路与transformer网络更为相似,其抽取特征的能力更强。backbone的选择对性能带来的影响:

2. BEV特征构建:
对于BEV特征的构建与BevFormer类似也是采用query的形式,不过在时序特征融合部分采利用了帧间pose信息将不同帧的pose变换到同一坐标系下concat,这样会比原方案中使用GRU的方案效果更好。此外还添加了如时序采样间隔(间隔0.5s)、双向时序编码等trick用以进一步提点。将文中的一些trick在提前在这里总结:

3. 2D、3D上的检测分支:
2D上的检测分支用来提升特征的表达能力和给BEV特征提供有效proposal,帮助收敛。这两个部分的检测头的选择文章通过消融实验选出最适合的匹配:

4. BEV检测部分query构造:
这里query的主体结构与DETR相似,采用content和positional的组合。不过为了更进一步使用2D感知的结果这里显式使用了其投影中心点作为参考点,从而给予BEV处较好的先验query以加速收敛和提升效果。其流程见下图所示:

2D部分感知对性能带来的影响:

5. 损失函数:
文章的算法在2D和BEV特征上均做了检测,则网络的损失也是源自于这两处,则损失函数为两则的组合:
L t o t a l = λ b e v L b e v + λ p e r s L p e r s L_{total}=\lambda_{bev}L_{bev}+\lambda_{pers}L_{pers} Ltotal​=λbev​Lbev​+λpers​Lpers​

3. 实验结果

BEVFormerV2:Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervisi相关推荐

  1. 论文精读:《BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective 》

    文章目录 论文精读 摘要 1. 介绍(Introduction) 2. 相关工作(Related Works) 2.1 BEV三维物体探测器 (BEV 3D Object Detector) 2.2 ...

  2. 论文阅读:BEVSegFormer: Bird’s Eye View Semantic Segmentation FromArbitrary Camera Rigs

    题目:BEVSegFormer: Bird's Eye View Semantic Segmentation FromArbitrary Camera Rigs 中文:BEVSegFormer基于任意 ...

  3. BEV(Bird‘s Eye View)

    文章目录 BEV(Bird's Eye View,鸟瞰视图) 1. BEV网络基本概念 2. BEV网络应用 3. BEV网络应用详解 4.优化BEV网络 优化BEV网络 详解 BEV网络,怎么优化去 ...

  4. 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

  5. 论文解读:Adapting Object Detectors via Selective Cross-Domain Alignment

    论文题目:Adapting Object Detectors via Selective Cross-Domain Alignment(CVPR2019) 论文主要贡献:以往的域自适应的方法在分类和分 ...

  6. Paper翻译:《A Novel Convolutional Neural Network Based Model for Recognition and Classification of App》

    论文名称:<A Novel Convolutional Neural Network Based Model for Recognition and Classification of Appl ...

  7. 【WebFace260M】《WebFace260M:A Benchmark Unveiling the Power of Million-Scale Deep Face Recognition》

    CVPR-2021 文章目录 1 Background and Motivation 2 Related Work 3 Advantages / Contributions 4 Datasets an ...

  8. 深度学习论文阅读图像分类篇(三):VGGNet《Very Deep Convolutional Networks for Large-Scale Image Recognition》

    深度学习论文阅读图像分类篇(三):VGGNet<Very Deep Convolutional Networks for Large-Scale Image Recognition> Ab ...

  9. 虹膜识别论文2:An Experimental Study of Deep Convolutional Features For Iris Recognition 2016年 学习心得

    翻译: An Experimental Study of Deep Convolutional Features For Iris Recognition 深度卷积特征用于虹膜识别的实验研究 2016 ...

最新文章

  1. 从单词统计问题看面试
  2. 如何合并多个Django项目?
  3. 用美图秀秀(微软调色版)生成的R分量为255的图片在MATLAB和OpenCV中R分量为254
  4. 【Android Protobuf 序列化】Protobuf 使用 ( Protobuf 序列化 | Protobuf 反序列化 )
  5. RuntimeException: Package manager has died
  6. 一、在windows环境下修改pip镜像源的方法(以python3为例)
  7. 文带你深入了解 Redis 内存模型
  8. python安装jupyterlab_超级详细 centos7 安装 jupyter lab
  9. Nagios+zabbix+ganglia的相关参数分析和优缺点介绍
  10. 体验 Vista Speech Recognition,使梦想成为可能
  11. SpringBoot+MyBatis启动报错java.lang.NoClassDefFoundError: org/w3c/dom/ElementTraversal
  12. 任务21 :了解ASP.NET Core 依赖注入,看这篇就够了
  13. 中国软件企业上市透析(上)
  14. Android 猜歌曲游戏开发
  15. datatable 摧毁_我们快速的生活方式将使假新闻的发展摧毁我们。
  16. python绘制旭日图
  17. 嵌入式系统主要应用于哪些行业中?
  18. Mask Scoring R-CNN
  19. python的matmul_TensorFlow:tf.matmul函数
  20. 2010-2020管理类联考MBA/MEM英语大作文范文模版

热门文章

  1. 程序员也需要这种魄力
  2. 无法远程访问工作组计算机,如何在另一个工作组计算机上进行远程调试?
  3. 深度学习1(hinton)
  4. css3 3d 太阳系,使用css3的动画模拟太阳系恒星公转
  5. Plotly:最强Python可视化库,没有之一
  6. 成双成对的数,怎么找到落单的那个
  7. 最新2023年3月编程排行榜出炉,Python太牛了
  8. python中θ怎么打_python中%的用法
  9. 查找算法——俄罗斯轮盘赌算法(看谁运气不好)
  10. 算法详解【快速排序】