题目

V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer(ECCV2022
链接:https://arxiv.org/pdf/2203.10638v1.pdf
仓库链接:https://github.com/DerrickXuNu/v2x-vit

简介

V2V:vehicle to vehicle
V2X:vehicle to everything
论文主要针对的是3D目标检测问题(自动驾驶领域)

Heterogeneous agent:所谓异构,就是不光接收车的信息,还要接受infrastracture的信息。不同agent之间就形成了异构性,怎么有效融合就成了问题。

Infrastructure(比如说交叉路口的固定传感器)提供的信息具有a broader sight-of-view and potentially less occlusion. 而且更稳定, 应该被利用起来。

这一篇的亮点

  1. 新结构: 针对V2X任务提出了统一的Transformer架构(V2X-ViT),可以在异构系统中、多种噪声条件下保持strong robustness。
  2. 新模块1: heterogeneous multi-agent attention module (HMSA)解决异构问题。
  3. 新模块2: multi-scale window attention module (MSWin)同时捕获局部和全局信息交互。
  4. 新数据集: V2XSet,包含了车端和infra端的数据,更加贴近现实条件。

关于具体的Collaborative感知的必要性,以及比Individual感知强在哪,见上一篇综述文章。

HMSA 和 MSWin 两个模块以迭代的方式自适应融合视觉特征,捕捉个体间的交互和个体间的空间关系,纠正定位错误和时间延迟导致的 feature misalignment。

流程框架

这篇文章在这部分的解释非常清晰,特别是作为一个刚入门的小白,看完后会对整个流程的了解清晰了很多。

1. V2X metadata sharing

选择一个车作为ego vehicle(可以理解成中心车辆),将其与周围的agent(vehicle & infra)构建V2X图(边界是communication、节点是 v or infra)

忽略ego v把自己的pose发给各个agent的时间。在各个agent收到ego的pose的时候,就把自己获取的点云project到ego的pose坐标系下。

2. Feature extraction

因为PointPillar模型的低推断延迟和优化的内存使用,因此选择其作为backbone提取特征信息。
得到 H*W*C 的Feature Map

3. Compression and sharing

为了减少带宽,利用一系列 11 conv将其压缩,传到ego后再用 11 conv变回 H*W*C 尺寸。

但是再减带宽,也会有个inevitable的时间延迟,导致other agents获取到的projected 3D data传到ego这里的时候会对不齐。(不是同一个时间了)

采用spatial-temporal correction module(STCM)模块给他transform回来

4. V2X-ViT

后边具体说。
值得注意的是:在整个Transformer中,我们将特征图保持在相同的高分辨率级别。

5. Detection Head

这就是为了做具体的下游任务(3D Detection)而定的。

  1. box regression( Smooth L1 Loss)
    (x, y, z, w, l, h, θ)
    position: x y z
    size: w l h
    yaw angle: θ
  2. classification(Focal Loss)
    对于每一个anchor,输出为对象还是背景的confidence score

V2X-ViT

对这一块暂时理解比较浅,这个论文的数据集分为车端和路侧两个部分,暂时搁置。

1. HMSA


Contains 3 operators: a linear aggregator Dense , attention weights estimator ATT, and message aggregator MSG.

‖代表concat,m is the current head number and h is the total number of heads.

2. MSWA

在较大的窗口内执行的注意力可以捕捉远距离的视觉线索,以补偿较大的定位错误,而较小的窗口分支执行更细的尺度的注意力,以保留局部上下文。

3. Delay-aware positional encoding

使用这个encoding来消除由于时间延迟而导致的运动位置变化。

实验部分

1. 数据对比

消融实验

2. 图片结果对比

直观检测结果⬇️

实验证明加入infra信息对于遮挡问题的改善效果⬇️
越亮表示关注度越高,最右侧为infra给提供的信息。

【Collaborative Perception - 2】V2X-ViT(ECCV2022)相关推荐

  1. 【ASP.NET Core】处理异常(上篇)

    [ASP.NET Core]处理异常(上篇) 参考文章: (1)[ASP.NET Core]处理异常(上篇) (2)https://www.cnblogs.com/tcjiaan/p/8461408. ...

  2. 【java8新特性】——默认方法(五)

    一.简介 默认方法是指接口的默认方法,它是java8的新特性之一.顾名思义,默认方法就是接口提供一个默认实现,且不强制实现类去覆写的方法.默认方法用default关键字来修饰. 默认方法可以解决的痛点 ...

  3. 【java8新特性】——方法引用(四)

    一.简介 方法引用是java8的新特性之一, 可以直接引用已有Java类或对象的方法或构造器.方法引用与lambda表达式结合使用,可以进一步简化代码. 来看一段简单代码: public static ...

  4. 【ASP.NET Core】处理异常(下篇)

    [ASP.NET Core]处理异常(下篇) 参考文章: (1)[ASP.NET Core]处理异常(下篇) (2)https://www.cnblogs.com/tcjiaan/p/8468901. ...

  5. 【电商系统】—项目缺陷管理(二)

    [电商系统]-项目缺陷管理(二) 题目分析:如何做bug/缺陷管理? 答题思路 缺陷管理角色 bug处理流程图

  6. 【电商系统】—项目梳理(一)

    [电商系统]-项目梳理(一) 熟悉文档,查看原型.读懂需求 了解前端设计稿,设计前端业务架构 了解后台接口文档,制定相关对接规范 协调资源 搭建前端架构

  7. 【博客项目】—数据分页(十)

    [博客项目]-数据分页(十)

  8. 【博客项目】—密码加密( 六)

    [博客项目]-密码加密( 六)

  9. 计算机科学导论【第四版】读书笔记 (一)

    计算机科学导论[第四版]读书笔记 (一) 绪论 基于图灵模型的计算机 图灵模型假设各种各样的运算都能够通过一种特殊的机器来完成,图灵机的模型是基于各种运算过程的.图灵模型把运算的过程从计算机器中分离开 ...

  10. 【Java并发编程】Java多线程(四):FutureTask 源码分析

    前言:[Java并发编程]Java多线程(三):Runnable.Callable --创建任务的方式 在上一篇文章的末尾我们通过两个问题,引出了 FutureTask 及其设计思路,先来回顾一下: ...

最新文章

  1. iOS LaunchScreen和LaunchImage的转换启动图
  2. Concurrent包下的常用并发类和普通类之间的区别
  3. 通过padding-bottom或者padding-top实现等比缩放响应式图片
  4. 一起学windows phone7开发(二十二.使用系统资源)
  5. 分区数据导出功能(页面调整)
  6. Android简单调用相机Camera功能,实现打开照相功能
  7. Day10:html和css
  8. python爬去朋友圈_python爬虫24 | 搞事情了,用 Appium 爬取你的微信朋友圈。
  9. 机器学习与计算机视觉(移动端深度学习优化框架)
  10. android adbd代码在哪个目录下,Android源代码目录结构
  11. document.all用法
  12. matlab的yalmip为什么这么慢,Yalmip使用学习
  13. 交换机Trunk详解
  14. excel中NORM.DIST 的python实现
  15. Samba共享服务详解
  16. 技术攻关:从零到精通
  17. Windows的权限(用户、组和访问控制)
  18. qt.modbus: (RTU client) Discarding response with wrong CRC, received: 16448 , calculated CRC: 49303
  19. 基于百度飞桨的单/多镜头行人追踪(非官方Baseline)
  20. 【在华为做OD的日子】初出茅庐

热门文章

  1. 获取浏览器中鼠标选中的文本内容
  2. ERP、APS、MES 三者之间的关系是什么?
  3. odoo15全面解决财务会计管理、核算、分析解决方案
  4. pgsql的pg_basebackup
  5. 自动备份android,Android自动备份错误
  6. 开源软件发展的保障:分发协议
  7. luoguP2711 小行星
  8. 人工智能-强化学习(2)
  9. 面试中sql调优的几种方式_面试方式
  10. 华为联合全球伙伴加速上线HMS内容类应用,影音娱乐体验一步尝鲜