论文标题:V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer
发表期刊/会议:ECCV 2022
开源代码:https://github.com/DerrickXuNu/v2x-vit
数据集:V2XSet (https://drive.google.com/drive/folders/1r5sPiBEvo8Xby-nMaWUTnJIPK6WhY1B6)

任务:基于LiDAR的3D目标检测
挑战:V2V协同感知忽略了路边智能设施,安装在高处的路边设施具有更广泛的视线,能减少遮挡;V2X协同感知将路边智能设施加入来提高车辆的感知精度,但也面临一些挑战:
1.路边设施和无人车的传感器配置存在很大差异(类型、噪音水平、安装高度,传感器属性和模式),这些异构性使得V2X感知系统的设计具有挑战性。
2.GPS定位误差以及 agent之间传输信息延迟会导致坐标转换不准确和感知信息滞后,将严重影响系统的感知精度。

3 V2X协同感知系统

假设V2X场景中一辆无人车为ego车辆 (接收车辆):
1)元数据共享:每个 agent 通过无线通信互相分享元数据,如pose、外在特征和 agent 类型(路边设施或车辆)。这里元数据共享延迟很小可以忽略不计,每个agent可以在实时收到 ego车辆的pose信息。当每个合作车辆和路边设施收到ego车辆的pose信息后,会将自己的LiDAR点云投影到ego车辆的坐标系上。
2)特征提取:利用anchor-based PointPillar方法从点云中提取视觉特征。
3)压缩和共享:为了减少传输带宽,利用一系列1×1的卷积沿通道维度逐步压缩特征图,减少通道数,然后传送给ego车辆,在ego车辆上使用1×1的卷积再将特征图解压。

由于在发送车辆采集LiDAR数据到ego车辆收到压缩特征之间存在一定的时间延迟,因此,ego车辆接收到的特征与ego车辆自己捕获的特征在时间上不一致,导致空间错位。 在特征解压后,利用spatial-temporal correction module (STCM)通过微分变换和 sampling operator将特征图转换到ego车辆的当前位姿下。
4)V2X-ViT:将所有接收到的中间特征,通过V2X-ViT利用self-attention机制进行特征融合。
5)检测头:利用最终融合的特征图,通过两个1×1的卷积层进行边界框回归和分类。

3.2 V2X-ViT

(a) delay-aware positional encoding (DPE):编码延迟时间信息,根据不同的延迟时间,直接进行余弦编码,然后加到输入特征中,再传给HMSA。
(b)Heterogeneous multi-agent self-attention (HMSA) :捕捉路边设施和车辆之间的异构性(构建一个V2X graph,其中每个节点是车辆或路边设施,每条边代表定向V2X通信通道。假设同一类别的agent之间的传感器设置是相同的,就有两种类型的节点和四种类型的边。),HMSA根据节点和边缘类型来学习不同类型的agent之间的关系,同时进行特征融合,融合后的特征再传给MSwin。

(c)Multi-scale window attention (MSwin):使用不同大小的窗口,每个窗口都有不同的attention范围,通过捕捉多尺度long-range interactions来聚合空间信息,以帮助消除GPS定位误差。

将这两个attention模块合起来组成V2X-ViT,然后将一系列的V2X-ViT模块堆叠起来,迭代地学习agent之间的关联关系和每个agent的空间注意力,从而获得融合特征用于最终的目标检测。

3.2.3 Delay-aware位置编码

考虑在滞后时间内由物体运动引起的错位,采用DPE对延迟时间信息编码。

  • 基于延迟时间Δti和通道数c∈[1, C],用正弦/余弦函数对其进行初始化:
  • 经过线性projection f 获得编码,将其添加到输入特征Hi中:

3.2.1 HMSA

将注意力权重ATT 与 聚合的特征信息 MSG 进行点乘,再经过线性聚合Denseci (一组以节点类型为索引的线性projection,聚合了 multi-head 信息),获得新的一个融合特征:

  • ATT注意力权重估计,基于节点类型和边类型计算一对节点之间的相关性权重。

    将输入的融合特征Hi 通过2个不同的Dense得到2个不同的Q和K(把不同类型节点的特征提取出来),2个不同的Q、K分别拼接在一起。为了纳入边类型的语义信息,通过边权重矩阵Wφ(eij) m,ATT (可训练的embedding)来加权Q和K的点积。然后将 multi-head 信息 拼接,经过softmax,得到注意力权重。
  • MSG信息聚合

    将输入的融合特征Hi 通过2个不同的Dense,分别提取路边设施和车辆节点的特征,矩阵Wφ(eij) m,MSG被用于根据发送节点和接收节点之间的边类型来加权特征,然后将 multi-head 输出拼接,得到聚合特征信息。

3.2.2 MSwin

为了解决定位误差,需要对融合特征进行long-range注意力交互,使用全局交互运算量大,所以采用MSwin,用不同的窗口大小分割输入特征图,每个像素点只与同一窗口的其他像素点进行交互;当使用较大的窗口尺寸时,逐步减少head的数量以节省内存的使用。最后,用split-attention模块将不同大小窗口self-attention分支的信息融合一起,形成最后的融合特征。

数据集V2XSet

V2X感知的数据集,用于研究V2X面临的定位错误和传输时间延迟问题。采用CARLA和OpenCDA来生成数据集,CARLA负责现实环境的渲染和传感器的建模,OpenCDA提供方便的同时控制多个AV和嵌入式车辆网络通信协议。将传感器安装在每辆无人车的顶部,只在拥挤的交通场景(十字路口、街区中段和入口坡道)上高度为14英尺处部署路边设施传感器。以10Hz频率记录LiDAR点云,并保存相应的位置数据和时间戳。总共有11,447个帧(对于同一场景中每个agent的帧,则有33,081个样本),训练/验证/测试的分界线分别为6,694/1,920/2,833。V2XSet包含了V2X协同和不同道路类型的现实噪音模拟。
数据样本:

(a) 在CARLA中的模拟场景,两个自动驾驶汽车和基础设施位于一个繁忙的十字路口的不同侧面。(b) 这三个代理的LiDAR点云的汇总。

总结

  • 提出了首个用于V2X感知的transformer架构(V2X-ViT),可以捕捉到V2X系统的异质性,对各种噪声具有很强的鲁棒性。
  • 为自适应融合异构的agent的信息,提出了一种 heterogeneous multi-agent attention(HMSA)模块。
  • 提出了一个multi-scale window attention(MSWin)模块,使用multiresolution windows 并行处理定位错误,可以同时捕捉到局部和全局的空间特征之间的相关性。
  • 构建了一个用于V2X协同感知的大规模开放仿真数据集V2XSet。

V2X-ViT:基于Vision Transformer的V2X协同感知相关推荐

  1. 基于Vision Transformer的图像去雾算法研究与实现(附源码)

    基于Vision Transformer的图像去雾算法研究与实现 0. 服务器性能简单监控 \LOG_USE_CPU_MEMORY\文件夹下的use_memory.py文件可以实时输出CPU使用率以及 ...

  2. ViT(vision transformer)原理快速入门

    本专题需要具备的基础: 了解深度学习分类网络原理. 了解2017年的transformer. Transformer 技术里程碑: ViT简介 时间:2020年CVPR 论文全称:<An Ima ...

  3. PyTorch-上分之路(基于Vision Transformer的鸟群分类算法)

    目录 前言 一.config.py 二.datalist.py 1.引入库 三.model.py 四.utils.py 五.train.py 六.总结 前言 之前发了一个shufflenet的鸟群分类 ...

  4. ViT( Vision Transformer)详解

    文章目录 (一)参考博客和PPT原文件下载连接 (二)VIT原理详解 2.1.self-attention 2.2.sequence序列之间相关性 α \boldsymbol{\alpha} α的求解 ...

  5. 简单有趣的变形金刚网络(VIT) Vision Transformer(可以直接替换自己数据集)-直接放置自己的数据集就能直接跑(网络结构详解+详细注释代码+核心思想讲解)——pytorch实现

    论文题目: An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale 原论文下载链接:https://arx ...

  6. ViT(Vision Transformer)算法入门

    Transformer架构已经成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限.在视觉中,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构.论文表明,这 ...

  7. 【读点论文】A Survey on Vision Transformer,2022年华为诺亚最新综述研究,从发展到任务,整体到局部。ViT有研究价值在于有很多问题还没有解决,真理是阶段性的产物

    A Survey on Vision Transformer Abstract transformer最早应用于自然语言处理领域,是一种主要基于自注意机制的深度神经网络.由于其强大的表示能力,研究人员 ...

  8. Vision Transformer(ViT)

    1. 概述 Transformer[1]是Google在2017年提出的一种Seq2Seq结构的语言模型,在Transformer中首次使用Self-Atttention机制完全代替了基于RNN的模型 ...

  9. 神经网络学习小记录68——Tensorflow2版 Vision Transformer(VIT)模型的复现详解

    神经网络学习小记录68--Tensorflow2版 Vision Transformer(VIT)模型的复现详解 学习前言 什么是Vision Transformer(VIT) 代码下载 Vision ...

最新文章

  1. 使用PyTorch进行情侣幸福度测试指南
  2. 网站被降权后该如何操作?
  3. C++构造函数和析构函数调用虚函数时都不会使用动态联编
  4. ML之xgboost:利用xgboost算法(自带,特征重要性可视化+且作为阈值训练模型)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测)
  5. mac终端一次命令在多个虚拟机执行_Windows给力!可以扔掉Linux虚拟机了!
  6. 移动Oracle的用户表空间文件方法
  7. 华为徐直军:华为云成为智能世界五朵云之一,2021年大力支持伙伴持续创新
  8. HTML5 定位 —— Geolocation API的正确使用
  9. Vue slot用法(2018.09.05 星期三)
  10. 异常值监测的方法 Tukey test
  11. 2018中国服务器市场出货量年成长23%,华为出货创新高
  12. 超简单的scrapy实现ip动态代理与更换ip
  13. 还不知道什么是cms 什么是 cmf?
  14. docker学习--数据卷
  15. write-through与write-back的区别
  16. 用matlab解超越方程,MATLAB实例之对线性,非线性,超越方程的求解
  17. python自学行_python自学行吗
  18. 你必须得知道的人工智能领域的大师与大事
  19. linux wps不能输入中文,Ubuntu系统中WPS不能输入中文该怎么办?
  20. 计算机辅助三维诊断英文,人体CT图像的三维可视化(英文)

热门文章

  1. 入门学习-Python-小甲鱼学习资料-Day031-永久存储:腌制一缸美味的泡菜
  2. SCAU-春季训练-不应该啊(怎么这么菜。。。)
  3. 很酷的智能家居/工业路由器两用的物联网WiFi模块 MQTT/TCP协议 MIPS+LINUX+Openwrt技术覆盖
  4. java8通讯_8.进程通信
  5. [Ubuntu] Ubuntu16.04+win10+联想Y7000+显卡+WIFI 装机成功
  6. 2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】3 Bert和Nezha方案
  7. 王牌竞速安装后显示服务器维护,王牌竞速服务器进不了 服务器登录问题详解...
  8. 1635-超大型 LED 显示屏 ZCMU
  9. msray网址采集软件即将上线国外搜素引擎-QWANT
  10. resulful规范_resultful风格接口