4.1-4.10日，花了约15个小时，入门了transformer和基于Transformer的BEV perception，记录一下分享给志同道合的人，以下是学习路径。

一、 Transformer原理

李宏毅2021深度学习课程，看了3遍self-attention和Transformer的原理，勉强看懂。因为这里是用语音识别作为例子的，和图片应用还是有点不一样。
DETR论文，官方代码。官方推理代码一定要看一下，很简单，而且在网页上能直接运行，非常有助于加深理解。
两个B站的讲解视频：
1. 干货！2022讲得最清晰的【Transformer核心项目DETR目标检测训练】DETR讲的很清楚，而且也很形象，这个老师值得推荐。
2. 一个外国哥们讲得DETR论文也很清晰。B站视频讲解
Query该怎么理解？这个回答很形象，query跟所有的key求一遍相似度，把这个相似度当做加权值乘以key，所有加权过的key相加，就是最终的结果。现在回过头看，其实自己一开始最大的问题就在于query到底是什么，理解不了。
博客 Transformer学习笔记理解transformer源码

二、 Transformer BEV Perception

刘兰个川。可以先看看这个大佬写的BEV Perception博客，里面总结了4种方案，但作者认为第4种基于Transformer的方案才是未来的方向。

我也认为Transformer也是未来，因此以后将只关注此类的方法。

1 Camera onoy

清华，DETR3D

https://arxiv.org/abs/2110.06922

主要思想：固定900个query个数，随机初始化query。每个query对应一个3D reference point，然后反投影到图片上sample对应像素的特征。

缺点：需要预训练模型，且因为是随机初始化，训练收敛较慢

BEV Former

https://arxiv.org/abs/2203.17270

主要思想：将BEV下的每个grid作为query，在高度上采样N个点，投影到图像中sample到对应像素的特征，且利用了空间和时间的信息。并且最终得到的是BEV featrue，在此featrue上做Det和Seg。

**Spatial Cross-Attention：**将BEV下的每个grid作为query，在高度上采样N个点，投影到图像中获取特征。

Temporal Self-Attention: 通过self-attention代替运动补偿，align上一帧的feature到当前帧的Q

旷视，PETR

2 多模态

清华，FUTR3D

https://arxiv.org/pdf/2203.10642.pdf

在DETR的基础上，将3D reference point投影到Lidar voxel特征和radar point 特征上。

香港科技大学，Transfusion

https://arxiv.org/pdf/2203.11496.pdf

利用CenterPoint在heatmap上获取Top K个点作为Query（这K个点可以看做是通过lidar网络初始化了每个目标的位置，这比DETR用随机点作为Qurey收敛要快），先经过Lidar Transformer得到proposal，把这个proposal作为Query，再和image feature做cross attention。

Google，DeepFusion

https://arxiv.org/abs/2203.08195

直接将Lidar feature和Camera feature做cross attention，这个思路牛逼，我不看到这篇论文是绝对想不到还能这么搞的。

Transformer BEV perception相关推荐

《A Simple Baseline for BEV Perception Without LiDAR》论文笔记
参考代码:bev_baseline project page:A Simple Baseline for BEV Perception Without LiDAR 1. 概述介绍:在这篇文章中提出了 ...
BEV和Transformer对无人驾驶硬件体系的巨大改变
作者 | 周彦武编辑 | 佐思汽车研究点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取点击进入→自动驾驶之心[BEV感知]技术交流群图片来源:特斯拉 ...
BEV+Transformer对无人驾驶硬件体系的巨大改变
摘要: BEV+Transformer彻底终结了2D直视图+CNN时代,BEV+Transformer对智能驾驶硬件系统有着什么样的影响?背后的受益者又是谁? 图片来源:特斯拉 BEV+Transfo ...
大盘点！自动驾驶中基于Transformer的单目BEV感知
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取今天自动驾驶之心很荣幸邀请到Garfield,为大家分享自动驾驶中基于Transformer的单目BEV感知! ...
BEV最新综述 | 学术界和工业界方案汇总！优化方法与tricks
论文链接:https://arxiv.org/pdf/2209.05324.pdf 学习感知任务的鸟瞰图(BEV)中的强大表示法是一种趋势,并引起了工业界和学术界的广泛关注.大多数自动驾驶常规方法是在 ...
论文阅读笔记：(2022) Delving into the Devils of Bird‘s-eye-view Perception: A Review, Evaluation and Recipe
paper: https://arxiv.org/abs/2209.05324 code: GitHub - OpenPerceptionX/BEVPerception-Survey-Recipe ...
Simple-BEV: 多传感器BEV感知真正重要的是什么？（斯坦福大学最新）
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取后台回复[多传感器融合综述]获取图像/激光雷达/毫米波雷达融合综述等干货资料! Simple-BEV: Wha ...
最新BEV感知基线 | 你确定需要激光雷达？（卡内基梅隆大学）
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨汽车人来源丨自动驾驶之心 1提出背景 camera和其他传感器相比成本更低,而激光雷达系统的 ...
详解视觉BEV3D检测模型: Fast-BEV: A Fast and Strong Bird‘s-Eye View Perception Baseline
本文介绍一篇视觉BEV3D检测模型: Fast-BEV,论文收录于 NeurIPS2022. 目前大多数现有的BEV感知方案要么需要相当多的资源来执行车端推理,要么性能不高.本文提出了一种简单而有效的 ...
BEV（Bird’s-eye-view）三部曲之一：综述
论文名:Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe Github 论文 ...

Transformer BEV perception