Transformer BEV perception
4.1-4.10日,花了约15个小时,入门了transformer和基于Transformer的BEV perception,记录一下分享给志同道合的人,以下是学习路径。
一、 Transformer原理
李宏毅2021深度学习课程,看了3遍self-attention和Transformer的原理,勉强看懂。因为这里是用语音识别作为例子的,和图片应用还是有点不一样。
DETR论文,官方代码。官方推理代码一定要看一下,很简单,而且在网页上能直接运行,非常有助于加深理解。
两个B站的讲解视频:
- 干货!2022讲得最清晰的【Transformer核心项目DETR目标检测训练】DETR讲的很清楚,而且也很形象,这个老师值得推荐。
- 一个外国哥们讲得DETR论文也很清晰。B站视频讲解
Query该怎么理解?这个回答很形象,query跟所有的key求一遍相似度,把这个相似度当做加权值乘以key,所有加权过的key相加,就是最终的结果。现在回过头看,其实自己一开始最大的问题就在于query到底是什么,理解不了。
博客 Transformer学习笔记 理解transformer源码
二、 Transformer BEV Perception
刘兰个川。可以先看看这个大佬写的BEV Perception博客,里面总结了4种方案,但作者认为第4种基于Transformer的方案才是未来的方向。
我也认为Transformer也是未来,因此以后将只关注此类的方法。
1 Camera onoy
清华,DETR3D
https://arxiv.org/abs/2110.06922
主要思想:固定900个query个数,随机初始化query。每个query对应一个3D reference point,然后反投影到图片上sample对应像素的特征。
缺点:需要预训练模型,且因为是随机初始化,训练收敛较慢
BEV Former
https://arxiv.org/abs/2203.17270
主要思想:将BEV下的每个grid作为query,在高度上采样N个点,投影到图像中sample到对应像素的特征,且利用了空间和时间的信息。并且最终得到的是BEV featrue,在此featrue上做Det和Seg。
**Spatial Cross-Attention:**将BEV下的每个grid作为query,在高度上采样N个点,投影到图像中获取特征。
Temporal Self-Attention: 通过self-attention代替运动补偿,align上一帧的feature到当前帧的Q
旷视,PETR
2 多模态
清华,FUTR3D
https://arxiv.org/pdf/2203.10642.pdf
在DETR的基础上,将3D reference point投影到Lidar voxel特征和radar point 特征上。
香港科技大学,Transfusion
https://arxiv.org/pdf/2203.11496.pdf
利用CenterPoint在heatmap上获取Top K个点作为Query(这K个点可以看做是通过lidar网络初始化了每个目标的位置,这比DETR用随机点作为Qurey收敛要快),先经过Lidar Transformer得到proposal,把这个proposal作为Query,再和image feature做cross attention。
Google,DeepFusion
https://arxiv.org/abs/2203.08195
直接将Lidar feature和Camera feature做cross attention,这个思路牛逼,我不看到这篇论文是绝对想不到还能这么搞的。
Transformer BEV perception相关推荐
- 《A Simple Baseline for BEV Perception Without LiDAR》论文笔记
参考代码:bev_baseline project page:A Simple Baseline for BEV Perception Without LiDAR 1. 概述 介绍:在这篇文章中提出了 ...
- BEV和Transformer对无人驾驶硬件体系的巨大改变
作者 | 周彦武 编辑 | 佐思汽车研究 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心[BEV感知]技术交流群 图片来源:特斯拉 ...
- BEV+Transformer对无人驾驶硬件体系的巨大改变
摘要: BEV+Transformer彻底终结了2D直视图+CNN时代,BEV+Transformer对智能驾驶硬件系统有着什么样的影响?背后的受益者又是谁? 图片来源:特斯拉 BEV+Transfo ...
- 大盘点!自动驾驶中基于Transformer的单目BEV感知
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 今天自动驾驶之心很荣幸邀请到Garfield,为大家分享自动驾驶中基于Transformer的单目BEV感知! ...
- BEV最新综述 | 学术界和工业界方案汇总!优化方法与tricks
论文链接:https://arxiv.org/pdf/2209.05324.pdf 学习感知任务的鸟瞰图(BEV)中的强大表示法是一种趋势,并引起了工业界和学术界的广泛关注.大多数自动驾驶常规方法是在 ...
- 论文阅读笔记:(2022) Delving into the Devils of Bird‘s-eye-view Perception: A Review, Evaluation and Recipe
paper: https://arxiv.org/abs/2209.05324 code: GitHub - OpenPerceptionX/BEVPerception-Survey-Recipe ...
- Simple-BEV: 多传感器BEV感知真正重要的是什么?(斯坦福大学最新)
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 后台回复[多传感器融合综述]获取图像/激光雷达/毫米波雷达融合综述等干货资料! Simple-BEV: Wha ...
- 最新BEV感知基线 | 你确定需要激光雷达?(卡内基梅隆大学)
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨汽车人 来源丨 自动驾驶之心 1提出背景 camera和其他传感器相比成本更低,而激光雷达系统的 ...
- 详解视觉BEV3D检测模型: Fast-BEV: A Fast and Strong Bird‘s-Eye View Perception Baseline
本文介绍一篇视觉BEV3D检测模型: Fast-BEV,论文收录于 NeurIPS2022. 目前大多数现有的BEV感知方案要么需要相当多的资源来执行车端推理,要么性能不高.本文提出了一种简单而有效的 ...
- BEV(Bird’s-eye-view)三部曲之一:综述
论文名:Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe Github 论文 ...
最新文章
- 习题8-6 删除字符 (20 分)
- Java vs Big data 哪种编程语言更好?
- Spring boot访问静态资源
- SVN更新项目A C D M G U R I的含义
- windows下PL/SQL Developer连接Orcale
- 选择所有选项的多选复选框列表或复选框下拉列表
- 像 C 一样快,Ruby 般丝滑的 Crystal 发布 1.0 版本,你看好吗?
- 2018.12.11 区块链论文翻译
- 网页标题设计原则与一般规律
- bloom-generate 打包 ros 版本 noetic 的包及报 /usr/bin/ld: 找不到 -lpthreads与undefined reference pthread_create
- java读取、生成图片
- Unidac连接出错:命名管道提供程序:管道的另一端上无任何进程.
- linux服务器用的多的命令,linux服务器常用命令
- java求1~20阶乘之和
- Python之Pygame.rect函数
- editorMd插件的使用总结(包括开启图片上传及拖拉粘贴上传图片)
- sql拼接同一字段_sql多个字段拼接
- Shell命令提示符
- python实现简易数独小游戏
- Python学习之---杨辉三角的五种解法
热门文章
- Electronic Commerce 12th Gary Schneider
- Ubuntu 安装 QEMU
- php excel引入tp,TP 引入phpExcel
- 前端性能优化:7.页面渲染优化
- vb如何调用计算机日历,跪求vb.net简易日历制作的源代码
- SpringBoot自定义starter
- Win10 清除 PowerShell 命令行历史记录的方法
- 数据库--根据日期查询
- 【保姆级教程】VMware+CentOS 7 配置静态IP(小名已排雷,放心跟着教程走)
- 国产操作系统银河麒麟V10桌面版新手小白常见问题