4.1-4.10日,花了约15个小时,入门了transformer和基于Transformer的BEV perception,记录一下分享给志同道合的人,以下是学习路径。

一、 Transformer原理

  1. 李宏毅2021深度学习课程,看了3遍self-attention和Transformer的原理,勉强看懂。因为这里是用语音识别作为例子的,和图片应用还是有点不一样。

  2. DETR论文,官方代码。官方推理代码一定要看一下,很简单,而且在网页上能直接运行,非常有助于加深理解。

  3. 两个B站的讲解视频:

    1. 干货!2022讲得最清晰的【Transformer核心项目DETR目标检测训练】DETR讲的很清楚,而且也很形象,这个老师值得推荐。
    2. 一个外国哥们讲得DETR论文也很清晰。B站视频讲解
  4. Query该怎么理解?这个回答很形象,query跟所有的key求一遍相似度,把这个相似度当做加权值乘以key,所有加权过的key相加,就是最终的结果。现在回过头看,其实自己一开始最大的问题就在于query到底是什么,理解不了。

  5. 博客 Transformer学习笔记 理解transformer源码

二、 Transformer BEV Perception

刘兰个川。可以先看看这个大佬写的BEV Perception博客,里面总结了4种方案,但作者认为第4种基于Transformer的方案才是未来的方向。

我也认为Transformer也是未来,因此以后将只关注此类的方法。

1 Camera onoy

清华,DETR3D

https://arxiv.org/abs/2110.06922

主要思想:固定900个query个数,随机初始化query。每个query对应一个3D reference point,然后反投影到图片上sample对应像素的特征。

缺点:需要预训练模型,且因为是随机初始化,训练收敛较慢

BEV Former

https://arxiv.org/abs/2203.17270

主要思想:将BEV下的每个grid作为query,在高度上采样N个点,投影到图像中sample到对应像素的特征,且利用了空间和时间的信息。并且最终得到的是BEV featrue,在此featrue上做Det和Seg。

**Spatial Cross-Attention:**将BEV下的每个grid作为query,在高度上采样N个点,投影到图像中获取特征。

Temporal Self-Attention: 通过self-attention代替运动补偿,align上一帧的feature到当前帧的Q

旷视,PETR

2 多模态

清华,FUTR3D

https://arxiv.org/pdf/2203.10642.pdf

在DETR的基础上,将3D reference point投影到Lidar voxel特征和radar point 特征上。

香港科技大学,Transfusion

https://arxiv.org/pdf/2203.11496.pdf

利用CenterPoint在heatmap上获取Top K个点作为Query(这K个点可以看做是通过lidar网络初始化了每个目标的位置,这比DETR用随机点作为Qurey收敛要快),先经过Lidar Transformer得到proposal,把这个proposal作为Query,再和image feature做cross attention。

Google,DeepFusion

https://arxiv.org/abs/2203.08195

直接将Lidar feature和Camera feature做cross attention,这个思路牛逼,我不看到这篇论文是绝对想不到还能这么搞的。

Transformer BEV perception相关推荐

  1. 《A Simple Baseline for BEV Perception Without LiDAR》论文笔记

    参考代码:bev_baseline project page:A Simple Baseline for BEV Perception Without LiDAR 1. 概述 介绍:在这篇文章中提出了 ...

  2. BEV和Transformer对无人驾驶硬件体系的巨大改变

    作者 | 周彦武  编辑 | 佐思汽车研究 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心[BEV感知]技术交流群 图片来源:特斯拉 ...

  3. BEV+Transformer对无人驾驶硬件体系的巨大改变

    摘要: BEV+Transformer彻底终结了2D直视图+CNN时代,BEV+Transformer对智能驾驶硬件系统有着什么样的影响?背后的受益者又是谁? 图片来源:特斯拉 BEV+Transfo ...

  4. 大盘点!自动驾驶中基于Transformer的单目BEV感知

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 今天自动驾驶之心很荣幸邀请到Garfield,为大家分享自动驾驶中基于Transformer的单目BEV感知! ...

  5. BEV最新综述 | 学术界和工业界方案汇总!优化方法与tricks

    论文链接:https://arxiv.org/pdf/2209.05324.pdf 学习感知任务的鸟瞰图(BEV)中的强大表示法是一种趋势,并引起了工业界和学术界的广泛关注.大多数自动驾驶常规方法是在 ...

  6. 论文阅读笔记:(2022) Delving into the Devils of Bird‘s-eye-view Perception: A Review, Evaluation and Recipe

    paper:  https://arxiv.org/abs/2209.05324 code:  GitHub - OpenPerceptionX/BEVPerception-Survey-Recipe ...

  7. Simple-BEV: 多传感器BEV感知真正重要的是什么?(斯坦福大学最新)

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 后台回复[多传感器融合综述]获取图像/激光雷达/毫米波雷达融合综述等干货资料! Simple-BEV: Wha ...

  8. 最新BEV感知基线 | 你确定需要激光雷达?(卡内基梅隆大学)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨汽车人 来源丨 自动驾驶之心 1提出背景 camera和其他传感器相比成本更低,而激光雷达系统的 ...

  9. 详解视觉BEV3D检测模型: Fast-BEV: A Fast and Strong Bird‘s-Eye View Perception Baseline

    本文介绍一篇视觉BEV3D检测模型: Fast-BEV,论文收录于 NeurIPS2022. 目前大多数现有的BEV感知方案要么需要相当多的资源来执行车端推理,要么性能不高.本文提出了一种简单而有效的 ...

  10. BEV(Bird’s-eye-view)三部曲之一:综述

    论文名:Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe Github 论文 ...

最新文章

  1. 习题8-6 删除字符 (20 分)
  2. Java vs Big data 哪种编程语言更好?
  3. Spring boot访问静态资源
  4. SVN更新项目A C D M G U R I的含义
  5. windows下PL/SQL Developer连接Orcale
  6. 选择所有选项的多选复选框列表或复选框下拉列表
  7. 像 C 一样快,Ruby 般丝滑的 Crystal 发布 1.0 版本,你看好吗?
  8. 2018.12.11 区块链论文翻译
  9. 网页标题设计原则与一般规律
  10. bloom-generate 打包 ros 版本 noetic 的包及报 /usr/bin/ld: 找不到 -lpthreads与undefined reference pthread_create
  11. java读取、生成图片
  12. Unidac连接出错:命名管道提供程序:管道的另一端上无任何进程.
  13. linux服务器用的多的命令,linux服务器常用命令
  14. java求1~20阶乘之和
  15. Python之Pygame.rect函数
  16. editorMd插件的使用总结(包括开启图片上传及拖拉粘贴上传图片)
  17. sql拼接同一字段_sql多个字段拼接
  18. Shell命令提示符
  19. python实现简易数独小游戏
  20. Python学习之---杨辉三角的五种解法

热门文章

  1. Electronic Commerce 12th Gary Schneider
  2. Ubuntu 安装 QEMU
  3. php excel引入tp,TP 引入phpExcel
  4. 前端性能优化:7.页面渲染优化
  5. vb如何调用计算机日历,跪求vb.net简易日历制作的源代码
  6. SpringBoot自定义starter
  7. Win10 清除 PowerShell 命令行历史记录的方法
  8. 数据库--根据日期查询
  9. 【保姆级教程】VMware+CentOS 7 配置静态IP(小名已排雷,放心跟着教程走)
  10. 国产操作系统银河麒麟V10桌面版新手小白常见问题