英伟达冠军!FB-OCC:CVPR23 3D占用预测冠军方案解读
作者 | 自动驾驶我睡觉 编辑 | 汽车人
原文链接:https://zhuanlan.zhihu.com/p/638759432
点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心【占用网络】技术交流群
论文链接:https://opendrivelab.com/e2ead/AD23Challenge/Track_3_NVOCC.pdf?=&linkId=100000205404832
github地址:
https://github.com/NVlabs/FB-BEV
一:模型机构设计:
1.基于3D检测方法(FB-BEV); 2.Forward Projection(参考LSS)+ Backward Projection(参考BEVFormer)
Forward Projection:1)使用前向投影来生成3D体素表示 2)将 3D 体素表⽰压缩为扁平化的BEV特征图 3)最后将 3D 体素表⽰和优化的 BEV 表⽰的融合特征输⼊到后续任务头中
前向投影总结:相对原来的LSS是投影到BEV空间中,这里是投影到3D体素空间中
Backward Projection:
1)3D体素表⽰压缩为BEV表示,从⽽结合更强的语义 2)利⽤了投影阶段的深度分布,能够更精确地建模投影关系
后向投影总结:灵感来源于BEVFormer, 1.与使⽤随机初始化参数作为 BEV 查询的 BEVFormer 不同,采用1);2.在推理阶段使用了深度分布,从而保证了更加精确的
最后获得3D体素表示和优化后的BEV表示后, 通过扩展BEV特征的过程将他们组合起来, 从而产生最终的3D体素表示 图一图二中展示了体素编码器和占用预测头
二:损失函数:
Lfl :距离感知焦距损失函数
Ldl:语义分割深度分析损失函数
Lgeo scal/Lsem scal:来自MonoScene的亲和力损失函数
Lls:lovasz-softmax损失函数
Ld:深度监督损失
Ls :2D语义损失
三:扩大模型和预训练:
作者花了大段时间介绍大模型的过拟合的劣势还有计算复杂度的问题,综合评比下来,选用了1B参数的backbone,interimage-H;
此模型用于nuScenes中直接应用会有严重的过度拟合,利用比赛提供的public data做与训练
在Object365数据集上进行2D检测任务的与训练,用于增强模型的语义感知能力
为了增加深度感知,和减轻模型过度偏向深度信息的风险,导致语义丢失,在nuScenes数据集上进行深度估计的预训练,用来增强模型的几何感知能力
考虑到nuScenes数据集不提供2D图像语义标签,使用SAM模型生成
四:实验结果:
(一)视频课程来了!
自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、多传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)
(扫码学习最新视频)
视频官网:www.zdjszx.com
(二)国内首个自动驾驶学习社区
近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!
(三)【自动驾驶之心】全栈技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;
添加汽车人助理微信邀请入群
备注:学校/公司+方向+昵称
英伟达冠军!FB-OCC:CVPR23 3D占用预测冠军方案解读相关推荐
- 英伟达首次实现SDF实时3D渲染,还是细节超清晰的那种
鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 不用苦等电脑渲染好几个小时,这样高清的 3D 渲染效果,现在英伟达做到了实时实现. 各种复杂样式.比例的外观都能 hold 住,阴影也不在 ...
- 英伟达 Magic3D:一句话生成3D模型,分辨率清晰8倍,速度快2倍,编辑文本还可直接修改...
丰色 发自 凹非寺 量子位 | 公众号 QbitAI 一句话生成3D模型,英伟达也来"秀肌肉"了- 来看它最新捣鼓出的Magic3D AI,效果是这样儿的. 输入"坐在 ...
- 英伟达突破万亿美元市值,创始人黄仁勋分享创业心得
你知道全球第一家市值突破万亿美元的芯片公司是哪一家吗?它的创始人又是怎样的一个人呢?今天我们就来聊聊英伟达和黄仁勋的故事. ------------------------------ 英伟达(NVI ...
- 69亿美元英伟达史上最大收购!这家基金又赢了
.另一方面,在虚拟货币的浪潮告一段落之后,英伟达需要给增速放缓的数据中心业务注入一枚强心剂. 有意思的是,英伟达对Mellanox的收购也成就了国际知名维权对冲基金Starboard Value LP ...
- 首届实时渲染3D动画创作大赛结果公布,看大奖英伟达A6000花落谁家
根据评选标准,经过评委组层层选拔,首届实时渲染3D动画创作大赛,最终获奖结果出炉啦. 本次赛事报名人数达212人,入围作品共40份,其中Omniverse组11份,专业组15份,学生组14份.在宣布最 ...
- ICCV 2021 | 英伟达新研究:直接通过视频就能捕获3D人体动作!
丰色 发自 凹非寺 来源:量子位(QbitAI) 不靠昂贵的动捕,直接通过视频也能提取3D人体模型然后进行生成训练: 英伟达这项最新研究不仅省钱,效果也不错-- 其合成的样本完全可以用在以往只在动捕数 ...
- 最新3D GAN可生成三维几何数据了!模型速度提升7倍,英伟达斯坦福出品
明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2D图片变3D,还能给出3D几何数据? 英伟达和斯坦福大学联合推出的这个GAN,真是刷新了3D GAN的新高度. 而且生成画质也更高,视角随 ...
- 浪潮信息英伟达霸榜!MLPerf™最新榜单发布,浪潮信息包揽2021年度近半数冠军...
允峰 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 美国东部时间12月1日,国际权威AI基准测试MLPerf™公布最新一期训练(Training)榜单V1.1.在全部16个固定任务(Close ...
- 英伟达官方免费课程!学用皮克斯USD框架,在主流3D仿真和协同应用中大显身手!...
#免费课程 USD Composition Arcs 01 课程介绍 Universal Scene Description (USD) 框架由 Pixar 开发,旨在助力技术和创意世界构建者之间的协 ...
最新文章
- docker多主机网络方案
- Linux 初始root密码设置
- deepin v20.2.4设置全局搜索的快捷键
- Mysql密码忘记了怎么办?
- poj2586 Y2K Accounting Bug
- 收藏 | 来自微软大神的机器学习秘籍!
- 18-elasticsearch集群健康为黄色
- esp32 io速度_乐鑫科技发布 ESP32-S3 芯片,精准聚焦 AIoT 市场
- Windows安全不能靠本地管理员权限
- linux的基本命令快捷键,Linux常用命令快捷键有哪些?
- 2016年北京hadoop in china见闻
- 用java处理图片(压缩成小尺寸;加文字和logo水印)
- TortoiseSVN使用指南
- Geek(一个好用的强力卸载软件工具,包括注册表所有依赖项全部清理掉)
- NET Reflector
- Sprite Kit教程
- Spring BcryptPasswordEncorder Log Rounds参数说明
- 花了500学的seo课程教程笔记公布
- opencv 识别黄色物体的程序代码
- 「运维有小邓」ADAudit Plus(AD域审计工具)的主要优势?
热门文章
- 区块链与人工智能的关系
- Example类用法example.createCriteria
- 英语口语之七十三[速度与激情]
- linux下wxr的权限,Linux下的文件权限
- c++ strcat函数越界
- 查询学过“张三“老师授课的同学的信息
- 【数据库理论】关系模式的规范化与查询优化
- 【调剂】东北石油大学计算机科学与技术专业接收调剂考生
- uniapp开发微信小程序如何调取自带的地址管理 获取用户收货地址
- 攻防世界 Misc高手进阶区 2分题 倒立屋