点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨图灵智库

来源丨泡泡机器人SLAM

原文链接: https://arxiv.org/pdf/2112.00726v1.pdf

标题:MonoScene: Monocular 3D Semantic Scene Completion

作者:Anh-Quan Cao, Raoul de Charette

机构:Inria

来源:Arxiv

编译:zhuhu

审核:介来拉石

图一

摘要

MonoScene提出了一种3D语义场景重建(Semantic Scene Completion,SSC)框架,其从单目RGB图像推理得到场景的稠密几何和语义信息。与其他SSC的文献依赖2.5D或者3D输入不同,在联合推理场景的语义信息同时,解决了从2D到3D的场景重建的复杂问题。我们的框架依赖于连续的2D和3D UNets,通过一种新颖的2D-3D特征投影进行桥接,并在此之前引入3D上下文关系来加强空间-语义的一致性。除了框架方面的贡献,我们还引入了新颖的全局场景和局部的锥体(frustums)损失,实验表明,我们在所有指标和数据集上的表现都优于现有文献,同时甚至在相机视野之外产生了看似合理的场景。代码和模型开源地址:https://github.com/cv-rits/MonoScene

主要工作与贡献

  • MonoScene:第一个使用单目RGB图像作为输入的SSC框架

  • 一种二维特征投影将二维和三维网络连接的机制

  • 一种3维上下文优先关系,用于增强网络环境感知层

  • 新的SSC损失函数,用于优化场景类亲和力(affinity)和局部锥体(frustum)比例

方法

系统框架

3维语义场景补全旨在解决一个3维场景的几何和语义信息。这几乎完全是通过2.5D和3D的输入来解决的,例如点云,深度等具有很强的几何特征。相反,本文通过单目图像,学习解决每个像素的语义场景重建。从2维信息恢复出3维是很难的。框架如图所示。

2D-3D backbones

在连续的2维和3维UNets之间采用标准跳跃连接(skip connection).2D UNet是基于EfficientNetB7的预训练模型作为输入图像的网络。3D的UNet是一个自定义的浅编解码器,只有两层。通过使用3D ASPP和Softmax层的补全头,从3D UNet输出的特征处理中获得SSC的输出。

Features Line of Sight Projection (FLoSP)

从3维网络处理后者将为来自2维特征的集合提供线索。整个过程如下图所示,实际上假设已知相机内参,将3维体素中心投影到2维,从2维的解码器特征图采样得到对应特征,在所有尺度集合上进行重复,最终的3维特征图可用如下表示:

其中表示b在坐标a处的采样。表示透视投影,实践中,从比例S={1,2,4,8}进行反投影,并在采样前对2D图中应用1x1的卷积用来求和。投影到图像外的体素会将其特征向量设置为0,输出图用于3D UNet的输入。

图3

3D Context Relation Prior (3D CRP)

由于SSC是高度依赖上下文的,我们从CPNet得到启发,证明了在2D分割之前使用二进制上下文的好处。这里,我们提出了一种3D上下文关系先验层,该层插入在3D UNet的瓶颈处,学习n-way 体素-体素的语义场景关系映射。这为网络提供了一个全局接受场,并通过发现机制增加了空间-语义的感知信息。

损失函数部分

  1. Scene-Class Affinity Loss:我们寻求让网络发挥SSC的全局性能。为此,我们基于2维二进制的亲和力损失的基础上,引入了直接优化场景和类度量的多个版本。特别的,我们优化了每个类的精度(P),召回(R)和特定性(S)。考虑到是体素的类别真值,是每个类别c的预测概率,则可以定义:

  2. Frustums Proportion Loss: 从单一视角来清除遮挡的歧义是不看呢的,我们观察到遮挡的体素往往是被预测为遮挡它们的对象的一部分。为了减轻这种影响,我们提出了一种锥体比例损失,显式的优化了锥体中的类分布。如图6所示

    图6

    如图6所示,我们将输入图像分割成大小相等的nxn个局部块,并将我们的损失应用于每个局部块(定义为块中各个像素截体的并集),而不是优化相机截体分布。直观地说,对齐锥体分布为场景中可见和被遮挡的结构上的网络提供了额外的线索,给出了什么可能被遮挡的感觉(例如。汽车可能会堵塞道路)。得到的损失函数如下:

训练策略

MonoScene通过优化四个损失交叉熵函数进行端到端的训练。

实验部分

表1

表2

表3

结果1

表4

图9

网络结构

结论及未来展望

MonoScene使用连续的2D-3D UNet解决单目SSC,通过新的映射连接起来,增加了上下文感知和新的损失。

局限:尽管结果不错,但我们的框架仍然很难推断出细粒度的几何图形,或者区分语义相似的类,例如汽车/卡车或椅子/沙发。由于单目SSC的视点单一,限制了其在室外场景中沿视线可见的诸如畸变等遮挡伪影。此外,当我们使用FLoSP模块开发2D-3D投影时(SEC.3.1),我们评估了从具有各种相机设置的数据集进行推断的效果,图9显示,当偏离训练集的相机设置时,结果虽然是一致的,但具有越来越大的失真。

更深远的影响:联合理解来自图像的3D几何和语义,为更好地混合现实、照片编辑或移动机器人应用铺平了道路。但是场景理解中不可避免的错误可能会有致命的问题(例如自动驾驶),这样的算法应该总是通过其他方式得到支持。

参考文献

  1. 3D Semantic Scene Completion: A survey

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

MonoScene: 单目3D语义场景补全相关推荐

  1. OccDepth:对标 Tesla Occupancy 的开源 3D 语义场景补全⽅法

    来源丨旷世研究院 开源代码 | https://github.com/megvii-research/OccDepth 论文链接 | https://arxiv.org/abs/2302.13540 ...

  2. 3D点云补全算法汇总及最新进展

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 Part 1  前言 在探讨3D 点云补全专题前,先介绍三个概念: 概念一:partial obser ...

  3. ICCV2021|单目3D目标检测真的需要伪激光雷达吗?

    作者丨agent@知乎 来源丨https://zhuanlan.zhihu.com/p/406918022 编辑丨3D视觉工坊 Paper: arxiv.org/pdf/2108.0641 Code: ...

  4. DID-M3D | 用于单目3D目标检测的解耦实例深度(ECCV2022)

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 后台回复[多模态综述]获取论文! 后台回复[ECCV2022]获取ECCV2022所有自动驾驶方向论文! 后台 ...

  5. MonoCon:使用辅助学习的单目3D目标检测框架(AAAI 2022)

    作者丨慕弋云子@知乎 来源丨https://zhuanlan.zhihu.com/p/455897310 编辑丨3D视觉工坊 本文已被收录在单目3D目标检测的综述文章中.如果你对单目3D目标检测的相关 ...

  6. DD3D:基于预训练的单目3D目标检测

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源丨CV研习社 作者丨元气满满的打工人 文章导读 导读:3D目标检测的主要应用场景就是自动驾驶,虽然 ...

  7. AutoShape:实时单目3D检测网络(ICCV2021)

    作者丨柒柒@知乎 来源丨https://zhuanlan.zhihu.com/p/404683961 编辑丨3D视觉工坊 论文标题:AutoShape: Real-Time Shape-Aware M ...

  8. 探究位置误差对单目3D目标检测影响

    标题:Delving into Localization Errors for Monocular 3D Object Detection 作者:Xinzhu Ma1, Yinmin Zhang3, ...

  9. GUPNet:基于几何不确定性映射的单目3D检测网络(ICCV2021)

    作者丨柒柒@知乎 来源丨https://zhuanlan.zhihu.com/p/397105796 编辑丨3D视觉工坊 论文标题:Geometry Uncertainty Projection Ne ...

最新文章

  1. 文件包含漏洞检测工具fimap
  2. 十一、Struts2封装请求参数的方式
  3. MicroPython开发板播放音乐教程
  4. [转]MVC中如何使用RDLC报表
  5. 【专升本计算机】最新甘肃省专升本考试C语言部分复习题带答案
  6. servlet和jsp页面过滤器Filter的作用及配置
  7. python自定义模块的使用_python自定义模块使用说明
  8. RVC使用指南(四)-集群状况
  9. 解决 No module named ‘tensorflow.examples.tutorials‘
  10. 浙江理工大学计算机考研试卷,2016年浙江理工大学计算机程序设计考研试题.pdf...
  11. LoadRunner脚本录制
  12. WPS如何给公式加上右边序号
  13. 二十一. 触发器的创建
  14. wordpress批量导入html文章,wordpress文章采集发布批量上传教程(火车头)
  15. ​GIS方向考研简述
  16. SQL语句分类DDL、DML、DQL、DCL语句
  17. 易优cms 模板制作教程
  18. Node.js + Express-jwt实现接口认证
  19. 网易真题之暗黑字符串
  20. ae粒子星辰特效插件Stardust for Mac

热门文章

  1. C++ 对引用的深入理解
  2. 一位10年程序员生涯的总结与经验忠告分享
  3. ThreadLocal使用
  4. IOS开发----生成静态库(.a)
  5. 可以连上网,能Ping通网关和DNS服务器,但是却不能访问网页
  6. MSMQ 远程计算机不可用 remotemachinenotavailable
  7. Leangoo敏捷开发项目管理平台新增测试用例管理、测试结果统计功能
  8. 面试官:引入RabbitMQ后,你如何保证全链路数据100%不丢失?
  9. 40 张图带你搞懂 TCP 和 UDP
  10. 一个互联网「打工人」的卑微一天