目录

基本情况

摘要

1. 介绍

1.1. 真实世界的来自video的场景获取

1.2. 主要贡献

2 相关工作

2.1. 多视图立体视觉

2.2. 单目深度估计

2.3. 稠密SLAM

3. MonoRec 网络

MonoRec架构

4 实验对比

4.1 KITTI数据集

消融试验

4.2 牛津RobotCar和TUM-Mono

5 总结

参考


基本情况

  • 出处:Wimbauer, F., Yang, N., von Stumberg, L., Zeller, N., & Cremers, D. (2021). MonoRec: Semi-supervised dense reconstruction in dynamic environments from a single moving camera. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 6112-6122).
  • 文章主页:Computer Vision Group - MonoRec: Semi-Supervised Dense Reconstruction in Dynamic Environments from a Single Moving Camera

MonoRec: 动态环境下单目移动相机的半监督稠密重建(TUM)

  • 数据来源: kitti sequence 07

摘要

在本文中,我们提出了MonoRec,一种半监督的单眼密集重建架构,该架构可在动态环境中从单个移动摄像机预测深度图。

  • MonoRec是一种基于多视图的立体设置(setting),
  • 该设置在成本量的作用下(in a cost volume)对多个连续图像的信息进行编码。
  • 为了处理场景中的动态对象,我们引入了一个MaskModule,它通过利用成本量中编码的光度不一致来预测移动对象的蒙版。与其他多视图立体方法不同,MonoRec能够通过利用预测的蒙版来预测静态和运动对象的准确深度
  • 此外,我们提出了一种新型的多阶段训练方案,该方案不需要LiDAR深度值的半监督损失公式。

我们在KITTI数据集上仔细评估了MonoRec,并表明与多视图和单视图方法相比,它具有最新的性能。通过在KITTI上训练的模型,我们进一步证明了MonoRec能够很好地推广到牛津RobotCar数据集和手持摄像机记录的更具挑战性的TUM-Mono数据集。培训代码和预先训练的模型即将发布。

1. 介绍

1.1. 真实世界的来自video的场景获取

获得对整个静态动态环境的3D理解可以视为自动驾驶的关键挑战之一。今天,这是基于多个传感器源(包括摄像机,LiDAR,RADAR和IMU)的融合而实现的。这样可以保证车辆周围环境的覆盖范围和准确的自我运动估计。然而,由于高成本以及维持这种复杂传感器套件的交叉校准的挑战,对减少传感器总数的需求日益增长。因此,在过去的几年中,研究人员付出了很多努力来解决仅使用单眼单眼相机的感知问题。考虑到最近的成就,单眼视觉测距(VO)[9,52,47],就自我运动估计而言,这无疑是成功的。然而,静态环境和运动对象的可靠密集3D映射仍然是一个开放的研究主题。

为了解决基于单个移动摄像机的密集3D重建问题,基本上有两条平行的研究路线。

  • 一方面,有密集的多视图立体(MVS)方法,这些方法在过去十年中得到了发展[38,41,2],并且通过使用卷积神经网络(CNN)[24,55,51]有了很大的进步。 ]。
  • 另一方面,有一些单眼深度预测方法完全依赖于深度学习[8,17,52]。

尽管所有这些方法都表现出令人印象深刻的性能,但这两种类型也都有各自的缺点。对于MVS,总体假设是要重建的是固定环境(a stationary environment)。因此,动态对象的存在总是会降低其性能。相比之下,单眼深度预测方法在重建运动对象时表现很好,因为预测是仅基于单个图像进行的。同时,由于仅使用单个图像,因此在特定的相机内参和外参下,它们强烈依赖于观测到的对象的透视外观,因此不能很好地推广到其他数据集。

1.2. 主要贡献

多视图立体视觉(MVS)方法基于具有已知姿势的一组图像来估计3D环境的稠密点云。在过去的几年中,基于经典的优化方法已经开发出很多种方案来解决MVS问题。

基于单目的深度预测仅依赖于单个图像,单目深度预测通常在训练期间仍然消耗视频序列或立体图像。它的目的是解决与本文提出的类似的问题,即对包括静态和动态对象的3D场景进行稠密点云重构。

为了结合具有deep MVS单目深度预测的优势,我们提出了MonoRec,这是一种新颖的单目密集重建架构,由MaskModule和DepthModule组成。

  • 使用成本量(cost volumes)对来自多个连续图像的信息进行编码,这些成本量是基于结构相似性指标度量(SSIM),而不是像以前的工作一样基于绝对差之和(SAD)构建的。
  • MaskModule能够识别运动像素降低成本量中的该相应体素。因此,与其他MVS方法相比,MonoRec不受移动物体上的伪影的影响,因此可提供静态和动态物体的准确深度估计

与KITTI数据集上的其他MVS和单目深度预测方法相比,通过提出的多阶段训练方案,MonoRec可以实现最先进的性能。此外,我们在Oxford RobotCar数据集[34]和tumo - mono数据集[10]上验证了我们的网络泛化能力。图1显示了我们的方法生成的密集点云。

图1. MonoRec可以通过单个移动相机提供了高质量的稠密重建的点云。该图显示了通过简单地累积预测的深度图来进行大规模室外点云重建(KITTI数据集)的示例。

2 相关工作

2.1. 多视图立体视觉

//todo

2.2. 单目深度估计

//todo

2.3. 稠密SLAM

上面引用的几种方法解决了稠密3D重建相机姿态估计的问题[44,61,57,59,60,53,52]。 然而,这些方法要么独立解决两个问题,要么仅将一个问题整合到另一个问题中(例如[60,52])。 相反Newcombe等人 [36],联合优化6DOF相机姿态密集的3D场景结构。 然而,由于其体积地图(volumetric map)表示,它仅适用于小尺度场景。 最近,Bloesch等人[1]提出一种学习编码表示(a learned code representation)可以与6DOF相机姿势一起优化。 Czarnowski等人追求这个想法。 [5]并集成到一个完整的SLAM系统中。 但是,上述所有方法都无法解决移动对象的问题。 相反,提议的MonoRec网络可以明确地处理移动对象,并在移动和静态结构上实现卓越的准确性。此外,先前的工作表明,相机跟踪的准确性不一定会随着更多点而提高[9,11]。因此,MonoRec只专注于使用来自稀疏VO系统的位姿,来提供稠密重建,并在公共的benchmarks上显示最先进的结果。注意,通过这种方式,MonoRec可以很容易地与任何带有任意传感器设置的VO系统连接。

3. MonoRec 网络

MonoRec使用一组连续的图像帧相应的相机位姿来预测给定关键帧的稠密深度图。MonoRec结构结合了MaskModule和DepthModule。

  • MaskModule:用于预测运动对象的掩膜(mask),以提高深度精度,并允许我们消除3D重建中的噪声。
  • DepthModule:根据掩膜的成本值(masked cost volume)来预测深度图。

MonoRec架构

细化损失:a)MaskModule细化和b)DepthModule细化损失函数。

4 实验对比

为了评估所提出的方法,我们对KITTI数据集进行了训练和测试[16]。 我们将

  • 结果最新的单目深度预测MVS方法进行比较。
  • 为了显示提出的不同组件的有效性,我们进行了广泛的消融试验并验证了我们的设计选择。
  • 此外,我们使用在KITTI上训练的模型论证了牛津RobotCar数据集[34]的泛化能力

图5.  关于KITTI的定性结果:图的上部显示了从KITTI测试集中选择的若干帧的结果。 使用LiDAR作为GT(真值),以半监督方式训练了比较的PackNet模型。 除了深度图,我们还通过重新投影深度并从两个不同的角度查看来显示3D点云。 为了进行比较,我们从相应的角度展示了LiDAR的GT。 我们的方法清楚地显示了最佳的预测质量。 该图的下部显示了大规模的重构,即从多个帧中累积点云。 红色插图描绘了从运动对象重建的伪像。 借助提出的MaskModule,我们可以有效地滤除运动对象,以避免在最终重建中出现这些伪像。

由kitti数据集生成的稠密点云的质量

表1:KITTI的定量结果:MonoRec与我们KITTI测试集上其他方法的比较。 “Dataset”列显示了相应方法使用的训练数据集,请注意,Eigen split 是我们的odometry split分割的超集。 最佳/次优结果标记为粗体/带下划线。 评估结果表明,我们的方法总体上取得了最佳性能。 图例:M:单眼图像,S:立体图像,D:GT深度,D *:来自DVSO的深度,KF:关键帧,KF + 2:关键帧+ 2个单帧,CS:Cityscapes[4],pretr .:预训练网络 ,FB:DeepTAM的固定频段模块(Fixed band module),Ref .: DeepTAM的窄带优化模块(Narrow band refinement module)

MonoRec与KITTI测试集中的其他方法之间的比较。“数据集”列显示了相应方法使用的训练数据集,评估结果表明,该的方法总体上取得了最佳性能。

图6:定性改进:成本量掩膜(cost volume masking) 和深度细化的效果

4.1 KITTI数据集

Eigen split[7] 是用于评估KITTI深度估计的最流行的训练/测试分割。我们不能直接使用它,因为MonoRec需要带有估计姿态时间连续的图像。因此,我们选择训练/测试拆分为KITTI Odometry基准测试与Eigen split之间的交集,这样就得到了13714/8634个样本用于训练/测试。我们从单目VO系统DVSO中,获得图像之间的相对位姿[53]。在训练期间,我们还利用DVSO(Deep virtual stereo odometry)生成的点云作为稀疏深度监控信号。请注意,在训练MaskModule时,我们仅使用2412个图像,这些图像在生成的辅助蒙版中包含运动对象。以下,我们显示了使用改进的地面真实性[46]并忽略深度大于80 m的像素的评估结果。我们首先将我们的方法与最新技术进行比较,包括自监督单眼方法(MonoDepth2和PackNet),使用稀疏LiDAR数据的半监督单眼方法(PackNet),监督单眼方法(DORN)和MVS方法(DeepMVS和DeepTAM),如表1所示。请注意,DeepTAM的培训代码尚未发布,为了使用我们的split进行训练和比较 ,我们实现了它,以提供公平的比较。尽管仅依靠图像而不使用LiDAR真值进行训练,但我们的方法以明显的优势胜过所有其他方法。图5所示的定性结果也清楚地反映了这一点。与单眼深度估计方法相比,我们的方法在深度图中提供了非常清晰的边缘,并且可以恢复更精细的细节。与其他MVS方法相比,它可以更好地处理运动对象,如图7所示。

单个深度图通常无法真正反映大规模重建的质量。因此,我们还使用了来自图5下部中多个帧的深度图来可视化累积的点。我们可以看到,由于使用MaskModule,我们的方法可以提供非常高质量的重构,并且能够消除由移动对象引起的伪像。我们敦促读者观看补充视频,以进行更有说服力的比较。

消融试验

为了研究不同成分对方法性能的影响,我们进行了彻底的消融试验。表2显示了我们的消融试验的定量结果。这些数字证实,我们提出的所有建议均比基准方法改善了深度预测。此外,图6定性地显示了MaskModule和优化训练所实现的改进。

4.2 牛津RobotCar和TUM-Mono

为了演示MonoRec的泛化能力,我们在牛津RobotCar数据集和TUM-Mono数据集上测试了我们的KITTI模型。牛津RobotCar是由安装在车辆上的摄像机记录的街景数据集。它显示了与KITTI类似的运动模式和视角。然而,TUM-Mono是由手持式单色相机记录的,因此与KITTI相比,它展现出了截然不同的运动和图像质量。结果如图8所示。单眼方法难以将其推广到新的环境。比较的MVS方法显示出更多的伪像,并且无法预测运动对象的合理深度。相反,我们的方法能够很好地将深度和运动对象预测的概图推广到新场景。由于牛津RobotCar还提供LiDAR深度数据,因此我们进一步显示了补充材料中的定量评估。

图7. 运动对象深度估计的比较:与其他MVS方法相比,MonoRec能够预测可能的深度。此外,深度预测在场景的静态区域中具有较少的噪声和伪像

5 总结

我们介绍了MonoRec,这是一种深度架构,可仅通过单个移动摄像机来估计准确的密集3D重建。我们首先建议使用SSIM作为光度测量来构建成本量

  • 为了处理室外场景中常见的动态对象,我们提出了一种新颖的MaskModule,它可以根据输入的成本量预测移动的对象蒙版。使用预测的蒙版,提议的DepthModule能够估计静态和动态对象的准确深度
  • 此外,我们提出了一种新颖的多阶段训练方案以及用于训练深度预测的半监督损失公式

综合起来,MonoRec能够在KITTI上定性和定量地胜过最新的MVS和单眼深度预测方法,并且在Oxford Oxford RobotCar和TUM-Mono上显示出强大的泛化能力。我们相信,这种从单个移动摄像机中恢复准确的密集3D重建的能力将有助于将摄像机确立为自主系统的先导传感器。

参考

  • [53] Nan Yang, Rui Wang, Jorg St ¨ uckler, and Daniel Cremers. ¨ Deep virtual stereo odometry: Leveraging deep depth prediction for monocular direct sparse odometry. In European Conference on Computer Vision (ECCV), pages 817–833, 2018.
  • MonoRec:无需激光雷达,只需单个相机就可以实现三维场景的稠密重建

论文笔记_S2D.64_2021_MonoRec_动态环境下单目移动相机的半监督稠密重建相关推荐

  1. 论文笔记_S2D.77_2013_TOR_使用RGBD相机的3D建图(RGBD SLAM V2)

    目录 基本情况 摘要 介绍 系统流程 特征提取 运动估计 EMM:Environment Measurement Model 回环检测 图优化 建图OctoMap 参考 基本情况 出处:Endres ...

  2. 论文笔记:用于动态薄膜干涉测量的高光谱成像《Hyperspectral imaging for dynamic thin film interferometry》

    论文地址:Hyperspectral imaging for dynamic thin film interferometry | Scientific Reports 目录 论文简介 阻因 现有方法 ...

  3. 【论文笔记】SIFA——基于GAN的双向跨模态无监督域适应框架

    本文是论文<Unsupervised Bidirectional Cross-Modality Adaptation via Deeply Synergistic Image and Featu ...

  4. ERASOR:解决动态环境下的SLAM建图问题,有效过滤动态物体(ICRA2021)

    作者丨马赫WGH@知乎 来源丨https://zhuanlan.zhihu.com/p/409884870 编辑丨3D视觉工坊 一.算法解析 这篇论文致力于解决动态环境下的建图问题. 在以「城市开阔道 ...

  5. 【论文精度】Mattias P.H Lasse Hansen:PDD-net 3D,2.5D 两篇论文笔记

    简介 PDD-Net 是德国吕贝克大学的 Mattias P. Heinrich 和 Lasse Hansen 在深度神经网络应用于医学图像配准(MICCAI 2020 - Learn2Reg cha ...

  6. 【S2VD】S2VD半监督视频降雨方法(Semi-Supervised Video Deraining with Dynamical Rain Generator)论文学习

    摘要 目前的深度学习的视频去雨方法主要有两个缺点: (1)大多数不足以模拟雨天视频中包含的雨层特征. (2)当前的深度学习方法严重依赖于标记的训练数据,其雨层是合成的,导致与真实数据的偏差. S2VD ...

  7. 动态环境下的SLAM:DynaSLAM 论文学习笔记

    动态环境下的SLAM:DynaSLAM 论文学习笔记 这篇文章 论文摘要 系统流程 相关环节的实现方法 神经网络检测图中动态物体(Mask R-CNN) Low-Cost Tracking 使用多视图 ...

  8. 【论文笔记】DP-SLAM:一种动态环境下基于移动概率的SALM系统A visual SLAM with moving probability towards dynamic environments

    Central Idea 本文提出了一种新的基于稀疏特征的视觉SLAM算法(DP-SLAM),该算法基于移动概率传播模型进行动态关键点检测.该概率表示一个关键点位于移动对象上的可能性.该方法结合几何约 ...

  9. 3d object是什么文件_[单目3D目标检测论文笔记] 3D Bounding Box Estimation

    本文是3D Bounding Box Estimation Using Deep Learning and Geometry的论文笔记及个人理解.这篇文章是单目图像3d目标检测的一个经典工作之一.其目 ...

  10. 论文笔记-ORB-SLAM2-双目与rgbd相机跟单目情况的区别

    ORB-SLAM2的最大贡献就是把原来的系统扩展到了双目,rgbd上,这一篇也主要讲的是怎么使用双目或者深度相机的信息,以及他们和单目的区别. I.INTRODUCTION Place Recogni ...

最新文章

  1. 企业级nosql数据库应用与实战-redis
  2. 1047.删除字符串中的相邻重复项
  3. java通过url读取远程数据并保持到本地
  4. ERP_Oracle Fusion Application新一代ERP介绍
  5. 矩阵存储 oracle表,二种矩阵存储方式汇总比较
  6. 宽量程电压电流 stm32_万用表你只会量电压电流?史上最全万用表手册,这么做你不会烧表...
  7. [python opencv 计算机视觉零基础到实战] 十六、用opencv画画
  8. 谈判学:三招了解对方底线
  9. 吴恩达深度学习 —— 作业2
  10. 华为nova8系列获得3C认证:搭载66W超级快充怒追Mate40
  11. 速更新!流行的开源邮件客户端 Mozilla Thunderbird 91.3修复多个高危缺陷
  12. HDU5686 Problem B【递推】
  13. 左对齐 latex_LaTex中使用XYpic绘制交换图表
  14. 基于解释的学习一个例子
  15. js怎么获取ueditor值_js获取UEditor富文本编辑器中的图片地址
  16. [原创工具] SangoExplorer - 《三国群英传》全系列资源浏览器
  17. 助力自己在金融领域中更加游刃有余的人大与加拿大女王大学金融硕士项目你读到了吗?
  18. Spring + JedisCluster操作Redis(集群)
  19. 将秒针声音加入JAVA_喜马拉雅联合秒针系统发布声音流广告报告
  20. 如何使用Nacos实现配置热更新

热门文章

  1. [2019CCPC网络赛][hdu6704]K-th occurrence(后缀数组主席树)
  2. linux安装curl扩展
  3. Java多线程系列---“基础篇”13之 乐观锁与悲观锁
  4. Asp.NetCore远程自启动、重启、关闭实现
  5. 关于SQL中Between语句查询日期的问题
  6. stylus 迭代+插值实现css同类型不同值样式序列
  7. JavaScript或MyEclipse—如何解决js文件导入到MyEclipse工程后出错?
  8. MySQL InnoDB存储引擎为什么要用自增的主键?
  9. k8s部署jenkins
  10. 你真的把数据库事务搞懂了吗,有图有真相,图文并茂!