multi-mono-sf:自监督多帧单目场景流估计

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

标题：Self-Supervised Multi-Frame Monocular Scene Flow

作者：Junhwa Hur, Stefan Roth

机构：Department of Computer Science, TU Darmstadt hessian.AI

来源： CVPR, 2020

编译：GUOCHENG

审核: zhuhu

这是泡泡图灵智库推送的第672篇文章，欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是　

Self-Supervised Multi-Frame Monocular Scene Flow

由于单目场景流估计只需要单目相机，对设备的要求低，因此最近受到广泛关注，之前研究成果在精度以及实时性方面仍然有待提升。本文提出一种基于自监督的多帧单目场景流估计网络，在保证实时性的同时提高了估计的准确性。

代码地址: https://github.com/visinf/multi-mono-sf

主要工作与贡献

将原有的两帧输入的双帧基线与分割解码器模型改成三帧输入，增加了一个卷积LSTM连接网络。
用occlusion-aware census loss提高准确性
采用梯度分离策略提高训练稳定性

算法流程

该算法通过N个连续帧单目图像，估计参考帧每一个像素点的三维坐标以及下一帧图像的每一个3D点的3D场景流

2.1 Refined backbone architecture

网络架构基于Junhwa Hur 在Self-supervised monocularscene flow estimation中提出的两帧融合网络，Hur所提出的方法采用PWC-Net并且可以达到实时性。在该网络中包括特征金字塔、cost volume，并利用金字塔联合解码器估计残差流、视差。在该主干网络基础上进行改进使其适用于单目场景流估计。

在实验中，我们发现cost volume normalization以及较低层级的金字塔网络可以提升网络效果。我们发现基于扩展卷级的context network会影响自监督训练，因此采用一个新的解码器替代context network，对于每个任务从最后一层逐渐将解码器分成两个单独的解码器，我们通过实验比较预测结果，最后发现将最后三层网络单独分开可以得到非常好的效果。

图1 编码器配置

图2.测试不同编码器性能实验

2.2 Multi-frame estimation

首先在每个时间步使用时间上连续的三帧图像，图3展示了多帧估计的单层特征金字塔网络结构。

图3.网络架构

为了充分利用时间连续性条件，在编码器中用采用了卷积LSTM，可以跨时间步传递隐藏状态，利用先前时间步估计值。为了保证前后帧卷积LSTM cell state 以及hidden state的坐标一致性，我们利用估计的场景流和视差采用forward-warp转换上一帧cell state 以及hidden state坐标到当前帧。并且利用有效性mask根据对应像素特征向量的相似性分数，过滤不匹配像素点。

图4 forward-warp公式

图5. 基于convolutional LSTM with forward warping的解码器

2.3 Self-supervised loss

给定估计出的多帧场景流和视差估计，建立双向自监督损失函数。并采用了Huret等人[23]的自监督损失，包括一个视图合成损失和一个3D重建损失，引导视差和场景流输出与给定的输入图像一致。总自监督损失是视差损失Ld和场景流Lsf损失的加权和。

图6. 在时间相邻估计之间应用自监督损失。

相较于[23]提出了一个新的occlusion-aware census loss去惩罚视图合成的光度差异，它只计算可见像素的汉明距离。

图6. Occlusion-aware census transform

图7. Occlusion-aware census transform公式

3.5. Improving the training stability

取代上下文网络提高了训练的稳定性。然而，我们发现集成ConvLSTM模块[59]仍然会导致训练的不稳定性，从而在训练的早期阶段产生差异预测。

为了解决这个问题，我们建议在训练的早期阶段分离场景流损失和时差损失，以便每个解码器首先关注自己的任务。我们推测，从场景流损失反向传播到视差解码器的梯度强烈影响视差估计。为了防止场景流占据主导地位，我们分离了梯度，但仅限于训练计划的前两个阶段。

图8. 分离场景流丢失和视差解码之间的梯度

实验结果

1.实施细节

为了与最密切相关的前期工作[23]进行公平比较，我们使用相同的数据集KITTI和相同的训练协议，假设固定的立体基线。我们使用KITTI Spliti[13]，将32个场景总共分割为25个场景进行训练，剩余7个场景进行验证。与[23]不同，我们在整个场景级别划分训练集验证集，以便为我们的多帧设置利用更多连续帧，并完全重新移动两个分割之间可能的重叠。然后，使用提供的场景流地面真实值评估我们的模型。KITTI Spliti和KITTI场景流训练不重叠。在我们对Kitti Split进行自我监督训练后，我们选择以semi-supervised的方式对我们的模型进行微调，并与以前最先进的单目场景流方法进行比较[7,73]。

鉴于我们使用[23]的网络作为基础，我们使用相同的增强方案和训练配置（例如，学习率、培训计划、优化器等）。为了确保训练的稳定性，我们在前2个epoch分离场景流损失和视差解码器之间的梯度。

2.估计结果

表1.多帧估计的消融研究

表2. occlusion-aware census transform消融研究

表3. KITTI 2015场景流评估

表4. KITTI 2015场景流评估

点击阅读原文，即可获取本文下载链接。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列三维点云系列结构光系列、手眼标定、相机标定、orb-slam3知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

multi-mono-sf:自监督多帧单目场景流估计相关推荐

基于TransformerFusion的单目场景重构
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨贝塔来源丨韦心雕AI 今天小伙伴贝塔来给大家分享一下关于Transformer的单目场景重构的 ...
单目图像深度估计 - 迁移篇：Depth Extraction from Video Using Non-parametric Sampling
目录入门篇:图像深度估计相关总结应用篇:Learning to be a Depth Camera 尺度篇:Make3D 迁移篇:Depth Extraction from Video Using ...
IROS2022 | 4D车载雷达自监督场景流估计（上汽、爱丁堡大学）
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取点击进入→自动驾驶之心技术交流群后台回复[IROS2022]获取IROS2022所有自动驾驶方向论文! 作者 ...
基于深度学习的单目图像深度估计总结
图像深度估计,是目前计算机视觉研究中的经典问题.深度图(Depth Map)表示每个像素在空间中的位置,是一种普遍的三维场景信息表达方式,广泛应用于自动驾驶.三维重建等方面. 基于深度学习的单目图像深 ...
CVPR2020 | 旷视研究院提出PVN3D：基于3D关键点投票网络的单目6DoF位姿估计算法
IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 将于 6 月 14- ...
单目图像深度估计——Monodepth2
深度估计方法及网络架构深度估计方法网络架构深度网络位姿网络损失函数构建深度估计方法 Monodepth2使用基于单目图像的无监督学习法完成深度估计的任务.根据SFM模型原理在卷积神经网络中 ...
单目图像深度估计 - SLAM辅助篇：MegaDepth
目录入门篇:图像深度估计相关总结应用篇:Learning to be a Depth Camera 尺度篇:Make3D 迁移篇:Depth Extraction from Video Using ...
单目图像深度估计 - 入门篇
由于公司网站设置,基于git的Blog越来越难打开,所以把部分内容搬运到这里. 一转眼都是两年前的内容了,且大部分都是我的个人理解,现在看来也难免有些Bug.虽然后来由于项目安排的关系没有继续单目图像 ...
单目图像深度估计 - 尺度篇：Make3D
目录入门篇:图像深度估计相关总结应用篇:Learning to be a Depth Camera 尺度篇:Make3D 迁移篇:Depth Extraction from Video Using ...

multi-mono-sf:自监督多帧单目场景流估计

multi-mono-sf:自监督多帧单目场景流估计相关推荐

最新文章

热门文章