点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

标题:Self-Supervised Multi-Frame Monocular Scene Flow

作者:Junhwa Hur, Stefan Roth

机构:Department of Computer Science, TU Darmstadt  hessian.AI

来源:  CVPR, 2020

编译:GUOCHENG

审核: zhuhu

这是泡泡图灵智库推送的第672篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

大家好,今天为大家带来的文章是 

Self-Supervised Multi-Frame Monocular Scene Flow

由于单目场景流估计只需要单目相机,对设备的要求低,因此最近受到广泛关注,之前研究成果在精度以及实时性方面仍然有待提升。本文提出一种基于自监督的多帧单目场景流估计网络,在保证实时性的同时提高了估计的准确性。

代码地址: https://github.com/visinf/multi-mono-sf

主要工作与贡献

  1. 将原有的两帧输入的双帧基线与分割解码器模型改成三帧输入,增加了一个卷积LSTM连接网络。

  2. 用occlusion-aware census loss提高准确性

  3. 采用梯度分离策略提高训练稳定性

算法流程

该算法通过N个连续帧单目图像,估计参考帧每一个像素点的三维坐标以及下一帧图像的每一个3D点的3D场景流

2.1 Refined backbone architecture

网络架构基于Junhwa  Hur 在Self-supervised  monocularscene flow estimation中提出的两帧融合网络,Hur所提出的方法采用PWC-Net并且可以达到实时性。在该网络中包括特征金字塔、cost volume,并利用金字塔联合解码器估计残差流、视差。在该主干网络基础上进行改进使其适用于单目场景流估计。

在实验中,我们发现cost volume normalization以及较低层级的金字塔网络可以提升网络效果。我们发现基于扩展卷级的context network会影响自监督训练,因此采用一个新的解码器替代context network,对于每个任务从最后一层逐渐将解码器分成两个单独的解码器,我们通过实验比较预测结果,最后发现将最后三层网络单独分开可以得到非常好的效果。

图1 编码器配置

图2.测试不同编码器性能实验

2.2  Multi-frame estimation

首先在每个时间步使用时间上连续的三帧图像,图3展示了多帧估计的单层特征金字塔网络结构。

图3.网络架构

为了充分利用时间连续性条件,在编码器中用采用了卷积LSTM,可以跨时间步传递隐藏状态,利用先前时间步估计值。为了保证前后帧卷积LSTM cell state 以及hidden state的坐标一致性,我们利用估计的场景流和视差采用forward-warp转换上一帧cell state 以及hidden state坐标到当前帧。并且利用有效性mask根据对应像素特征向量的相似性分数,过滤不匹配像素点。

图4 forward-warp公式

图5.  基于convolutional LSTM with forward warping的解码器

2.3 Self-supervised loss

给定估计出的多帧场景流和视差估计,建立双向自监督损失函数。并采用了Huret等人[23]的自监督损失,包括一个视图合成损失和一个3D重建损失,引导视差和场景流输出与给定的输入图像一致。总自监督损失是视差损失Ld和场景流Lsf损失的加权和。

图6.  在时间相邻估计之间应用自监督损失。

相较于[23]提出了一个新的occlusion-aware census loss去惩罚视图合成的光度差异,它只计算可见像素的汉明距离。

图6.   Occlusion-aware census transform

图7.   Occlusion-aware census transform公式

3.5.  Improving the training stability

取代上下文网络提高了训练的稳定性。然而,我们发现集成ConvLSTM模块[59]仍然会导致训练的不稳定性,从而在训练的早期阶段产生差异预测。

为了解决这个问题,我们建议在训练的早期阶段分离场景流损失和时差损失,以便每个解码器首先关注自己的任务。我们推测,从场景流损失反向传播到视差解码器的梯度强烈影响视差估计。为了防止场景流占据主导地位,我们分离了梯度,但仅限于训练计划的前两个阶段。

图8. 分离场景流丢失和视差解码之间的梯度

实验结果

1.实施细节

为了与最密切相关的前期工作[23]进行公平比较,我们使用相同的数据集KITTI和相同的训练协议,假设固定的立体基线。我们使用KITTI Spliti[13],将32个场景总共分割为25个场景进行训练,剩余7个场景进行验证。与[23]不同,我们在整个场景级别划分训练集验证集,以便为我们的多帧设置利用更多连续帧,并完全重新移动两个分割之间可能的重叠。然后,使用提供的场景流地面真实值评估我们的模型。KITTI Spliti和KITTI场景流训练不重叠。在我们对Kitti Split进行自我监督训练后,我们选择以semi-supervised的方式对我们的模型进行微调,并与以前最先进的单目场景流方法进行比较[7,73]。

鉴于我们使用[23]的网络作为基础,我们使用相同的增强方案和训练配置(例如,学习率、培训计划、优化器等)。为了确保训练的稳定性,我们在前2个epoch分离场景流损失和视差解码器之间的梯度。

2.估计结果

表1.多帧估计的消融研究

表2. occlusion-aware census transform消融研究

表3. KITTI 2015场景流评估

表4. KITTI 2015场景流评估

点击阅读原文, 即可获取本文下载链接。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列、手眼标定、相机标定、orb-slam3知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

multi-mono-sf:自监督多帧单目场景流估计相关推荐

  1. 基于TransformerFusion的单目场景重构

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨贝塔 来源丨韦心雕AI 今天小伙伴贝塔来给大家分享一下关于Transformer的单目场景重构的 ...

  2. 单目图像深度估计 - 迁移篇:Depth Extraction from Video Using Non-parametric Sampling

    目录 入门篇:图像深度估计相关总结 应用篇:Learning to be a Depth Camera 尺度篇:Make3D 迁移篇:Depth Extraction from Video Using ...

  3. IROS2022 | 4D车载雷达自监督场景流估计(上汽、爱丁堡大学)

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复[IROS2022]获取IROS2022所有自动驾驶方向论文! 作者 ...

  4. 基于深度学习的单目图像深度估计总结

    图像深度估计,是目前计算机视觉研究中的经典问题.深度图(Depth Map)表示每个像素在空间中的位置,是一种普遍的三维场景信息表达方式,广泛应用于自动驾驶.三维重建等方面. 基于深度学习的单目图像深 ...

  5. CVPR2020 | 旷视研究院提出PVN3D:基于3D关键点投票网络的单目6DoF位姿估计算法

    IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 将于 6 月 14- ...

  6. 单目图像深度估计——Monodepth2

    深度估计方法及网络架构 深度估计方法 网络架构 深度网络 位姿网络 损失函数构建 深度估计方法 Monodepth2使用基于单目图像的无监督学习法完成深度估计的任务.根据SFM模型原理在卷积神经网络中 ...

  7. 单目图像深度估计 - SLAM辅助篇:MegaDepth

    目录 入门篇:图像深度估计相关总结 应用篇:Learning to be a Depth Camera 尺度篇:Make3D 迁移篇:Depth Extraction from Video Using ...

  8. 单目图像深度估计 - 入门篇

    由于公司网站设置,基于git的Blog越来越难打开,所以把部分内容搬运到这里. 一转眼都是两年前的内容了,且大部分都是我的个人理解,现在看来也难免有些Bug.虽然后来由于项目安排的关系没有继续单目图像 ...

  9. 单目图像深度估计 - 尺度篇:Make3D

    目录 入门篇:图像深度估计相关总结 应用篇:Learning to be a Depth Camera 尺度篇:Make3D 迁移篇:Depth Extraction from Video Using ...

最新文章

  1. 简单介绍六点nginx优化的方法
  2. 雅可比迭代(Jocabi)
  3. Directory File Disk Searcher
  4. 大小端模式 判断方法
  5. Apollo自动驾驶入门课程第⑨讲 — 控制(上)
  6. 颗粒状糖果(巧克力)包装机设计
  7. 2022蓝桥杯你值得拥有
  8. google地图距离算法_java – 使用谷歌地图计算实际行进距离
  9. C# 电子发票生成pdf
  10. python数据分析与挖掘学习笔记(3)_小说文本数据挖掘part1
  11. 【愚公系列】2022年04月 编码解码-摩尔斯电码和栅栏密码
  12. C语言实现float类型到int类型的转化(位运算基础知识)
  13. 一个网站SEO优化主管必须具备的能力
  14. JLINK SW接线方式
  15. 在maven中安装及配置 本地仓库、阿里云代理下载、固定的jdk版本——详细过程
  16. iOS 利用摄像头闪光灯测心率绘画心率图
  17. java执行linux解压RAR命令程序阻塞/卡死
  18. Pusher入门:客户端事件
  19. 校园网连接成功但是无法打开登录界面解决方法
  20. 关于黑马手机卫士的学习总结

热门文章

  1. ***博客系统文章的数据库存储方式
  2. 关于Presenting view controllers on detached view ...
  3. MVC - 17.OA项目
  4. Premiere做影片时四周的黑框
  5. MyBatis基础知识汇总
  6. Logback也爆漏洞了,总结下最近log相关的几个漏洞
  7. 真正拖垮年轻人的,是沉没成本
  8. 【高并发】面试官问我:为啥局部变量是线程安全的?
  9. 今日头条新员工哀叹:要抑郁了!入职没人带,需求不知道,名词不解,测试去哪儿不知道!...
  10. 分布式事务开局第一篇,从数据库事务隔离级别说起