multi-mono-sf:自监督多帧单目场景流估计
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
标题:Self-Supervised Multi-Frame Monocular Scene Flow
作者:Junhwa Hur, Stefan Roth
机构:Department of Computer Science, TU Darmstadt hessian.AI
来源: CVPR, 2020
编译:GUOCHENG
审核: zhuhu
这是泡泡图灵智库推送的第672篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
大家好,今天为大家带来的文章是
Self-Supervised Multi-Frame Monocular Scene Flow
由于单目场景流估计只需要单目相机,对设备的要求低,因此最近受到广泛关注,之前研究成果在精度以及实时性方面仍然有待提升。本文提出一种基于自监督的多帧单目场景流估计网络,在保证实时性的同时提高了估计的准确性。
代码地址: https://github.com/visinf/multi-mono-sf
主要工作与贡献
将原有的两帧输入的双帧基线与分割解码器模型改成三帧输入,增加了一个卷积LSTM连接网络。
用occlusion-aware census loss提高准确性
采用梯度分离策略提高训练稳定性
算法流程
该算法通过N个连续帧单目图像,估计参考帧每一个像素点的三维坐标以及下一帧图像的每一个3D点的3D场景流
2.1 Refined backbone architecture
网络架构基于Junhwa Hur 在Self-supervised monocularscene flow estimation中提出的两帧融合网络,Hur所提出的方法采用PWC-Net并且可以达到实时性。在该网络中包括特征金字塔、cost volume,并利用金字塔联合解码器估计残差流、视差。在该主干网络基础上进行改进使其适用于单目场景流估计。
在实验中,我们发现cost volume normalization以及较低层级的金字塔网络可以提升网络效果。我们发现基于扩展卷级的context network会影响自监督训练,因此采用一个新的解码器替代context network,对于每个任务从最后一层逐渐将解码器分成两个单独的解码器,我们通过实验比较预测结果,最后发现将最后三层网络单独分开可以得到非常好的效果。
图1 编码器配置
图2.测试不同编码器性能实验
2.2 Multi-frame estimation
首先在每个时间步使用时间上连续的三帧图像,图3展示了多帧估计的单层特征金字塔网络结构。
图3.网络架构
为了充分利用时间连续性条件,在编码器中用采用了卷积LSTM,可以跨时间步传递隐藏状态,利用先前时间步估计值。为了保证前后帧卷积LSTM cell state 以及hidden state的坐标一致性,我们利用估计的场景流和视差采用forward-warp转换上一帧cell state 以及hidden state坐标到当前帧。并且利用有效性mask根据对应像素特征向量的相似性分数,过滤不匹配像素点。
图4 forward-warp公式
图5. 基于convolutional LSTM with forward warping的解码器
2.3 Self-supervised loss
给定估计出的多帧场景流和视差估计,建立双向自监督损失函数。并采用了Huret等人[23]的自监督损失,包括一个视图合成损失和一个3D重建损失,引导视差和场景流输出与给定的输入图像一致。总自监督损失是视差损失Ld和场景流Lsf损失的加权和。
图6. 在时间相邻估计之间应用自监督损失。
相较于[23]提出了一个新的occlusion-aware census loss去惩罚视图合成的光度差异,它只计算可见像素的汉明距离。
图6. Occlusion-aware census transform
图7. Occlusion-aware census transform公式
3.5. Improving the training stability
取代上下文网络提高了训练的稳定性。然而,我们发现集成ConvLSTM模块[59]仍然会导致训练的不稳定性,从而在训练的早期阶段产生差异预测。
为了解决这个问题,我们建议在训练的早期阶段分离场景流损失和时差损失,以便每个解码器首先关注自己的任务。我们推测,从场景流损失反向传播到视差解码器的梯度强烈影响视差估计。为了防止场景流占据主导地位,我们分离了梯度,但仅限于训练计划的前两个阶段。
图8. 分离场景流丢失和视差解码之间的梯度
实验结果
1.实施细节
为了与最密切相关的前期工作[23]进行公平比较,我们使用相同的数据集KITTI和相同的训练协议,假设固定的立体基线。我们使用KITTI Spliti[13],将32个场景总共分割为25个场景进行训练,剩余7个场景进行验证。与[23]不同,我们在整个场景级别划分训练集验证集,以便为我们的多帧设置利用更多连续帧,并完全重新移动两个分割之间可能的重叠。然后,使用提供的场景流地面真实值评估我们的模型。KITTI Spliti和KITTI场景流训练不重叠。在我们对Kitti Split进行自我监督训练后,我们选择以semi-supervised的方式对我们的模型进行微调,并与以前最先进的单目场景流方法进行比较[7,73]。
鉴于我们使用[23]的网络作为基础,我们使用相同的增强方案和训练配置(例如,学习率、培训计划、优化器等)。为了确保训练的稳定性,我们在前2个epoch分离场景流损失和视差解码器之间的梯度。
2.估计结果
表1.多帧估计的消融研究
表2. occlusion-aware census transform消融研究
表3. KITTI 2015场景流评估
表4. KITTI 2015场景流评估
点击阅读原文, 即可获取本文下载链接。
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列、手眼标定、相机标定、orb-slam3知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
multi-mono-sf:自监督多帧单目场景流估计相关推荐
- 基于TransformerFusion的单目场景重构
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨贝塔 来源丨韦心雕AI 今天小伙伴贝塔来给大家分享一下关于Transformer的单目场景重构的 ...
- 单目图像深度估计 - 迁移篇:Depth Extraction from Video Using Non-parametric Sampling
目录 入门篇:图像深度估计相关总结 应用篇:Learning to be a Depth Camera 尺度篇:Make3D 迁移篇:Depth Extraction from Video Using ...
- IROS2022 | 4D车载雷达自监督场景流估计(上汽、爱丁堡大学)
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复[IROS2022]获取IROS2022所有自动驾驶方向论文! 作者 ...
- 基于深度学习的单目图像深度估计总结
图像深度估计,是目前计算机视觉研究中的经典问题.深度图(Depth Map)表示每个像素在空间中的位置,是一种普遍的三维场景信息表达方式,广泛应用于自动驾驶.三维重建等方面. 基于深度学习的单目图像深 ...
- CVPR2020 | 旷视研究院提出PVN3D:基于3D关键点投票网络的单目6DoF位姿估计算法
IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 将于 6 月 14- ...
- 单目图像深度估计——Monodepth2
深度估计方法及网络架构 深度估计方法 网络架构 深度网络 位姿网络 损失函数构建 深度估计方法 Monodepth2使用基于单目图像的无监督学习法完成深度估计的任务.根据SFM模型原理在卷积神经网络中 ...
- 单目图像深度估计 - SLAM辅助篇:MegaDepth
目录 入门篇:图像深度估计相关总结 应用篇:Learning to be a Depth Camera 尺度篇:Make3D 迁移篇:Depth Extraction from Video Using ...
- 单目图像深度估计 - 入门篇
由于公司网站设置,基于git的Blog越来越难打开,所以把部分内容搬运到这里. 一转眼都是两年前的内容了,且大部分都是我的个人理解,现在看来也难免有些Bug.虽然后来由于项目安排的关系没有继续单目图像 ...
- 单目图像深度估计 - 尺度篇:Make3D
目录 入门篇:图像深度估计相关总结 应用篇:Learning to be a Depth Camera 尺度篇:Make3D 迁移篇:Depth Extraction from Video Using ...
最新文章
- 简单介绍六点nginx优化的方法
- 雅可比迭代(Jocabi)
- Directory File Disk Searcher
- 大小端模式 判断方法
- Apollo自动驾驶入门课程第⑨讲 — 控制(上)
- 颗粒状糖果(巧克力)包装机设计
- 2022蓝桥杯你值得拥有
- google地图距离算法_java – 使用谷歌地图计算实际行进距离
- C# 电子发票生成pdf
- python数据分析与挖掘学习笔记(3)_小说文本数据挖掘part1
- 【愚公系列】2022年04月 编码解码-摩尔斯电码和栅栏密码
- C语言实现float类型到int类型的转化(位运算基础知识)
- 一个网站SEO优化主管必须具备的能力
- JLINK SW接线方式
- 在maven中安装及配置 本地仓库、阿里云代理下载、固定的jdk版本——详细过程
- iOS 利用摄像头闪光灯测心率绘画心率图
- java执行linux解压RAR命令程序阻塞/卡死
- Pusher入门:客户端事件
- 校园网连接成功但是无法打开登录界面解决方法
- 关于黑马手机卫士的学习总结
热门文章
- ***博客系统文章的数据库存储方式
- 关于Presenting view controllers on detached view ...
- MVC - 17.OA项目
- Premiere做影片时四周的黑框
- MyBatis基础知识汇总
- Logback也爆漏洞了,总结下最近log相关的几个漏洞
- 真正拖垮年轻人的,是沉没成本
- 【高并发】面试官问我:为啥局部变量是线程安全的?
- 今日头条新员工哀叹:要抑郁了!入职没人带,需求不知道,名词不解,测试去哪儿不知道!...
- 分布式事务开局第一篇,从数据库事务隔离级别说起