最新清华大学arXiv上传的深度学习摄像头运动估计论文
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
作者:黄浴
https://zhuanlan.zhihu.com/p/138926038
本文仅做学术分享,如有侵权,请联系删除。
2020年4月3日清华大学在arXiv上传论文“Towards Better Generalization: Joint Depth-Pose Learning without PoseNet”。
摘要:这项工作是解决本质上自监督联合深度图-姿势学习的尺度不一致问题。目前大多数方法都假定可以采用所有输入样本学习一致的深度和姿势尺度,这使学习问题变得更加困难,从而导致室内环境和长序列视觉里程计应用的性能下降和有限的通用性。为了解决这个问题,文中提出了一种新系统从网络估计中明确地解藕尺度。该方法不依赖PoseNet架构,直接从致密光流对应关系中求解基本矩阵 (fundamental matrix) 来恢复相对姿态,并利用立体视觉三角化原理来恢复可扩展的3D结构。然后,将深度预测的尺度与三角化的点云对齐,并将转换的深度图做深度误差计算和致密重投影检查。该整个系统可以接受端到端的联合训练。作者用大量的实验表明,该系统在KITTI的深度和光流估计达到了最好的性能,而且还显着提高现有自监督深度图-姿势学习方法在各种挑战性场景的泛化能力,而且实现了KITTI的里程计和NYUv2数据集基于自监督学习方法的最好结果。此外,就泛化能力而言,基于PoseNet的相对姿势估计方法的局限性本文提出了一些有趣的发现。https://github.com/B1ueber2y/TrianFlow可以下载代码。
文章首先给出结果比较:
然后介绍其算法框架:
现有自监督深度图-姿势学习方法的中心思想是,通过对图像对进行几何约束,估计单目深度和相对姿势时分别学习两个独立网络。具体而言,用预测的相对相机姿态,把预测深度重投影到另一个图像平面上,然后测量光度误差。但此类方法假定所有图像的深度图和姿势的尺度都是一致的。如图所示,本文的方法是这样的:DepthNet获取每个输入图像并分别预测单目深度。FlowNet以图像对输入预测光流;依次执行采样像素对应、基本矩阵求解和顺性(cheirality)条件检查等恢复相对姿态;精确像素匹配的重采样用于三角化测量;根据稀疏的三角化深度估计对齐深度预测,分别计算损失函数去联合监督DepthNet和FlowNet的训练。
训练的损失函数:
其中Lf是光流项(基于光度误差),Ld是深度图项(预测误差),Lp是图像对重投影项(下面介绍其两个部分),而Ls是深度平滑项(类似以前的方法),那么深度图项定义为
这里采用了ICCV'19提出的dual pixel方法。而重投影项定义为
其中两项分别是光流和深度带来的项:需要摄像头内参K
下面的结果:
先是室外环境
深度估计
光流估计
里程计估计
特意提出对未见过的运动估计
(stride=3).
(文中刚开始的结果就是这个情况)
然后室内环境
深度估计
里程计
作者认为其方法的泛化来自于以下设计:1)光流进行相机自运动预测,2)深度与3-D三角化结构之间的显式尺度对齐。与深度学习模型的相对姿势估计相比,光流不会受尺度模糊性的影响。当然,他们也知道当前的系统无法处理运动过大的场景,也不能用立体三角测量在线处理纯旋转运动。
感觉该文方法的结构,和下面这篇参考文献最接近:文中里面也提到了,作者觉得自己的创新主要是自监督学习。
【64】H Zhan, C S Weerasekera, J Bian, and I Reid. “Visual odometry revisited: What should be learnt?” arXiv preprint arXiv:1909.09803, 2019
推荐阅读:
专辑|相机标定
专辑|3D点云
专辑|SLAM
专辑|深度学习与自动驾驶
专辑|结构光
专辑|事件相机
专辑|OpenCV学习
专辑|学习资源汇总
专辑|招聘与项目对接
专辑|读书笔记
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
最新清华大学arXiv上传的深度学习摄像头运动估计论文相关推荐
- CUDA上的量化深度学习模型的自动化优化
CUDA上的量化深度学习模型的自动化优化 深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参 ...
- 在腾讯云主机上搭建pytorch深度学习环境
在腾讯云主机上搭建pytorch深度学习环境 1.购置[腾讯云主机](https://cloud.tencent.com/? fromSource=gwzcw.234976.234976.234976 ...
- windows上配置本地深度学习工作站
文章目录 前言 1. 安装Anaconda 2. 创建python环境 3. 安装Jetbrains Toolbox 4. 安装Pycharm Professional/Community 5. 安装 ...
- TVM 优化 ARM GPU 上的移动深度学习
TVM 优化 ARM GPU 上的移动深度学习 随着深度学习的巨大成功,将深度神经网络部署到移动设备的需求正在迅速增长.与桌面平台上所做的类似,在移动设备中使用 GPU 既有利于推理速度,也有利于能源 ...
- TVM在ARM GPU上优化移动深度学习
TVM在ARM GPU上优化移动深度学习 随着深度学习的巨大成功,将深度神经网络部署到移动设备的需求正在迅速增长.与在台式机平台上所做的类似,在移动设备中使用GPU可以提高推理速度和能源效率.但是,大 ...
- 姿态检测 树莓派_怎样在树莓派上轻松实现深度学习目标检测?
原标题:怎样在树莓派上轻松实现深度学习目标检测? 雷锋网按:本文为 AI 研习社编译的技术博客,原标题 How to easily Detect Objects with Deep Learning ...
- 【线上直播】深度学习简介与落地实战经验分享
分享嘉宾: 嘉宾简介: 郑泽宇,知衣科技联合创始人兼CEO,美国Carnegie Mellon University(CMU)硕士,畅销书<TensorFlow:实战Google深度学习框架&g ...
- 在Ubuntu上安装Keras深度学习框架
目录 1)安装pip 2)安装Python科学套件 3)安装TensorFlow 4)安装keras 5)安装Jupyter Notebook 6)运行Keras 本文介绍如何在Ubuntu上安装Ke ...
- activeperl安装不成功_手把手教你:Windows系统上安装GPU深度学习环境
前言 在入手学习深度学习的过程当中,有好几个朋友都咨询过我如何安装深度学习环境,之前写过一篇在Ubuntu环境下安装深度学习环境,但是有部分朋友在Windows电脑上安装深度学习环境遇到过许多的问题, ...
最新文章
- iOS/OS X内存管理(一):基本概念与原理
- 融合变形三维插件想法
- MFC主线程使用WaitForSingleObject阻塞的问题
- python openstack rabbitmq_OpenStack--Rabbitmq组件消息队列
- KeyMob:我们做的不仅是移动广告聚合 更是靠谱
- 2021银川Problem D. Farm(不保证正确性)
- 漫画算法:无序数组排序后的最大相邻差值
- java重载与重写的区别+重写父类equals方法的完美实现
- php加载lrc,javascript - 【求助】php如何获取虾米网的LRC地址?
- Python函数嵌套定义的洪荒之力
- jQuery.extend()、jQuery.fn.extend()扩展方法具体解释
- List 去除重复数据的 5 种正确姿势!
- QSettings实现记住密码
- 数学建模overleaf模板_数学建模论文怎么写?快来pick最优万能模板,一文格式全搞定!...
- 短信登录功能测试用例
- 干货!技术分享:如何写好一篇论文
- 计算机除氧化的方法,内存条氧化了的解决方法
- 六月软件程序大赛WBS图
- 转:著名的100个管理定律点评6 -- 决策(上)
- 播布客视频-Auditing笔记