点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

关键词动态场景,相机重定位

导  读

本文是对发表于计算机视觉和模式识别领域的顶级会议 CVPR 2021的 Oral 论文 “Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments”(通过在空间划分中鲁棒的神经路由实现室内动态场景的相机重定位)的解读。

该论文由北京大学陈宝权研究团队与山东大学、北京电影学院、斯坦福大学和 Google Research 合作,针对室内动态变化场景的相机重定位问题,提出在场景空间划分中进行路由的思想,记忆场景静态信息的同时感知场景动态信息,从而实现鲁棒的相机位姿预测。

实验证明,该方法显著提升了动态变化场景中的相机重定位效果。

论文链接:https://arxiv.org/abs/2012.04746

(点击文末“阅读原文”跳转论文链接)

左:在场景空间划分中路由静态像素(绿色)和剔除动态像素(红色)

右:相机运动轨迹预测值(蓝色)与真实值(绿色)对比

01

研究背景

相机重定位研究在已知环境中根据 RGB-D 图像推算相机的位置姿态,是实现场景建模、增强现实、机器人导航等技术的基础。近年来,最先进的研究工作通常 (A) 先记忆和推测所观测到不同对象的位置;(B) 再通过这些对象位置的相对关系反算自身位姿。对于 (A),被观测对象的位置信息通常表示为图像像素坐标和场景世界坐标之间的对应关系(2D/3D-3D correspondences),使用决策树、神经网络等机器学习模型实现;对于 (B),通常表示为局部坐标系与世界坐标系之间的刚体变换,使用 Perspective-n-Point、orthogonal Procrustes 等非机器学习算法求解。

相机位姿和观测得到的RGB-D图像

02

核心问题

现实环境中包含着多种多样的动态成分,造成场景日新月异的变化。这些动态变化给相机重定位带来了麻烦:一方面,动态变化引入噪声导致对应关系匹配失败;另一方面,匹配正确的对象可能由于位置变化导致相机位姿求解错误。由于动态变化难以预料、无法穷尽,所以不易使用监督学习的方法直接学习场景中的动态变化。即使应用 RANSAC 等鲁棒估计算法,也难以准确求解动态场景下的相机位姿。因此,动态变化场景中的相机重定位面临挑战

日常生活中动态变化的室内场景:家具移动,光照变化等

03

本文方法

为解决上述问题,我们提出基于空间划分的神经路由算法 NeuralRouting。我们的直观见解是,场景中的动态变化通常表现为几何对象的三维位置改变。于是,我们从几何角度出发建模场景空间。

首先,我们将场景三维空间进行层次划分构建树形结构(space partition tree),树的每个节点对应场景中的一个区域。随着树的层次加深,场景区域划分由粗粒度走向细粒度。基于区域划分,我们使用神经网络学习图像像素在树中的路由(routing),从而记忆视觉对象在不同粒度场景空间中的位置。得益于空间划分,通过显式地设定错误路由(模拟三维位置改变),我们可以构造动态变化对象的标注,以此学习场景中的动态变化,将其作为一个额外的路由分类,称为离群节点(outlier)。如果一个像素属于静态区域,它将被路由到树的叶子节点,以该节点对应的场景区域作为预测结果;如果一个像素属于动态区域,它将被路由到离群节点,被视为噪声点拒绝进行区域预测。因此,图像中的每个像素如果不被拒绝,那么就会被映射到场景空间,从而建立了图像像素和场景空间之间鲁棒的对应关系。通过这些对应关系,我们使用基于 Kabsch 算法的 RANSAC 框架求解相机位姿。

以二维场景和3层4叉树作为例子,展示空间划分和路由模型

04

实验结论

具体地,我们使用 n 层 k 叉树对场景进行划分。其中 k=2^z,对应于 z 次坐标轴二分。例如,当 z=3 时,x, y, z 轴的依次二分使我们得到经典的八叉树模型。对于树的每一层,路由表示为类别数量为 k+1 的分类任务,对应当前节点的 k 个子节点和1个离群节点。由于树的各层分别对应于不同粒度的场景区域,在每一层的路由中我们使用相应尺度的感受野,从而兼顾全局和局部特征。在实验中,我们使用5层16叉树预测像素和场景的对应关系,使用 preemptive RANSAC 求解相机位姿。RIO-10(动态场景)和 7-Scenes(静态场景)数据集的实验结果证明,我们提出的 NeuralRouting 算法在动态场景中的相机重定位能力显著超越所有相关方法,在静态场景中也达到一流水平。

RIO-10和7-Scenes数据集的实验结果,红色标注最优,蓝色标注次优

05

总  结

针对室内动态变化场景,我们提出可以感知动态点的相机重定位算法 NeuralRouting。该方法 (1) 通过三维空间划分建模场景几何,(2) 使用神经网络记忆静态视觉对象的空间位置,(3) 感知并去除动态视觉对象的干扰。实验证明,该方法有效地提升了动态变化场景中相机重定位效果。

图文 | 董思言

Visual Computing and Learning (VCL)

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

CVPR 2021 Oral | 室内动态场景中的相机重定位相关推荐

  1. 视频+课件| 室内动态变化场景中的相机重定位(CVPR2021)

    写在前面 感谢「3D视觉从入门到精通」知识星球嘉宾山东大学董思言博士为我们带来的主题为<室内动态变化场景中的相机重定位>视频讲解,星球成员可免费观看学习.备注:董思言,山东大学四年级博士生 ...

  2. 重磅直播 | 室内动态变化场景中的相机重定位(CVPR2021)

    大家好,本公众号现已开启线上视频公开课,主讲人通过B站直播间,对3D视觉领域相关知识点进行讲解,并在微信群内完成答疑. 本期由山东大学董思言博士分享,分享的主题为<室内动态变化场景中的相机重定位 ...

  3. 只用静态图像,就能实时渲染出丝滑3D效果 | CVPR 2021 Oral

    鱼羊 发自 凹非寺  量子位 报道 | 公众号 QbitAI 这般丝滑的美食展示,是否让跟随镜头移动的你食指大动? 再看这放大镜里流畅变化的弹簧,你敢相信,这完全是用静态图像合成的吗? 没错,这样的动 ...

  4. CVPR 2021 Oral|只用静态图像,就能实时渲染出丝滑3D效果

    作者丨鱼羊 来源丨量子位 编辑丨极市平台 [导读] 入选CVPR2021 Oral,NeX的AI,能直接把每秒渲染帧数从0.02帧提升到60帧,渲染速度比NeRF要快1000倍以上. 这般丝滑的美食展 ...

  5. 一文了解动态场景中的SLAM的研究现状

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本期我们将回顾MonoDOS领域中的一些最新论文. 常规的SLAM算法首先假设环境中所有物体均处于静止 ...

  6. CVPR 2021 Oral | 我给大家表演一个无中生有!北航商汤耶鲁新作:DSG

    来源:量子位 量化,作为神经网络压缩和加速的重要手段,往往要依赖真实数据进行校准. 此前,一些无数据量化方法虽然解决了数据依赖问题,但是却存在数据分布和样本同质化问题,致使量化模型的精度下降. 现在, ...

  7. CVPR 2021| 端到端场景无关视觉定位算法(SuperGlue一作出品)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 今天要介绍的文章是"Back to the Feature: Learning Robust ...

  8. CVPR 2021 | 基于跨任务场景结构知识迁移的单张深度图像超分辨率方法

    ©PaperWeekly 原创 · 作者|孙宝利 学校|大连理工大学硕士 研究方向|计算机视觉 项目主页: http://faculty.dlut.edu.cn/yexinchen/zh_CN/zdy ...

  9. CVPR 2021 Oral | Transformer再发力!华南理工和微信提出UP-DETR:无监督预训练检测器...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文作者:飞奔的啦啦啦   |  来源:知乎 https://zhuanlan.zhihu.com/p/31 ...

最新文章

  1. 使用 gperf 实现高效的 C/C++ 命令行处理
  2. swiper踩过的哪些坑
  3. 存储过程——介绍(一)
  4. 主机屋linux怎么连,全网最详细的samba文件共享服务!
  5. 拓扑排序——最大食物链计数(洛谷 P4017)
  6. java 数组转字符串 字符串转数组,java高级面试笔试题
  7. linux创建名称为学号的文件,Linux操作系统下用户管理及文件管理.doc
  8. Dcmtk在PACS开发中的应用(基础篇) 第二章 打印影像(胶片) 作者 冷家锋
  9. spring security免登录动态配置方案2
  10. C++:字符串转换成整数
  11. 【用户研究】【实战】——“得到”APP 可用性测试
  12. 绎维软件F-One获得B轮融资,华创资本领投,齐银基金跟投...
  13. initramfs/initrd
  14. 简介:Virtual Kubelet
  15. 让海航买不起的当当究竟值多少钱?90亿够不够?
  16. OpenEmbedded Yocto BitBake Poky以及之间关系
  17. 实验吧CTF练习题---安全杂项---异性相吸解析
  18. 黑马程序员-logback.xml配置文件
  19. Unity 升级版本后Shader导致崩溃
  20. HTML失败怎么解决,CSS加载失败怎么处理?

热门文章

  1. uedit修改文件上传路劲,支持api文件接口
  2. 取没有date的邮件发送时间
  3. databinding学习(1)
  4. iOS纯代码工程手动快速适配
  5. Redis 分布式锁没这么简单,网上大多数都有 bug
  6. 面试官 | 写if 时不带 else,你的代码会更好!
  7. 重要通知:招募200程序员,免费培训金融知识,不限年龄,有意者进!
  8. 黄峥辞职,拼多多何去何从?
  9. Java日常开发的21个坑,你踩过几个?
  10. 值得推荐的Idea十二大优秀插件