点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨泡泡图灵智库

来源丨泡泡机器人SLAM

标题:iNeRF:Inverting Neural Radiance Fields for Pose Estimation

作者:Lin Yen-Chen, Pete Florence, Jonathan T. Barron, Alberto Rodriguez, Phillip Isola, Tsung-Yi Lin

来源:IROS 2021

编译:张海晗

审核:zhh

大家好,今天要介绍的文章是iNeRF:用于姿态估计的反向神经辐射场。

摘要

我们提出了iNeRF,一个通过 "反转 "神经辐射场(NeRF)来进行无网格姿势估计的框架。NeRFs已经被证明对合成真实世界场景或物体的逼真的新视图非常有效。在这项工作中,我们研究了是否可以通过NeRF来应用无网格、纯RGB的6DoF姿态估计的分析合成法:给定一个图像,找到摄像机相对于三维物体或场景的平移和旋转。我们的方法假定在训练或测试期间没有物体网格模型可用。从最初的姿势估计开始,我们使用梯度下降法来最小化从NeRF渲染的像素和观察到的图像中的像素之间的残差。在我们的实验中,我们首先研究:1)如何在iNeRF的姿势精化过程中对射线进行取样以收集信息梯度;2)不同批次的射线如何影响合成数据集上的iNeRF。然后我们表明,对于来自LLFF数据集的复杂的真实世界场景,iNeRF可以通过估计新的图像的相机姿态和使用这些图像作为NeRF的额外训练数据来改善NeRF。最后,我们展示了iNeRF可以通过反转从单一视图推断出的NeRF模型,对RGB图像进行类别级别的物体姿态估计,包括训练期间未见的物体实例。

主要贡献

总而言之,我们的主要贡献如下。

(i) 我们表明,iNeRF可以使用NeRF模型来估计具有复杂几何形状的场景和物体的6DoF姿态,而不需要使用3D网格模型或深度感应--只使用RGB图像作为输入。

(ii) 我们对射线采样和梯度优化的批量大小进行了深入研究,以确定iNeRF的稳健性和局限性。

(iii) 我们表明,iNeRF可以通过预测更多图像的相机姿态来改善NeRF,这些图像可以被添加到NeRF的训练集中。

(iv) 我们展示了对未见过的物体的类别级姿势估计结果,包括一个真实世界的演示。

主要方法

我们现在提出了iNeRF,一个通过 "反转 "训练过的NeRF来执行6DoF姿态估计的框架。让我们假设一个场景或物体的NeRF的参数化Θ已经被恢复,并且相机的本征是已知的,但是图像观测I的相机位姿T还没有确定。与NeRF不同的是,NeRF使用一组给定的相机位姿和图像观测值来优化Θ,而我们要解决的是在给定权重Θ和图像I的情况下恢复相机姿势T的逆问题。

为了解决这个优化问题,我们利用NeRF的能力,在NeRF模型的坐标框架中采取一些估计的相机姿势T∈SE(3),并渲染相应的图像观察。然后,我们可以使用与NeRF相同的光度损失函数L,但我们不是通过反向传播来更新MLP的权重Θ,而是更新姿势T以最小化L。虽然倒置NeRF来进行姿势估计的概念可以简明扼要地说明,但这样的问题是否可以实际解决到一个有用的程度并不明显。损失函数L在SE(3)的6DoF空间上是非凸的,而且全图像的NeRF渲染在计算上很昂贵,特别是在优化程序的循环中使用。

1.基于梯度的SE(3)优化

将Θ定义为经过训练的固定的NeRF的参数,先验Ti是当前优化步骤i的估计相机姿势,I是观察到的图像,L(Ti | I, Θ)是用于训练NeRF中的精细模型的损失。我们采用基于梯度的优化来解决上面方程中定义的先验T。为了确保在基于梯度的优化过程中,估计的姿势先验Ti继续位于SE(3)流形上,我们用指数坐标为先验Ti设置参数。给定一个从相机帧到模型帧的初始姿势估计值先验T0∈SE(3),我们将先验Ti表示为:

我们通过MLP对损失函数进行迭代,得到梯度∇SθL(e [S]θT0 | I, Θ),用于更新估计的相对变换。我们使用Adam优化器,其学习率为指数衰减。对于每个观察到的图像,我们将Sθ初始化到0附近,其中每个元素都是从零均值正态分布N(0,σ=10-6)中随机抽取的。在实践中,用e[S]θ T0进行参数化,如果利用T0 e[S]θ会导致旋转中心在初始估计的中心,而不是在摄像机帧的中心。这就减轻了优化过程中旋转和平移之间的耦合。

2.光线采样

这里讨论了三种采样方法

随机采样:一个直观的策略是在图像平面上随机抽取M个像素点{p i x , pi y}M i=0,并计算其对应的射线。事实上,NeRF本身在优化Θ时就使用了这种策略(假设不使用图像批处理)。我们发现,当射线的批处理量b较小时,这种随机采样策略的性能是无效的。大多数随机采样的像素对应于图像中平坦的、无纹理的区域,这些区域在姿势方面提供的信息很少(这与著名的光圈问题一致)。

兴趣特征点采样:我们提出了兴趣点抽样来指导iNeRF的优化,我们首先采用兴趣点检测器来定位观察图像中的一组候选像素位置。然后,我们从检测到的兴趣点中抽出M个点,如果检测到的兴趣点不够多,就回落到随机抽样。虽然这种策略使优化收敛得更快,因为引入了较少的随机性,但我们发现它很容易出现局部最小值,因为它只考虑观察图像上的兴趣点,而不是来自观察图像和渲染图像的兴趣点。然而,获得渲染图像中的兴趣点需要O(HW n)个前向MLP通道,因此在优化中使用的成本过高。

兴趣特征区域采样:为了防止只从兴趣点取样造成的局部最小值,我们建议使用 "兴趣区域 "取样,这是一种放宽兴趣点取样的策略,从以兴趣点为中心的扩张掩模中取样。在兴趣点检测器对兴趣点进行定位后,我们应用5×5的形态学扩张进行I次迭代以扩大采样区域。在实践中,我们发现当射线的批量大小较小时,这样做可以加快优化速度。请注意,如果I被设置为一个大数字,兴趣区域采样就会退回到随机采样。

3.用iNeRF自我监督学习NeRF

除了使用iNeRF对训练好的NeRF进行姿态估计外,我们还探索使用估计的姿态来反馈到训练NeRF表示中。具体来说,我们首先根据一组已知相机姿势的训练RGB图像来训练NeRF,产生NeRF参数Θtrain。然后,我们使用iNeRF来接收额外的未知姿势的观察图像{Ii}。Ntest i=1,并求解估计姿势先验Ti。Ntest i=1。鉴于这些估计的姿势,我们可以使用自我监督的姿势标签,将加入训练集。这个过程允许NeRF在半监督的情况下被训练。

主要结果

如果你对本文感兴趣,请点击点击阅读原文下载完整文章。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

iNeRF:用于姿态估计的反向神经辐射场(IROS 2021)相关推荐

  1. 重新思考人体姿态估计 Rethinking Human Pose Estimation

    Newly updated by 2019-11-19 ----------------------------------------------------- 浅谈:2D人体姿态估计基本任务.研究 ...

  2. 三维位姿:***图像特征-特征提取-姿态估计

    原文链接:http://blog.csdn.net/cloverwindy/article/details/8443296 有少量修改,如有疑问,请问原作者! 常用的图像特征有颜色特征.纹理特征.形状 ...

  3. CVPR 2020 论文大盘点-人体姿态估计与动作捕捉篇

    本文盘点CVPR 2020 所有人体姿态估计(Human Pose Estimation).手势识别(Gesture Recognition).人体形状与姿态估计(Human Shape and Po ...

  4. 论文精读 | slam中姿态估计的图优化方法比较

    一. 摘要 对于位置环境中的自主导航问题,同步定位与建图(Simultaneous localization and mapping, SLAM)是一个非常重要的工具框架.根据SLAM字面含义可以得知 ...

  5. 姿态估计之2D人体姿态估计(1)(仅供个人参考)

    参考 自顶向下的 2D 人体姿态估计 - 知乎 人体姿态估计(Human Pose Estimation)经典方法整理 - 知乎 2D人体姿态估计浅析 - 知乎 人体姿态估计中回归出了heatmap如 ...

  6. 论文阅读笔记--Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods 人体姿态估计综述

    趁着寒假有时间,把之前的论文补完,另外做了一点点笔记,也算是对论文的翻译,尝试探索一条适合自己的论文阅读方法. 这篇笔记基本按照原文的格式来,但是有些地方翻译成中文读起来不太顺,因此添加了一些自己的理 ...

  7. SLAM中姿态估计的图优化方法比较(g2o/Ceres/GTSAM/SE-Sync)

    编辑 | 深蓝AI 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 后台回复[SLAM综述]获取视觉SLAM.激光SLAM.RGBD-SLAM等多篇综述! 本 ...

  8. 2022最新!视觉SLAM综述(多传感器/姿态估计/动态环境/视觉里程计)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨汽车人 来源丨 自动驾驶之心 摘要 近年来,基于视觉的传感器在SLAM系统中显示出显著的性能.精 ...

  9. 物体空间姿态估计// Robust Planar Pose (RPP)algorithm

    http://blog.sina.com.cn/s/blog_60f11afd0100ttc9.html 姿态估计问题就是:确定某一三维目标物体的方位指向问题.姿态估计在机器人视觉.动作跟踪和单照相机 ...

  10. 【人体姿态估计综述(2D、3D)】

    人体姿态估计综述(2D.3D) 一.任务描述 二.2D人体姿态估计 2.1 2D单人姿态估计 2.1.1 回归方法 2.1.2 heatmap方法 2.2 2D多人姿态估计 2.2.1 自顶向下 2. ...

最新文章

  1. Ibatis学习随笔
  2. voxel 与 pixel
  3. vue init webpack vue-demo01复杂安装的详解
  4. php全选按钮怎么写,PHP中的“全选”复选框,其中包含header.php
  5. postgres 把一个表的值转成另一个表的字段名_用LUT来做一个可动态配置的卷积核...
  6. 讯飞C/C++语音合成基础篇
  7. JeeWx 捷微 2.2 发布,微信管家平台
  8. Java的HashCode,Equal和==
  9. 修改notebook的默认路径_更改jupyter notebook默认存储路径
  10. 快轮天才发明家刘峰,上榜福布斯2017年亚洲人物
  11. 交叉熵和极大似然估计的再理解
  12. AngularJS 1.x系列:AngularJS控制器(3)
  13. 40套各种风格住宿酒店行业网站html5模板大气商务酒店网站模板度假村酒店官方网站模板旅行酒店宾馆整站模板html5网页静态模板Bootstrap扁平化网站源码css3手机seo自适响应
  14. 计算机视觉论文-2021-11-02
  15. linux终端下载速度只有几kb,[菜鸟教学]如何提高linux下的下载速度!新手必看!...
  16. Linux TCP之sack(二)
  17. Ultravnc,3步教你Ultravnc软件如何注册登录
  18. 免费把pdf转换成excel
  19. Java毕业设计_基于BootStrap的晴雅花艺交流论坛的开发
  20. Java程序员开发两年月薪15k和30K的程序员差距在哪里?

热门文章

  1. 数字信号处理声音降噪实验
  2. matlab 绘图 模板,【科研绘图】MATLAB可视化代码模板
  3. 天龙八部,数据可视化分析虚竹和童姥居然关系非同一般
  4. Bootstrap可视化布局系统
  5. 为啥俺要写博客--凭什么?
  6. 我的USB DAC改装(MOD)流程(上)
  7. 游戏运行库microsoft visual c++ 2010 spi 64检测不到
  8. 树的遍历 ALDS1_7_C: Tree Walk
  9. Android 录屏(录像)录制视频自定义输出视频分辨率,设置最合适尺寸;Android Mediacodec 录屏输出视频被缩小,Android 录屏全屏,录屏自定义尺寸,录屏录像黑边
  10. kasp技术原理_KASP基因分型技术服务