iNeRF：用于姿态估计的反向神经辐射场（IROS 2021）

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨泡泡图灵智库

来源丨泡泡机器人SLAM

标题：iNeRF：Inverting Neural Radiance Fields for Pose Estimation

作者：Lin Yen-Chen, Pete Florence, Jonathan T. Barron, Alberto Rodriguez, Phillip Isola, Tsung-Yi Lin

来源：IROS 2021

编译：张海晗

审核：zhh

大家好，今天要介绍的文章是iNeRF：用于姿态估计的反向神经辐射场。

摘要

我们提出了iNeRF，一个通过 "反转 "神经辐射场（NeRF）来进行无网格姿势估计的框架。NeRFs已经被证明对合成真实世界场景或物体的逼真的新视图非常有效。在这项工作中，我们研究了是否可以通过NeRF来应用无网格、纯RGB的6DoF姿态估计的分析合成法：给定一个图像，找到摄像机相对于三维物体或场景的平移和旋转。我们的方法假定在训练或测试期间没有物体网格模型可用。从最初的姿势估计开始，我们使用梯度下降法来最小化从NeRF渲染的像素和观察到的图像中的像素之间的残差。在我们的实验中，我们首先研究：1）如何在iNeRF的姿势精化过程中对射线进行取样以收集信息梯度；2）不同批次的射线如何影响合成数据集上的iNeRF。然后我们表明，对于来自LLFF数据集的复杂的真实世界场景，iNeRF可以通过估计新的图像的相机姿态和使用这些图像作为NeRF的额外训练数据来改善NeRF。最后，我们展示了iNeRF可以通过反转从单一视图推断出的NeRF模型，对RGB图像进行类别级别的物体姿态估计，包括训练期间未见的物体实例。

主要贡献

总而言之，我们的主要贡献如下。

(i) 我们表明，iNeRF可以使用NeRF模型来估计具有复杂几何形状的场景和物体的6DoF姿态，而不需要使用3D网格模型或深度感应--只使用RGB图像作为输入。

(ii) 我们对射线采样和梯度优化的批量大小进行了深入研究，以确定iNeRF的稳健性和局限性。

(iii) 我们表明，iNeRF可以通过预测更多图像的相机姿态来改善NeRF，这些图像可以被添加到NeRF的训练集中。

(iv) 我们展示了对未见过的物体的类别级姿势估计结果，包括一个真实世界的演示。

主要方法

我们现在提出了iNeRF，一个通过 "反转 "训练过的NeRF来执行6DoF姿态估计的框架。让我们假设一个场景或物体的NeRF的参数化Θ已经被恢复，并且相机的本征是已知的，但是图像观测I的相机位姿T还没有确定。与NeRF不同的是，NeRF使用一组给定的相机位姿和图像观测值来优化Θ，而我们要解决的是在给定权重Θ和图像I的情况下恢复相机姿势T的逆问题。

为了解决这个优化问题，我们利用NeRF的能力，在NeRF模型的坐标框架中采取一些估计的相机姿势T∈SE(3)，并渲染相应的图像观察。然后，我们可以使用与NeRF相同的光度损失函数L，但我们不是通过反向传播来更新MLP的权重Θ，而是更新姿势T以最小化L。虽然倒置NeRF来进行姿势估计的概念可以简明扼要地说明，但这样的问题是否可以实际解决到一个有用的程度并不明显。损失函数L在SE(3)的6DoF空间上是非凸的，而且全图像的NeRF渲染在计算上很昂贵，特别是在优化程序的循环中使用。

1.基于梯度的SE(3)优化

将Θ定义为经过训练的固定的NeRF的参数，先验Ti是当前优化步骤i的估计相机姿势，I是观察到的图像，L(Ti | I, Θ)是用于训练NeRF中的精细模型的损失。我们采用基于梯度的优化来解决上面方程中定义的先验T。为了确保在基于梯度的优化过程中，估计的姿势先验Ti继续位于SE(3)流形上，我们用指数坐标为先验Ti设置参数。给定一个从相机帧到模型帧的初始姿势估计值先验T0∈SE(3)，我们将先验Ti表示为：

我们通过MLP对损失函数进行迭代，得到梯度∇SθL(e [S]θT0 | I, Θ)，用于更新估计的相对变换。我们使用Adam优化器，其学习率为指数衰减。对于每个观察到的图像，我们将Sθ初始化到0附近，其中每个元素都是从零均值正态分布N（0，σ=10-6）中随机抽取的。在实践中，用e[S]θ T0进行参数化，如果利用T0 e[S]θ会导致旋转中心在初始估计的中心，而不是在摄像机帧的中心。这就减轻了优化过程中旋转和平移之间的耦合。

2.光线采样

这里讨论了三种采样方法

随机采样：一个直观的策略是在图像平面上随机抽取M个像素点{p i x , pi y}M i=0，并计算其对应的射线。事实上，NeRF本身在优化Θ时就使用了这种策略（假设不使用图像批处理）。我们发现，当射线的批处理量b较小时，这种随机采样策略的性能是无效的。大多数随机采样的像素对应于图像中平坦的、无纹理的区域，这些区域在姿势方面提供的信息很少（这与著名的光圈问题一致）。

兴趣特征点采样：我们提出了兴趣点抽样来指导iNeRF的优化，我们首先采用兴趣点检测器来定位观察图像中的一组候选像素位置。然后，我们从检测到的兴趣点中抽出M个点，如果检测到的兴趣点不够多，就回落到随机抽样。虽然这种策略使优化收敛得更快，因为引入了较少的随机性，但我们发现它很容易出现局部最小值，因为它只考虑观察图像上的兴趣点，而不是来自观察图像和渲染图像的兴趣点。然而，获得渲染图像中的兴趣点需要O(HW n)个前向MLP通道，因此在优化中使用的成本过高。

兴趣特征区域采样：为了防止只从兴趣点取样造成的局部最小值，我们建议使用 "兴趣区域 "取样，这是一种放宽兴趣点取样的策略，从以兴趣点为中心的扩张掩模中取样。在兴趣点检测器对兴趣点进行定位后，我们应用5×5的形态学扩张进行I次迭代以扩大采样区域。在实践中，我们发现当射线的批量大小较小时，这样做可以加快优化速度。请注意，如果I被设置为一个大数字，兴趣区域采样就会退回到随机采样。

3.用iNeRF自我监督学习NeRF

除了使用iNeRF对训练好的NeRF进行姿态估计外，我们还探索使用估计的姿态来反馈到训练NeRF表示中。具体来说，我们首先根据一组已知相机姿势的训练RGB图像来训练NeRF，产生NeRF参数Θtrain。然后，我们使用iNeRF来接收额外的未知姿势的观察图像{Ii}。Ntest i=1，并求解估计姿势先验Ti。Ntest i=1。鉴于这些估计的姿势，我们可以使用自我监督的姿势标签，将加入训练集。这个过程允许NeRF在半监督的情况下被训练。

主要结果

如果你对本文感兴趣，请点击点击阅读原文下载完整文章。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

iNeRF：用于姿态估计的反向神经辐射场（IROS 2021）相关推荐

重新思考人体姿态估计 Rethinking Human Pose Estimation
Newly updated by 2019-11-19 ----------------------------------------------------- 浅谈:2D人体姿态估计基本任务.研究 ...
三维位姿：***图像特征-特征提取-姿态估计
原文链接:http://blog.csdn.net/cloverwindy/article/details/8443296 有少量修改,如有疑问,请问原作者! 常用的图像特征有颜色特征.纹理特征.形状 ...
CVPR 2020 论文大盘点-人体姿态估计与动作捕捉篇
本文盘点CVPR 2020 所有人体姿态估计(Human Pose Estimation).手势识别(Gesture Recognition).人体形状与姿态估计(Human Shape and Po ...
论文精读 | slam中姿态估计的图优化方法比较
一. 摘要对于位置环境中的自主导航问题,同步定位与建图(Simultaneous localization and mapping, SLAM)是一个非常重要的工具框架.根据SLAM字面含义可以得知 ...
姿态估计之2D人体姿态估计（1）（仅供个人参考）
参考自顶向下的 2D 人体姿态估计 - 知乎人体姿态估计(Human Pose Estimation)经典方法整理 - 知乎 2D人体姿态估计浅析 - 知乎人体姿态估计中回归出了heatmap如 ...
论文阅读笔记--Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods 人体姿态估计综述
趁着寒假有时间,把之前的论文补完,另外做了一点点笔记,也算是对论文的翻译,尝试探索一条适合自己的论文阅读方法. 这篇笔记基本按照原文的格式来,但是有些地方翻译成中文读起来不太顺,因此添加了一些自己的理 ...
SLAM中姿态估计的图优化方法比较（g2o/Ceres/GTSAM/SE-Sync）
编辑 | 深蓝AI 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取后台回复[SLAM综述]获取视觉SLAM.激光SLAM.RGBD-SLAM等多篇综述! 本 ...
2022最新！视觉SLAM综述（多传感器/姿态估计/动态环境/视觉里程计）
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨汽车人来源丨自动驾驶之心摘要近年来,基于视觉的传感器在SLAM系统中显示出显著的性能.精 ...
物体空间姿态估计// Robust Planar Pose (RPP)algorithm
http://blog.sina.com.cn/s/blog_60f11afd0100ttc9.html 姿态估计问题就是:确定某一三维目标物体的方位指向问题.姿态估计在机器人视觉.动作跟踪和单照相机 ...
【人体姿态估计综述（2D、3D）】
人体姿态估计综述(2D.3D) 一.任务描述二.2D人体姿态估计 2.1 2D单人姿态估计 2.1.1 回归方法 2.1.2 heatmap方法 2.2 2D多人姿态估计 2.2.1 自顶向下 2. ...

iNeRF：用于姿态估计的反向神经辐射场（IROS 2021）

iNeRF：用于姿态估计的反向神经辐射场（IROS 2021）相关推荐

最新文章

热门文章