并行Nerf逆过程解决姿态估计问题！（Arxiv 2022）

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨一杯红茶

来源丨计算机视觉工坊

标题：Parallel Inversion of Neural Radiance Fields for Robust Pose Estimation

项目地址：https://pnerfp.github.io

主要内容：

提出了一种基于NeRF的六自由度姿态估计方法，即当给定单个RGB查询图像时通过最小化NeRF模型渲染的图像像素与查询图像中的像素之间的残差来估计相机的平移和旋转。

算法将基于动量的相机外参优化算法集成到Instant Neural Graphics Primitives（一种最近非常快速的NeRF实现，也是NVIDIA提出的），通过在姿态估计任务中引入并行蒙特卡罗采样来克服问题总是收敛到局部极小值的问题，论文还研究了不同的基于像素的损失函数减少误差的程度，最终的实验也表明其方法可以在合成基准和真实基准上实现较好的泛化和鲁棒性

Nerf（Neural Radiance Fields）：神经辐射场，它提供了一种仅从一个或几个RGB图像中捕获复杂3D和光学结构的机制，Nerf为在训练或测试期间在没有网格模型的情况下将合成-分析应用到更广泛的现实场景提供了机会，NeRF将场景的密度和颜色参数化为3D场景坐标的函数，该函数既可以从给定相机姿态的多视图图像中学习，也可以给定一个或几个输入图像通过生成模型直接预测。

Instant NGP：其提出是用来降低Nerf的训练和推理代价，采用由可训练的特征向量的多分辨率哈希表增强的小神经网络，允许网络消除哈希冲突的歧义，使其易于在GPU上并行化，实现了几个数量级的组合加速，允许在在线训练和推理等时间受限的环境中使用

出发点：

将Nerf用在姿态估计任务中的第一篇工作则是inerf，即反转Nerf，此论文基于inerf，进一步探索了Nerf在姿态估计任务中的应用，普遍认为NeRF的一个缺点是其计算开销很大，为了克服这一限制，本文利用了他们之前提出的快速NeRF，即即时神经图形原件（Instant NGP），Instant NGP的结构允许并行优化，这可以用来克服局部最小值问题，从而实现比iNeRF更大的鲁棒性。

Inerf：假设已经得到了权重θ参数化的NeRF模型，并且相机内参已知，iNeRF旨在恢复查询图像I的相机姿态T

Contributions：

提出了一种基于NeRF模型的估计6-DoF姿态方法。
将并行蒙特卡罗采样引入到姿态估计任务中，展示了基于像素的损失函数选择对鲁棒性的重要性
通过合成和真实世界基准进行定量演示，证明所提出的方法改进了泛化和鲁棒性

Pipeline：

三个输入：单个RGB图像、初始粗略姿态估计（通过向真值添加干扰得到）以及从目标的多个视图中训练的即时NGP模型。

基于动量的相机外参优化：

相对于标准Nerf，对相机姿态和梯度表示进行了修改，允许梯度更新的动态性结合基于动量的方法来增强优化。

首先，相机姿态由平移分量（位置）和旋转分量（方向）组成，通常由特殊欧式群建模，即SE（3），NeRF中外参优化的目标是找到那些通过梯度下降将图像空间损失最小化的相机姿态，梯度更新在特殊的欧式群上的李代数se（3）中计算，然后生成结合旋转和平移的相机姿态更新，作者认为使用SE（3）/se3表示有一个缺点，即相机姿势更新的旋转中心不在相机原点，而是在旋转轴上，这将相机位置和方向耦合起来，这种耦合导致某些情况下次优梯度更新，如下图所示，

为了解耦平移和旋转更新，作者将相机姿态建模为笛卡尔积SO（3）×T（3）（以及相应的李代数空间上so（3）×t（3）），其在T（3）上采用加法结构，在SO（3）上采用乘积结构，梯度更新将沿直线移动，从而实现更高效的优化。

其次，基于动量的优化在经验上证明了比基于标准梯度的方法更有效，尤其是当与自适应更新相结合时，在NeRF中每个像素对应于具有原点o和方向d的射线，沿着该射线，基于沿射线的移动距离ti得到p_i=o+t_i.d，损失的梯度与相机距离的叉积定义了每像素（光线）更新影响：

基于刚体力学，对上式有一种物理解释，即由外力对相机产生的一个扭矩，该外力由基于图像的损失函数梯度产生，应用于光线导出点，就像它刚性地连接到相机一样。

因此将此分解应用于Adam优化器，将Adam的第一个moment转化为相机的物理动量，因为相机被用作力矩的梯度“推动”，尽管Adam的第二moment和指数衰减没有直接的物理类似物，由于物理系统遵循最小动作路径，可以推断相机在解耦参数化中遵循从其初始姿态到其优化姿态的有效路径。

并行蒙特卡洛采样：

由于优化的损失函数在6-DoF空间上是非凸的，单相机姿态假设很容易陷入局部极小值，由于Instant NGP的计算能力能够同时从多个假设开始优化，但是一个简单的多起点思想是低效的，特别是在一个大的搜索空间中，其中许多假设在优化过程中会偏离，因此它们无法对最终优化做出贡献，且占用了大量计算资源，从粒子滤波框架中获得灵感，提出了一种简单有效的姿势假设更新策略来处理这个问题。

将优化过程分为两个阶段，自由探索和重采样更新。

在第一阶段，围绕起始姿态生成相机姿态假设，平移和旋转偏移分别在欧式空间和SO（3）中均匀采样，相机姿态假设将进行独立优化，这样其中一些可以相对接近实际情况。

之后第二阶段，比较所有假设的损失，并将其作为采样权重的参考。

不同损失函数的影响：

通过合成视图进行姿态估计的方法最大挑战之一是与原视图相比，视图材质具有不同的视觉表面，包括许多干扰、环境噪声、照明条件变化和遮挡等都可能导致这个问题。之前inerf使用L2损失，但作者研究了更多的损失选项以测量渲染像素和观察像素之间的差异，不同的损失具有不同的收敛特性，进而影响优化过程

研究了L1（平等的对待error）、L2（惩罚较大的error，宽容较小的error）、Log L1（是L1损耗的对数版本，它试图平滑收敛曲线，尤其是对于较大的误差）、Relative L2（它对高强度目标像素与低强度目标像素错位的情况更敏感）、MAPE（MAPE表示平均绝对百分比误差，作为基于误差相对百分比的精度度量，它也可以被视为相对L2损耗的L1等效值，它与规模无关，对负错误的惩罚更重）、sMAPE（是MAPE的对称版本，解决MAPE的不对称问题，但当预测和GT都具有低强度时，它可能是不稳定的）、Smooth L1（平滑L1损失被设计为对异常值不太敏感，并且可以防止梯度爆炸）

最终通过实验发现常用的L2损失未必是最好的，MAPE在其数据集测试上实现了最好的性能。

实验：

在Nerf合成数据集和真实数据集LLFF与inerf进行了比较

不同损失函数对结果性能的比较：

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

17.透彻理解视觉ORB-SLAM3：理论基础+代码解析+算法改进

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿，加微信：dddvision

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近6000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

并行Nerf逆过程解决姿态估计问题！（Arxiv 2022）相关推荐

2021-06-29《旋转基元重建增强和鲁棒6D姿态估计》
PrimA6D: Rotational Primitive Reconstruction for Enhanced and Robust 6D Pose Estimation <旋转基元重建增强 ...
OpenMMlab社区开放麦＜第22期：姿态估计领域的前沿进展＞——笔记
姿态估计技术的发展对于行为分析.虚拟现实和自动驾驶等诸多应用都有着重要的意义.本期开放麦我们就邀请到了两位顶会顶刊论文作者和大家分享如何解决姿态估计中的前沿问题和一些新的姿态估计任务和解决方案. 姿态 ...
姿态估计1-02：HR-Net(人体姿态估算)-官方模型训练测试-报错解决
以下链接是个人关于HR-Net(人体姿态估算)所有见解,如有错误欢迎大家指出,我会第一时间纠正.有兴趣的朋友可以加微信:17575010159 相互讨论技术.若是帮助到了你什么,一定要记得点赞!因为这 ...
人体姿态估计(Human Pose Estimation)技巧方法汇总
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者:Poeroz https://zhuanlan.zhihu.com/p/10 ...
动作分析姿态估计_关于大片人物特效少不了的人体姿态估计，这里有一份综述文章...
大片中的人物特效如何实现,少不了应用人体姿态估计.这篇博客简介了使用深度学习技术的多人姿态估计方法,及其应用. 人体姿态骨架图 (skeleton) 用图形格式表示人的动作.本质上,它是一组坐标,连接 ...
姿态估计：人体骨骼关键点检测综述（2016-2020）
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散仅作学术分享,不代表本公众号立场,侵权联系删除转载于:作者丨七酱@知乎来源丨https://zhuanlan.z ...
VALSE学习（一）：high-resolution representation learning-高分辨率表示学习-姿态估计
VALSE2019会议一.相关概念表示学习 :又称学习表示.在深度学习领域内,表示是指通过模型的参数,采用何种形式.何种方式来表示模型的输入观测样本X.表示学习指学习对观测样本X有效的表示. 表示 ...
Human Pose Estimation姿态估计调研
介绍姿态估计的目标是在RGB图像或视频中描绘出人体的形状,这是一种多方面任务,其中包含了目标检测.姿态估计.分割等等.有些需要在非水平表面进行定位的应用可能也会用到姿态估计,例如图形.增强现实或者人 ...
姿态估计之2D人体姿态估计（1）（仅供个人参考）
参考自顶向下的 2D 人体姿态估计 - 知乎人体姿态估计(Human Pose Estimation)经典方法整理 - 知乎 2D人体姿态估计浅析 - 知乎人体姿态估计中回归出了heatmap如 ...

并行Nerf逆过程解决姿态估计问题！（Arxiv 2022）

并行Nerf逆过程解决姿态估计问题！（Arxiv 2022）相关推荐

最新文章

热门文章