NeRF in the Wild

NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections：无约束照片收集的神经辐射场
摘要：提出了一种基于学习的方法，用于仅使用野外照片的非结构化集合来合成复杂场景的新颖视图。针对NeRF无法在非受控图像中模拟许多普遍存在的真实世界现象，例如可变照明或瞬态变化（行人车辆），进行了扩展。

NeRF的局限：场景都是在一小段时间内进行拍摄，光照影响都保持不变，并且所有场景的内容都保持不变。但是野外场景中的大规模场景，其中输入图像可能相隔数小时或数年拍摄，并且可能包含行人和车辆在其中穿行。解决思路：NeRF 假设场景是在几何、材质和摄影角度上，都是静态的，即场景的密度和辐射场都是静态的。因此，NeRF 需要让两个在相同位置和朝向上，拍摄出的照片必须完全一致，NeRF-wild放宽了限制，主要解决光照变换以及移动遮挡问题。
创新点：
1、在学习到的低维隐空间中，建模图像外观的变化，如曝光、光照、天气和后处理，根据生成潜在优化的框架，优化每个输入图像的外观嵌入，从而赋予NeRF-W通过学习整个照片集合中的共享外观表示来解释图像之间的光度和环境变化的灵活性。学习的潜在空间提供了输出渲染外观的控制。
2、将场景建模为共享元素和图像相关元素的结合，从而使场景内容能够无监督地分解为“静态”和“瞬态”组件。使用二次体积辐射场和数据相关不确定性场对瞬态元素进行建模，其中数据相关不确定场捕获可变观测噪声，并进一步减少瞬态对象对静态场景表示的影响。

背景知识
论文中介绍了NeRF的离散公式，只不过进行了表示上的小变化

R ( r , c , σ ) \mathcal{R}(\mathbf{r}, \mathbf{c}, \sigma) R(r,c,σ)表示体渲染
α ( x ) = 1 − exp ⁡ ( − x ) \alpha(x)=1-\exp (-x) α(x)=1−exp(−x)
δ k = t k + 1 − t k \delta_{k}=t_{k+1}-t_{k} δk=tk+1−tk
ReLU MLP 来表示体积密度 σ ( t ) \sigma(t) σ(t) c ( t ) \mathbf{c}(t) c(t)

1、 Latent Appearance Modeling

为了使 NeRF 能够适应不同光照和摄影后处理，采用了生成潜在优化，每张图像 I_i都会赋给一个对应的实值外观嵌入向量 ℓ i ( a ) \boldsymbol{\ell}_{i}^{(a)} ℓi(a),长度为 n ( a ) n^{(a)} n(a)，这类似于学习到的外观特征。如下公式中，强调了颜色c对每张图的依赖性。论文认为NeRF的c和图片标号没有关系，这里c_i介入了一种像素对应图片的依赖性，每张图的外观特征由于光照时间等因素都是不一样的。
z ( t ) \mathbf{z}(t) z(t)表示的是将位置输入MLP中得到的输出，将中间输出，外观特征，观看方向编码输入MLP₂中，就能得到每张照片的颜色值， C ^ i \hat{\mathbf{C}}_{i} C^i表示对每张图片的依赖。

2、Transient Objects

使用两种设计来解决动态现象
1、把原始NeRF中的MLP当作静态的MLP来预估地标建筑的颜色和密度，记作静态头（head），然后再加一个瞬态头（transient head），该头部发射自己的颜色和密度，其中允许密度在训练图像中变化，这个方法的好处是能够让网络在重建后面的静态场景时不会把遮挡物的伪影加到建筑上。
2、并不假设所有观测像素颜色都是同样可靠的，允许瞬态部分发射出不确定性（ uncertatinty）场（类似于颜色和密度），可以让模型调整重构损失，让网络通过损失函数忽略那些离群点（不可靠的像素和 3D 位置，这些位置很可能包含遮挡物）。
将每个像素的颜色建模为各向同性正态分布，其可能性将最大化，并使用NeRF使用的相同体积渲染方法“渲染”该分布的方差。这两个模型组件允许NeRF-W在没有明确监督的情况下解开静态和瞬态现象。
各向同性正态分布
用瞬态部分的 σ i ( τ ) ( t ) \sigma_{i}^{(\tau)}(t) σi(τ)(t)和 c i ( τ ) ( t ) \mathbf{c}_{i}^{(\tau)}(t) ci(τ)(t) 来增强静态密度和亮度，下面的公式是最终的渲染公式，静态与动态相加在进行累加计算。
优化
为了让场景的瞬态分量在不同的图像上变化，我们给每个训练图像I_i指定第二个嵌入 ℓ i ( τ ) ∈ R n ( τ ) \ell_{i}^{(\tau)} \in \mathbb{R}^{n^{(\tau)}} ℓi(τ)∈Rn(τ),作为瞬态 MLP 的输入,下面公式中，第三个MLP得到的输出为瞬态（前面遮挡）的密度，颜色，不确定性，不确定性经过第二行公式进行了一个变化，

图像 i上射线 r对真值颜色 C_i（r）的损失是，这是一个最大似然函数以及后验估计的估计（不确定性服从正态分布的情况下）

对于这里的推导可以看这个视频

下图是整体架构图

损失函数
类似于 NeRF，我们同时优化 F_θ的两个网络：精细模型使用上述的模型和损失；粗糙模型只使用隐外观的建模分量。和参数 θ一起，我们优化每张图像的外观嵌入 { ℓ i ( a ) } i = 1 N \left\{\boldsymbol{\ell}_{i}^{(a)}\right\}_{i=1}^{N} {ℓi(a)}i=1N和瞬态嵌入 { ℓ i ( τ ) } i = 1 N \left\{\ell_{i}^{(\tau)}\right\}_{i=1}^{N} {ℓi(τ)}i=1N
,NeRF-W 的损失函数为

NeRF in the Wild相关推荐

NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections不受约束的照片集
目录 NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections不受约束的照片集 Abstract 1.I ...
NeRF系列(2):NeRF in the wild : Neural Radiance Fields for Unconstrained Photo Collections论文解读与公式推导
NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections 论文:https://openaccess.t ...
为了自动驾驶，谷歌用NeRF在虚拟世界中重建了旧金山市
来源:机器之心本文约3100字,建议阅读10+分钟真不用来做成元宇宙? 训练自动驾驶系统需要高精地图,海量的数据和虚拟环境,每家致力于此方向的科技公司都有自己的方法,Waymo 有自己的自动驾驶出 ...
不可思议！英伟达新技术训练NeRF模型最快只需5秒，代码已开源
英伟达将训练 NeRF 模型从 5 小时缩至 5 秒. 你曾想过在 5 秒内训练完成狐狸的 NeRF 模型吗?现在英伟达做到了! 令人不可思议的是,就如谷歌科学家 Jon Barron 在推特上表示的 ...
Nerf论文前后介绍以及今后方向（2020年各个方向工作论文分析） NEURAL VOLUME RENDERING:NERF AND BEYOND
你好! 这里是"出门吃三碗饭"本人, 本文章接下来将介绍2020年对Nerf工作的一篇总结论文NEURAL VOLUME RENDERING:NERF AND BEYOND,论文作 ...
谷歌和伯克利分校的新工作：规模化大场景的神经绘制方法Block-NeRF
作者丨黄浴来源丨计算机视觉深度学习和自动驾驶 arXiv上2022年2月10日上传的论文"Block-NeRF: Scalable Large Scene Neural View Syn ...
2D景观转3D风景大片，无惧复杂光线与遮挡，人类离「躺着旅行」的梦想又近了一步...
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达整理:公众号@机器之心本文仅做学术分享,如有侵权,请联系删除. 万物皆可转 3D. 上班的时候想旅行 ...
谷歌2D景观转3D风景大片，无惧复杂光线与遮挡
本文转自机器之心. 编辑:张倩.小舟.蛋酱万物皆可转 3D. 上班的时候想旅行,休假的时候想躺着,这是大多数年轻人的状态.如果能够躺在床上旅行,岂不美哉? 在古代中国也有「卧游」的典故,凡所游履,皆 ...
Urban Radiance Fields
Urban Radiance Fields:城市辐射场摘要:这项工作的目标是根据扫描平台捕获的数据执行 3D 重建和新视图合成,这些扫描平台通常部署用于城市室外环境中的世界地图绘制(例如,街景).给 ...

NeRF in the Wild

1、 Latent Appearance Modeling

2、Transient Objects

NeRF in the Wild相关推荐

最新文章

热门文章