2D景观转3D风景大片，无惧复杂光线与遮挡，人类离「躺着旅行」的梦想又近了一步...

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

整理：公众号@机器之心

本文仅做学术分享，如有侵权，请联系删除。

万物皆可转 3D。

上班的时候想旅行，休假的时候想躺着，这是大多数年轻人的状态。如果能够躺在床上旅行，岂不美哉？

在古代中国也有「卧游」的典故，凡所游履，皆图之于室，可惜当时的技术条件跟不上，只能欣赏画卷上的美景。

面对新冠疫情的蔓延，人们不得不限制外出，取消各类出行计划，「卧游」的需求也变得更加急切。当然，这一需求可以通过 VR、AR 技术来满足，但前提是，你要有足够逼真的 3D 图像才能让人有身临其境的感觉。

前段时间，加州大学伯克利分校、谷歌的研究者开源了一款效果不错的 2D 图像转 3D 模型——NeRF，可以利用少数几张静态图像生成多视角的逼真 3D 图像。

NeRF 模型 demo。论文及项目地址：https://www.matthewtancik.com/nerf

但这一模型也有缺陷：如果环境中出现了明显的光线变化或人、物移动造成的遮挡，模型的性能会大打折扣。对于「卧游」这种需要呈现户外景点的场景来说，NeRF 的适用范围可能非常有限。

谷歌的团队也看到了这种缺陷，并在最近的一项研究中推出了 NeRF 模型的改进版——NeRF in the Wild（NeRF-W），使其更加适用于充满光线变化、遮挡的户外环境。

目前，研究者已将 NeRF-W 应用于几个具有挑战性的自然文化地标照片集，这些生成的效果图在各项指标上均实现了新的 SOTA。

NeRF-W 捕捉了低维潜在嵌入空间中的光线和光度后处理。在两个嵌入之间进行插值，可以平滑地捕获外观的变化，而不影响 3D 几何形状。

外观嵌入插值。

该模型将光线从基础 3D 场景几何中分离出来，即使光线发生变化，3D 场景几何仍可保持一致：

几何一致性。

研究者对 NeRF-W 在合成设置中的个体增强进行了详细的控制变量研究，验证了每一次增强都会产生预期效果。在质量控制设置类似的前提下，NeRF-W 在外观变化和瞬时遮挡物挑战中实现的质量提升远远超过 NeRF。

勃兰登堡门。

圣心大教堂。

特雷维喷泉。

NeRF-W 改进了什么？

利用一组稀疏的捕获图像合成场景的新视图是计算机视觉领域长期存在的挑战，也是许多 AR 和 VR 应用的基础。

传统技术已使用「structure-from-motion」或基于图像的渲染解决了这个问题。近来，由于神经渲染技术的出现，该领域又取得了重大的进展。

加州大学伯克利分校、谷歌等机构提出的神经辐射场（NeRF）方法在神经网络的权重范围内，隐式建模了辐射场和场景的密度。然后用直接体积渲染合成新视图，从而在一系列具有挑战性的场景中展示出前所未有的保真度。但是，这仅证明了 NeRF 在受控环境下运行良好：场景是在较短的时间范围内捕获，在此期间，场景中的光照条件保持恒定，而且所有内容都是静态的。

NeRF 的局限性在于，当场景内出现移动的物体或光照发生变化时，模型的性能会大大降低。这些缺陷限制了 NeRF 在自然环境中的应用。因为在自然环境中，图像的拍摄时间可能间隔数小时、数天甚至数年，而且场景中可能包含行人和汽车。

NeRF 假设世界在几何、物质和光度学上是静态的，即世界的密度和辐射（radiance）都是恒定的。因此，NeRF 要求在相同位置和方向拍摄的任何两张照片必须具有相同的像素强度。

但现实世界中的许多数据集都不符合该假设。例如，在著名旅游地标的大规模互联网照片集中，两位摄影师可能站在相同的位置并拍摄相同的地标，但是在这两张照片的时间间隔里，世界可能已经发生了巨大的变化：车、人会动，天气、气候也会变…… 即使在同一时间同一位置拍摄的两张照片也可能存在很大差异：曝光、色彩校正和色调映射可能都有所不同。

本文实验部分表明：将 NeRF 直接应用于室外照片集会导致严重的重影、过度平滑和其它瑕疵。

为了能够处理这些复杂的场景，来自谷歌的研究者提出了「NeRF-W」。

论文链接：https://arxiv.org/pdf/2008.02268.pdf

首先，研究者对每张图片的外观变化进行建模，包括曝光、光线、天气，并使用一个学到的低维潜在空间进行后处理。

根据 GLO（Generative Latent Optimization）模型的框架，研究者优化了每个输入图像的外观嵌入，从而让 NeRF-W 具备通过学习整个照片集的共享外观表征来解释图像之间光度与环境变化的灵活性。学习的外观潜在空间提供了对于输出渲染外观的控制，如下图 1 所示。

然后，研究者将场景建模为共享元素和基于图像元素的组合，从而能够在无监督的条件下将场景内容分解为静态组件和瞬态组件。这种分解实现了地标 3D 视图的高保真合成，而不会产生由输入图像中动态视觉内容所产生的伪影。本文所提出的方法将瞬态元素建模为一个二级体积辐射场（secondary volumetric radiance field）和一个数据相关的不确定场（datadependent uncertainty field），后者能够捕获变化的观测噪声，进一步减少瞬态物体对静态场景表征的影响。

具体方法

与 NeRF 类似，研究者从非结构化照片集中学得了一种体积密度表征 F_θ，该照片集中的相机参数可用或已估计。从本质上讲，NeRF 假定其输入视图一致。但是，如图 2 所示，互联网照片并不遵循如此严格的假设。有两个违背这一假设的现象：1）光度变化，2）瞬时目标。

研究者提出了两个模型组件来解决这些问题。下图 3 展示了 NeRF-W 的模型架构。

潜在外观建模

为了使 NeRF 适应变化的光线和光度后处理，研究者在公式 (1) 中引入对期望颜色的图像索引 i 的依赖：

T(t)如此前定义。

研究者采用了 GLO 模型，其中每个图像 I_i 被相应分配了一个长度为 n^(a)的实值外观嵌入向量。在 NeRF 中，研究者用数值积分近似方程（8），用基于图像的辐射

代替了基于图像的辐射 c(t)。

嵌入1在与 NeRF 参数θ一起训练的过程中进行了优化。

图 8：注意人物（左）和光线（右）没有出现在渲染图中。外观嵌入修改了渲染的颜色和光线，而不影响 3D 几何。

瞬时目标

研究者通过两种方式来帮助 NeRF 应对瞬时目标。

首先，他们利用瞬时目标的一个显式表征增强了 NeRF 的体积辐射场，这使得 NeRF-W 可以重建包含遮挡的图像，同时不在静态场景表征中引入瑕疵。

其次，他们没有直接建模观察到的颜色，而是针对该值建立了一个概率分布模型。具体来说，他们将每个像素的颜色建模为各向同性正态分布，并使用与 NeRF 相同的体积渲染方法生成其均值和方差。这使得 NeRF-W 在渲染可能包含遮挡的像素时能够表达不确定性。

这两种方法使得 NeRF-W 可以在没有显式监督的条件下分离静态和瞬时目标。

实验

为了验证 NeRF-W 的效果，研究者设计了两个领域的实验，一个实验用的是网络上找到的旅游目的地地标照片，另一个用的是合成场景的渲染图像。

旅游照数据集

下图 7 显示了基线模型和 NeRF-W 在旅游照数据集上得到的定性评估结果。NeRF-W 能够同时建模外观变化、消除瞬间遮挡并捕捉一致的 3D 场景几何。

下表 1 展示了定量对比结果。从中可以看出，NeRF-W 在所有数据集的所有指标上都超越了基线模型。在 PSNR（峰值信噪比）指标上，NeRF-W 比之前的 SOTA 模型 NRW 平均高出 5.7dB。

乐高数据集

第二项评估是在合成的乐高数据集上完成的。研究者引入了两类扰动（着色和遮挡）来模拟室外环境可能带来的挑战：光照变化和瞬时目标。

如下表 2 所示，在原始数据集上，所有模型的表现几乎相同。NeRF 无法处理存在不同程度扰动的数据集。NeRF-U 处理颜色比较失败，但在遮挡的处理上优于 NeRF。NeRF-A 擅长颜色，但遮挡处理不好。只有 NeRF-W 可以两者兼顾（如下图 10 所示）。

最后，关于 NeRF-W 的更多研究信息可以观看该视频：

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉优质源码，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

整理不易，请给工坊点赞和在看！

2D景观转3D风景大片，无惧复杂光线与遮挡，人类离「躺着旅行」的梦想又近了一步...相关推荐

谷歌2D景观转3D风景大片，无惧复杂光线与遮挡
本文转自机器之心. 编辑:张倩.小舟.蛋酱万物皆可转 3D. 上班的时候想旅行,休假的时候想躺着,这是大多数年轻人的状态.如果能够躺在床上旅行,岂不美哉? 在古代中国也有「卧游」的典故,凡所游履,皆 ...
如何实现「零信任网络」安全体系结构？教你五步实现无边界安全
要实现零信任网络安全体系结构,身份和访问管理应该是组织最先开始的核心技术. 随着现在世界越来越多地采用移动和云技术,也就有越来越多的工作在企业安全网络之外完成,企业的敏感资产不再有一堵围墙:员工.合作 ...
双11真无线蓝牙耳机盘点分享，高音质游戏低延迟无惧卡顿
近年来,无论是广场舞还是长跑,无论是大家庭.小情侣,阿姨还是中小学生,体育和健身在大江南北都很受欢迎,并被热情追捧.说到运动,耳机自然是不可或缺的,所以如何选择一款合适的蓝牙运动耳机已经成为许多消费者 ...
用单张2D图像重构3D场景
用单张2D图像重构3D场景 zouxy09@qq.com http://blog.csdn.net/zouxy09 之前看到Stanford大学的机器学习公开课程的lecture01中,Andrew ...
如何使用3D Converter将2D视频转换为3D？
3D Converter for Mac是一款3D转换软件,能够将普通 2D 视频转换为 3D视频,还可以将 3D 视频转换为 3D 视频(不同模式)以及将 3D 视频转换为 2D 视频.那么如何使用 ...
ChemDraw 2D与ChemBio 3D之间的信息转换
ChemBio 3D是一款专业的三维分子结构演示软件,可在2D与3D之间转换,本教程将详解如何在ChemDraw 2D与ChemBio 3D之间进行信息转换. 1.ChemDraw的信息输出 (1)启 ...
ArcBlock ⑪ 月报 | 无惧寒冬 ABT 2019 区块链远征启程
1 摘要 Summary 11月,ArcBlock 区块基石(ABT)工程团队不断精进 OCAP Console.Token Flow.OCAP 服务. Forge framework 等产品服务,还 ...
2D秒变3D！视角还能随意切！华为上交提出：CIPS-3D：基于GAN的3D感知生成器
明敏发自凹非寺来源:量子位(QbitAI) 如果让GAN生成的逼真人像变成3D版,会怎样? 仿佛有摄像机对着人像直拍,正面.侧面.仰视.俯视不同角度都能展现. 真的有种人要从画中走出来那味儿了. ...
select每门可说大于90分_小女子风雨黑暗无惧 90分全自动反向折叠照明伞
我是个护士,四班倒,白天还好,不下雨也还好,如果遇到中班,晚上22点交班后,外面太黑了,如果在碰伤下雨天,真不知怎么好了.虽然家离工作的医院距离很近,有个500米左右,但一个人在黑暗下雨的夜晚行走,还 ...

2D景观转3D风景大片，无惧复杂光线与遮挡，人类离「躺着旅行」的梦想又近了一步...

2D景观转3D风景大片，无惧复杂光线与遮挡，人类离「躺着旅行」的梦想又近了一步...相关推荐

最新文章

热门文章