谷歌2D景观转3D风景大片,无惧复杂光线与遮挡
本文转自机器之心。
编辑:张倩、小舟、蛋酱
万物皆可转 3D。
上班的时候想旅行,休假的时候想躺着,这是大多数年轻人的状态。如果能够躺在床上旅行,岂不美哉?
在古代中国也有「卧游」的典故,凡所游履,皆图之于室,可惜当时的技术条件跟不上,只能欣赏画卷上的美景。
面对新冠疫情的蔓延,人们不得不限制外出,取消各类出行计划,「卧游」的需求也变得更加急切。当然,这一需求可以通过 VR、AR 技术来满足,但前提是,你要有足够逼真的 3D 图像才能让人有身临其境的感觉。
前段时间,加州大学伯克利分校、谷歌的研究者开源了一款效果不错的 2D 图像转 3D 模型——NeRF,可以利用少数几张静态图像生成多视角的逼真 3D 图像。
NeRF 模型 demo。论文及项目地址:https://www.matthewtancik.com/nerf
但这一模型也有缺陷:如果环境中出现了明显的光线变化或人、物移动造成的遮挡,模型的性能会大打折扣。对于「卧游」这种需要呈现户外景点的场景来说,NeRF 的适用范围可能非常有限。
谷歌的团队也看到了这种缺陷,并在最近的一项研究中推出了 NeRF 模型的改进版——NeRF in the Wild(NeRF-W),使其更加适用于充满光线变化、遮挡的户外环境。
目前,研究者已将 NeRF-W 应用于几个具有挑战性的自然文化地标照片集,这些生成的效果图在各项指标上均实现了新的 SOTA。
NeRF-W 捕捉了低维潜在嵌入空间中的光线和光度后处理。在两个嵌入之间进行插值,可以平滑地捕获外观的变化,而不影响 3D 几何形状。
外观嵌入插值。
该模型将光线从基础 3D 场景几何中分离出来,即使光线发生变化,3D 场景几何仍可保持一致:
几何一致性。
研究者对 NeRF-W 在合成设置中的个体增强进行了详细的控制变量研究,验证了每一次增强都会产生预期效果。在质量控制设置类似的前提下,NeRF-W 在外观变化和瞬时遮挡物挑战中实现的质量提升远远超过 NeRF。
勃兰登堡门。
圣心大教堂。
特雷维喷泉。
NeRF-W 改进了什么?
利用一组稀疏的捕获图像合成场景的新视图是计算机视觉领域长期存在的挑战,也是许多 AR 和 VR 应用的基础。
传统技术已使用「structure-from-motion」或基于图像的渲染解决了这个问题。近来,由于神经渲染技术的出现,该领域又取得了重大的进展。
加州大学伯克利分校、谷歌等机构提出的神经辐射场(NeRF)方法在神经网络的权重范围内,隐式建模了辐射场和场景的密度。然后用直接体积渲染合成新视图,从而在一系列具有挑战性的场景中展示出前所未有的保真度。但是,这仅证明了 NeRF 在受控环境下运行良好:场景是在较短的时间范围内捕获,在此期间,场景中的光照条件保持恒定,而且所有内容都是静态的。
NeRF 的局限性在于,当场景内出现移动的物体或光照发生变化时,模型的性能会大大降低。这些缺陷限制了 NeRF 在自然环境中的应用。因为在自然环境中,图像的拍摄时间可能间隔数小时、数天甚至数年,而且场景中可能包含行人和汽车。
NeRF 假设世界在几何、物质和光度学上是静态的,即世界的密度和辐射(radiance)都是恒定的。因此,NeRF 要求在相同位置和方向拍摄的任何两张照片必须具有相同的像素强度。
但现实世界中的许多数据集都不符合该假设。例如,在著名旅游地标的大规模互联网照片集中,两位摄影师可能站在相同的位置并拍摄相同的地标,但是在这两张照片的时间间隔里,世界可能已经发生了巨大的变化:车、人会动,天气、气候也会变…… 即使在同一时间同一位置拍摄的两张照片也可能存在很大差异:曝光、色彩校正和色调映射可能都有所不同。
本文实验部分表明:将 NeRF 直接应用于室外照片集会导致严重的重影、过度平滑和其它瑕疵。
为了能够处理这些复杂的场景,来自谷歌的研究者提出了「NeRF-W」。
论文链接:https://arxiv.org/pdf/2008.02268.pdf
首先,研究者对每张图片的外观变化进行建模,包括曝光、光线、天气,并使用一个学到的低维潜在空间进行后处理。
根据 GLO(Generative Latent Optimization)模型的框架,研究者优化了每个输入图像的外观嵌入,从而让 NeRF-W 具备通过学习整个照片集的共享外观表征来解释图像之间光度与环境变化的灵活性。学习的外观潜在空间提供了对于输出渲染外观的控制,如下图 1 所示。
然后,研究者将场景建模为共享元素和基于图像元素的组合,从而能够在无监督的条件下将场景内容分解为静态组件和瞬态组件。这种分解实现了地标 3D 视图的高保真合成,而不会产生由输入图像中动态视觉内容所产生的伪影。本文所提出的方法将瞬态元素建模为一个二级体积辐射场(secondary volumetric radiance field)和一个数据相关的不确定场(datadependent uncertainty field),后者能够捕获变化的观测噪声,进一步减少瞬态物体对静态场景表征的影响。
具体方法
与 NeRF 类似,研究者从非结构化照片集中学得了一种体积密度表征 F_θ,该照片集中的相机参数可用或已估计。从本质上讲,NeRF 假定其输入视图一致。但是,如图 2 所示,互联网照片并不遵循如此严格的假设。有两个违背这一假设的现象:1)光度变化,2)瞬时目标。
研究者提出了两个模型组件来解决这些问题。下图 3 展示了 NeRF-W 的模型架构。
潜在外观建模
为了使 NeRF 适应变化的光线和光度后处理,研究者在公式 (1) 中引入对期望颜色的图像索引 i 的依赖:
T(t)如此前定义。
研究者采用了 GLO 模型,其中每个图像 I_i 被相应分配了一个长度为 n^(a)的实值外观嵌入向量。在 NeRF 中,研究者用数值积分近似方程(8),用基于图像的辐射
代替了基于图像的辐射 c(t)。
嵌入1在与 NeRF 参数θ一起训练的过程中进行了优化。
图 8:注意人物(左)和光线(右)没有出现在渲染图中。外观嵌入修改了渲染的颜色和光线,而不影响 3D 几何。
瞬时目标
研究者通过两种方式来帮助 NeRF 应对瞬时目标。
首先,他们利用瞬时目标的一个显式表征增强了 NeRF 的体积辐射场,这使得 NeRF-W 可以重建包含遮挡的图像,同时不在静态场景表征中引入瑕疵。
其次,他们没有直接建模观察到的颜色,而是针对该值建立了一个概率分布模型。具体来说,他们将每个像素的颜色建模为各向同性正态分布,并使用与 NeRF 相同的体积渲染方法生成其均值和方差。这使得 NeRF-W 在渲染可能包含遮挡的像素时能够表达不确定性。
这两种方法使得 NeRF-W 可以在没有显式监督的条件下分离静态和瞬时目标。
实验
为了验证 NeRF-W 的效果,研究者设计了两个领域的实验,一个实验用的是网络上找到的旅游目的地地标照片,另一个用的是合成场景的渲染图像。
旅游照数据集
下图 7 显示了基线模型和 NeRF-W 在旅游照数据集上得到的定性评估结果。NeRF-W 能够同时建模外观变化、消除瞬间遮挡并捕捉一致的 3D 场景几何。
下表 1 展示了定量对比结果。从中可以看出,NeRF-W 在所有数据集的所有指标上都超越了基线模型。在 PSNR(峰值信噪比)指标上,NeRF-W 比之前的 SOTA 模型 NRW 平均高出 5.7dB。
乐高数据集
第二项评估是在合成的乐高数据集上完成的。研究者引入了两类扰动(着色和遮挡)来模拟室外环境可能带来的挑战:光照变化和瞬时目标。
如下表 2 所示,在原始数据集上,所有模型的表现几乎相同。NeRF 无法处理存在不同程度扰动的数据集。NeRF-U 处理颜色比较失败,但在遮挡的处理上优于 NeRF。NeRF-A 擅长颜色,但遮挡处理不好。只有 NeRF-W 可以两者兼顾(如下图 10 所示)。
最后,关于 NeRF-W 的更多研究信息可以观看该视频:
备注:3D
三维视觉与三维重建交流群
3D计算机视觉技术、3D重建等技术,
若已为CV君其他账号好友请直接私信。
我爱计算机视觉
微信号:aicvml
QQ群:805388940
微博知乎:@我爱计算机视觉
投稿:amos@52cv.net
网站:www.52cv.net
在看,让更多人看到
谷歌2D景观转3D风景大片,无惧复杂光线与遮挡相关推荐
- 2D景观转3D风景大片,无惧复杂光线与遮挡,人类离「躺着旅行」的梦想又近了一步...
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 整理:公众号@机器之心 本文仅做学术分享,如有侵权,请联系删除. 万物皆可转 3D. 上班的时候想旅行 ...
- 2D秒变3D!视角还能随意切!华为上交提出:CIPS-3D:基于GAN的3D感知生成器
明敏 发自 凹非寺 来源:量子位(QbitAI) 如果让GAN生成的逼真人像变成3D版,会怎样? 仿佛有摄像机对着人像直拍,正面.侧面.仰视.俯视不同角度都能展现. 真的有种人要从画中走出来那味儿了. ...
- 用单张2D图像重构3D场景
用单张2D图像重构3D场景 zouxy09@qq.com http://blog.csdn.net/zouxy09 之前看到Stanford大学的机器学习公开课程的lecture01中,Andrew ...
- 如何使用3D Converter将2D视频转换为3D?
3D Converter for Mac是一款3D转换软件,能够将普通 2D 视频转换为 3D视频,还可以将 3D 视频转换为 3D 视频(不同模式)以及将 3D 视频转换为 2D 视频.那么如何使用 ...
- CSS3的2D转换和3D转换,你了解了嘛?
css3的2D转换和3D转换 CSS3大纲: 本次讲解css3带来了两种转换:2D转换和3D转换 1. 2D转换 转换( transform)是CSS3中具有颠覆性的特征之一,可以实现元素的位移(tr ...
- ChemDraw 2D与ChemBio 3D之间的信息转换
ChemBio 3D是一款专业的三维分子结构演示软件,可在2D与3D之间转换,本教程将详解如何在ChemDraw 2D与ChemBio 3D之间进行信息转换. 1.ChemDraw的信息输出 (1)启 ...
- 泰坦尼克号是怎么从2D转成3D的?
并不是所有人都喜欢 3D 电影,很多人认为传统电影转换为 3D 电影的效果,却经常粗制滥造令人失望.詹姆斯·卡梅隆也是这么认为的,但是他决心打破这个偏见,花费了 1800 万美元将原本已是登峰造极的泰 ...
- 2D图片转3D模型软件介绍
原文http://protoduct.com/post/2012-09-28/40038833931 如果说3D打印是从虚拟到现实的桥梁,那么3D扫描就是那段回程.3D打印要想得到普及,普通消费者能够 ...
- 2D坐标系与3D坐标系的相互转换--python实现
并不是做关于SLAM方向的,但由于某些任务涉及到,故作此笔记- 相机内参矩阵: 不同的的深度摄像头具有不同的特征参数,在计算机视觉里,将这组参数设置为相机的内参矩阵C: [fx0cx0fycy001] ...
最新文章
- 如何在vsc上选择远程miniconda特定的虚拟环境中的Python解释器(4步)
- Jquery操作Cookie,保存商品ID值至本地文件中
- 【Linux环境】Elasticsearch 启动停止服务的2类方法【及 java.nio.file.AccessDeniedException: xx/pid 问题解决】(含启停shell脚本)
- setXxx()和getXxx()的作用
- 轨迹相似性度量之基于Hausdorff与LCSS的理解
- 【Python】Python库之数据可视化
- c语言程序改错输入5结果为15,《C语言程序设计教学课件》程序改错(自我总结).doc...
- 运动状态下,百度人脸识别返回结果跟当前帧可能不一致
- 计算机应用技术信息管理方向,计算机应用技术专业(信息管理方向).docx
- 网络学习 2g 3g 4g 5g技术对比
- Java Email——使用Java程序收发电子邮件
- 产品经理vs项目经理?四类PM区别都在这里啦
- 荣耀 MagicBook Pro 加装固态硬盘
- PlaySound函数以及sndPlaySound函数用法总结
- Mybatis从入门到精通(全)
- ef连接mysql报root没有权限_EF下使用自定义的connectionString避免数据库密码泄露
- 在智能全栈开发板(dc-01)碰到的问题及解决方法(stm32,ST-LINK,windows操作系统)
- Typora如何将图片使用相对路径保存到统一文件夹中(解决.md文档传输丢图片的方法)
- spring的注入(set注入、构造器注入)
- nova service的heatbeat机制
热门文章
- 信号量CSemaphore的使用
- Delphi格式化函数Format FormatDateTime和FormatFloat
- 软件工程——硬件汇编程序设计实验——顺序程序实验
- 设计模式学习笔记——模板(Template)模式
- 【环境搭建005】UBUNTU13.04 android4.08 源码编译实践中遇到的问题
- mysql索引 红黑树_为什么MySql索引使用B+树?
- c语言数组移动k,如何将一个数组的元素循环左移?
- toast弹窗_一个弹窗的设计思考
- 无差异曲线matlab算法,引入Matlab提高经济类线性代数应用能力
- mysql插10万条数据_如何快速安全的插入千万条数据?