NeRF：用深度学习完成3D渲染任务的蹿红

1 引言

NeRF（https://www.matthewtancik.com/nerf）是2020年ECCV论文。仅仅过去不到2年，关于NeRF的论文数量已经十分可观。相比于计算机视觉，尤其是相比于基于深度学习的计算机视觉，计算机图形学是比较困难、比较晦涩的。被深度学习席卷的计算机视觉任务数不胜数，但被深度学习席卷的计算机图形学任务仍然尚少。

由于NeRF及其众多follow-up工作在图形学中非常重要的渲染任务上给出了优秀的结果，可以预见未来用深度学习完成图形学任务的工作会快速增长。今年的GIRAFFE（https://m-niemeyer.github.io/project-pages/giraffe/index.html）是NeRF的后续工作之一，它摘下2021CVPR的最佳论文奖对整个方向的繁荣都起到积极的推动作用。

本文希望讨论以下问题：

NeRF被提出的基础（2 前NeRF时代）；
NeRF是什么（3 NeRF！）；
NeRF的代表性follow-up工作（4 后NeRF时代）；
包含NeRF的更宽泛的研究方向Neural Rendering的简介（5 不止是NeRF）。

2 前NeRF时代

2.1 传统图形学的渲染

本质上，NeRF做的事情就是用深度学习完成了图形学中的3D渲染任务。那么我们提两个问题。

问题1：3D渲染是要干什么？

看2个比较官方的定义。

MIT计算机图形学课程EECS 6.837（https://ocw.mit.edu/courses/6-837-computer-graphics-fall-2012/pages/lecture-notes/）对渲染（Rendering）的定义：

“Rendering” refers to the entire process that produces color values for pixels, given a 3D representation of the scene.

优秀综述论文State of the Art on Neural Rendering（https://arxiv.org/abs/2004.03805）对渲染（Rendering）的定义：

The process of transforming a scene definition including cameras, lights, surface geometry and material into a simulated camera image is known as rendering.

也就是说，渲染就是用计算机模拟照相机拍照，它们的结果都是生成一张照片。

用照相机拍照是一个现实世界的物理过程，主要是光学过程，拍照对象是现实世界中真实的万事万物，形成照片的机制主要就是：光经过镜头，到达传感器，被记录下来。

拍照的物理过程

而渲染就是用计算机模拟这一过程，模拟“拍照”的对象是已存在的某种三维场景表示（3D representation of the scene），模拟生成照片的机制是图形学研究人员精心设计的算法。

关键前提：渲染的前提是某种三维场景表示已经存在。渲染一词本身不包办生成三维场景表示。不过，渲染的确与三维场景表示的形式息息相关；因此研究渲染的工作通常包含对三维场景表示的探讨。

问题2：3D渲染是图形学问题，那么原先大家是用什么传统图形学方法实现3D渲染的呢？

主要有两种算法：光栅化（rasterization），光线追踪（ray tracing）；都是对照相机拍照的光学过程进行数学物理建模来实现的。

Rrasterization，Ray Tracing

传统渲染的详细原理参阅此教材（https://github.com/QianMo/Real-Time-Rendering-3rd-CN-Summary-Ebook）。

光栅化是一种前馈过程，几何体被转换为图像域，是上世纪比较早的算法。光线追踪则是将光线从图像像素向后投射到虚拟三维场景中，并通过从与几何体的交点递归投射新光线来模拟反射和折射，有全局光照的优势（能模拟光线的多次反射或折射）。

当下，在学术界，还在研究传统图形学的渲染算法的人应该大部分在搞优化加速，怎么用GPU实时渲染更复杂的场景之类的事儿。在工业界，不少游戏重度依赖渲染技术，所以应该也有不少游戏公司在研究更逼真、更快速、更省算力的渲染算法。去年虚拟引擎出的新款“虚拟引擎5”效果很是震撼，光照、纹理、流体的实时渲染模拟都逼真到了前所未有的新高度，可以看下虚拟引擎官方的宣传视频，真的很不错。

虚拟引擎5

2.2 神经网络侵略3D渲染任务：NeRF呼之欲出

隐式场景表示（implicit scene representation）

基于深度学习的渲染的先驱是使用神经网络隐式表示三维场景。许多3D-aware的图像生成方法使用体素、网格、点云等形式表示三维场景，通常基于卷积架构。而在CVPR 2019上，开始出现使用神经网络拟合标量函数来表示三维场景的工作。

DeepSDF

2019年CVPR的DeepSDF（https://openaccess.thecvf.com/content_CVPR_2019/papers/Park_DeepSDF_Learning_Continuous_Signed_Distance_Functions_for_Shape_Representation_CVPR_2019_paper.pdf）或许是最接近NeRF的先驱工作。

SDF是Signed Distance Function的缩写。DeepSDF通过回归（regress）一个分布来表达三维表面的。如下图所示，SDF>0的地方，表示该点在三维表面外面；SDF<0的地方，表示该点在三维表面里面。回归这一分布的神经网络是多层感知机（Multi-Layer Perceptron，MLP），非常简单原始的神经网络结构。

DeepSDF

NeRF比DeepSDF进步的地方就在于，NeRF用RGBσ代替了SDF，所以除了能推理一个点离物体表面的距离，还能推理RGB颜色和透明度，且颜色是view-dependent的（观察视角不同，同一物点的颜色不同），从而实现功能更强大的渲染。

3 NeRF！

建议前往NeRF项目网站（https://www.matthewtancik.com/nerf）查看视频效果图。

3.1 Radiance Fields（RF）

NeRF是Neural Radiance Fields的缩写。其中的Radiance Fields是指一个函数、或者说映射。

3.2 Neural Radiance Fields（NeRF）

3.3 NeRF的体积渲染

NeRF（Neural Radiance Fields）其实是一种三维场景表示（scene representation），而且是一种隐式的场景表示（implicit scene representation），因为不能像point cloud、mesh、voxel一样直接看见一个三维模型。

3.4 NeRF的训练

训练NeRF的输入数据是：从不同位置拍摄同一场景的图片，拍摄这些图片的相机位姿、相机内参，以及场景的范围。若图像数据集缺少相机参数真值，作者便使用经典SfM重建解决方案COLMAP估计了需要的参数，当作真值使用。

在训练使用NeRF渲染新图片的过程中，

先将这些位置输入MLP以产生volume density和RGB颜色值；
取不同的位置，使用体积渲染技术将这些值合成为一张完整的图像；
因为体积渲染函数是可微的，所以可以通过最小化上一步渲染合成的、真实图像之间的差来训练优化NeRF场景表示。

这样的一个NeRF训练完成后，就得到一个以多层感知机的权重表示的模型。一个模型只含有该场景的信息，不具有生成别的场景的图片的能力。

除此之外，NeRF还有两个优化的trick：

位置编码（positional encoding），类似于傅里叶变换，将低维输入映射到高维空间，提升网络捕捉高频信息的能力；
体积渲染的分层采样（hierarchical volume sampling），通过更高效的采样策略减小估算积分式的计算开销，加快训练速度。

4 后NeRF时代

GIRAFFE：composition方向的代表作

2021CVPR的最佳论文奖得主GIRAFFE是NeRF、GRAF工作的延申。

在NeRF之后，有人提出了GRAF（Generative Radiance Fields），关键点在于引入了GAN来实现Neural Radiance Fields；并使用conditional GAN实现对渲染内容的可控性。

在GRAF之后，GIRAFFE实现了composition。在NeRF、GRAF中，一个Neural Radiance Fields表示一个场景，one model per scene。而在GIRAFFE中，一个Neural Radiance Fields只表示一个物体，one object per scene（背景也算一个物体）。这样做的妙处在于可以随意组合不同场景的物体，可以改变同一场景中不同物体间的相对位置，渲染生成更多训练数据中没有的全新图像。

GIRAFFE实现composition

如图所示，GIRAFFE可以平移、旋转场景中的物体，还可以在场景中增添原本没有的新物体。

其他最新相关工作

2021年CVPR还有许多相关的精彩工作发表。例如，提升网络的泛化性：

pixelNeRF：将每个像素的特征向量而非像素本身作为输入，允许网络在不同场景的多视图图像上进行训练，学习场景先验，然后测试时直接接收一个或几个视图为输入合成新视图。
IBRNet：学习一个适用于多种场景的通用视图插值函数，从而不用为每个新的场景都新学习一个模型才能渲染；且网络结构上用了另一个时髦的东西 Transformer。
MVSNeRF：训练一个具有泛化性能的先验网络，在推理的时候只用3张输入图片就重建一个新的场景。

针对动态场景的NeRF:

Nerfies：多使用了一个多层感知机来拟合形变的SE(3) field，从而建模帧间场景形变。
D-NeRF：多使用了一个多层感知机来拟合场景形变的displacement。
Neural Scene Flow Fields：多提出了一个scene flow fields来描述时序的场景形变。

其他创新点：

PhySG：用球状高斯函数模拟BRDF（高级着色的上古神器）和环境光照，针对更复杂的光照环境，能处理非朗伯表面的反射。
NeX：用MPI（Multi-Plane Image ）代替NeRF的RGBσ作为网络的输出。

5 不止是NeRF：Neural Rendering

Neural Radiance Fields的外面是Neural Rendering；换句话说，NeRF（Neural Radiance Fields）是Neural Rendering方向的子集。

在针对这个更宽泛的概念的综述State of the Art on Neural Rendering中，Neural Rendering的主要研究方向被分为5类，NeRF在其中应属于第2类“Novel View Synthesis”（不过这篇综述早于NeRF发表,表中没有NeRF条目）。

Neural Rendering的5类主要研究方向

表中彩色字母缩写的含义：

在这篇综述中，Neural Rendering被定义为：

Deep image or video generation approaches that enable explicit or implicit control of scene properties such as illumination, camera parameters, pose, geometry, appearance, and semantic structure.

Neural Rendering包含所有使用神经网络生成可控（且photo-realistic）的新图片的方法。“可控”指人可以显式或隐式地控制生成新图片的属性，常见的属性包括：光照，相机内参，相机位姿（外参），几何关系，外观，语义分割结构。在这个大框架下，NeRF是一种比较受欢迎的可控相机位姿的Neural Rendering算法。但Neural Rendering这个方向不止于此。

深度学习视频课程：自动驾驶中的深度学习模型部署实战

在目前的Neural Rendering方向，最火的子方向就是“Novel View Synthesis”，这与NeRF的强势蹿红密不可分；第二火的子方向是“Semantic Photo Synthesis”，这主要归功于语义分割以及相关的GAN领域的成熟度。“Semantic Photo Synthesis”方向也是成果颇丰，例如2019年CVPR的Semantic Image Synthesis with Spatially-Adaptive Normalization，其效果图如下。

Semantic Image Synthesis

附录

NeRF体积渲染公式的推导

连续形式

要搞清楚上述积分式的来由，应当学习体渲染的基础知识。该渲染问题考虑的是光在介质中传播的问题，和物理中的比尔朗伯定律是同源的，在图形学的运用起源于1984 Kajiya的经典论文。

由于NeRF的一作Ben Mildenhall在SIGGRAPH 2021 Course Advances in Neural Rendering中从概率的角度推导了该体积渲染公式，另外这篇博文也解释得很透彻，可以去看他们的，所以我这里就不写了。

离散形式

推导一下连续形式变为离散形式的运算。

计算机求解积分式的办法一般是化为黎曼和。在这里，如果我们每次都将积分区间划分为固定的、等间距的窄长方形面积和，其实就失去了NeRF是连续场景表示的优势：因为虽然每个点的RGBσ都可以访问，但是实际上你也只用了固定点的值求积分。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~