基于RGB-D的场景实时三维重建综述

主要参考这篇综述：【State of the Art on 3D Reconstruction with RGB-D Cameras】
这篇报告阐述了基于RGB-D的场景三维重建在算法概念和不同应用场景方面的最新发展，例如静态场景重建（第2节）、动态场景重建（第3节）以及颜色和外观捕捉（第4节）。这里我重点关注了第2章，基于静态场景的实时稠密三维重建。

Abstract

价格合理的消费级RGB-D相机的出现带来了基于视觉的场景重建方法的深刻进步。计算机图形学和计算机视觉研究人员都花费大量精力开发全新的算法，用RGB-D相机捕捉静态和动态场景的综合三维模型。这在多个方面促进了最新技术的重大进步。尽管传感器分辨率有限，但有些方法可以获得非常高的重建细节。还有一些甚至可以实现实时性能，但质量可能更低。为了在更大的空间和时间范围内捕捉场景，开发了新的概念。最近的一些算法甚至在一般场景和无约束条件下，实现并行材质和光照估计的场景重建。在这份最新的报告中，我们详细分析了RGB-D场景重建的最新进展，并回顾了相关的重要工作。我们解释、比较并批判性地分析了促成这些最新进展的常见算法概念。此外，我们还展示了如何设计算法，以最好地利用RGB-D数据的优点，同时抑制其通常不常见的数据失真。此外，本报告确定并讨论了重要的开放性研究问题，并为未来工作提出了相关方向。

1. Introduction

微软在2010年开始开发Kinect，深度相机开始兴起，这些轻量级传感器价格便宜容易获取，也能以足够的分辨率和实时速率捕捉每像素颜色和深度图像，逐渐被用于视觉计算相关工作。例如，KinectFusion (ISMAR 2011) 工作的出现，在计算机图形学和视觉领域产生了显著的影响，并引发了令人难以置信的反响。
首先，开发了基于RGB-D的静态环境密集三维几何重建的高度创新的新算法。他们在几个方面推动了最新技术的发展：引入了实现实时扫描和扫描集成的新概念，提出了减小漂移和大场景实时扫描的新思路，研究了在传感器噪声显著的情况下获得高几何质量的新思路。第二，提出了捕捉动态场景和场景元素的密集三维几何模型的全新方法，例如移动人体和刚性对象的模型，或一般可变形曲面的模型。同样在这一领域，最先进的技术也在多个方面取得了进步。例如，新的基于模板的方法已经达到了以前看不到的运行时性能和精度水平，即使是在使用单个RGB-D相机拍摄时也是如此。其他人引入了新概念，以实现非常高的重建细节，但计算成本较高。捕捉时空相干几何和动态学习形状模板的创新概念开辟了更多新的可能性。第三，开发了全新的方法，从RGB-D数据和几何图形中捕获额外的场景属性。特别是，提出了新的方法来捕获静态和动态场景的材料和反射模型，通常与光照估计并行，主要关注未校准的环境。同时捕获形状和外观要困难得多，但这不仅会导致更具表现力的场景模型，而且还会增加在困难场景条件下重建的鲁棒性。
在本报告中，我们将详细回顾和比较这三个领域的最新方法。我们将解释最新创新背后常见的新算法概念。特别是，我们将解释和比较新提出的RGB-D几何处理和形状表示的概念。回顾基本的数据结构和概念，即使在大的空间和时间范围内，也能扫描形状、材料和照明。我们的重点将是实现交互式或实时帧速率的方法。然而，我们也将探索实现这种运行时性能的基本原理，并展示它们是如何从最初为离线重建而开发的想法中产生的。该报告还将批判性地分析最近的进展，并讨论开放性问题和未来研究的途径。

2. Static Scene Reconstruction

SLAM主要研究未知环境下的机器人导航问题，重点关注轨迹和姿势优化，但重建通常仅限于稀疏点云。但在计算机图形学中，具有高几何质量的稠密RGB-D重建是最重要的。Curress和Levy于96年提出的体积融合的开创性工作，为首次实时RGB-D重建方法提供了基础，大多数现代方法都是基于这种思路。KinectFusion (ISMAR 2011) 工作是本节的重点。基于指标函数的优化的泊松表面重建，是另一个流行的方向，通常在点云数据的脱机环境中使用。
在下文中，我们首先简要概述了静态场景实时重建的参考系统（第2.1节），该系统利用商品RGB-D传感器捕获的深度和颜色信息。然后我们描述了该系统每个模块的技术细节和不同选择，即数据预处理（第2.2节）、相机姿态估计（第2.3节）和基本场景表示（第2.4节）。

2.1 Fundamentals of Static Scene Reconstruction

虽然静态场景的RGB-D实时三维重建有许多不同的算法，但大多数方法都有一个非常相似的处理框架，如图：

第一阶段，对输入的RGB-D数据进行深度图预处理、降噪和异常值去除。
第二阶段，从大量输入的map V 中导出附加信息，并存储在附加输入映射中。（第2.2节）
第三阶段，相机姿态估计，计算当前帧的最佳对齐变换 T 。这可以通过frame-to-frame/frame-to-model/global fashion来实现。（第2.3节）
第四阶段，数据集成/融合，当前输入帧所有点 p∈ V 使用估计的变换 T 合并到当前三维模型 M 中。（第2.4节）

2.2 Data Preprocessing

低成本相机的深度图像的噪声取决于各种参数，例如到获取对象的距离，或深度图像中的像素位置。处理噪声最常见的方法是，双边滤波器用于降噪，并使用有限差分（正向或中心）计算每点法线。根据模型表示、数据关联和姿势优化方法，进一步估计几何信息。这包括单个量程测量的噪声或可靠性信息，对应3D点的半径或主曲率。

2.3 Camera pose estimation

位姿估计计算每个传入RGB-D帧相对于前一帧、到目前为止重建的模型或所有前一帧的6-DoF pose T。

2.3.1 Tracking Objectives

早期关于离线3D形状注册的工作极大地启发了当前基于深度流的实时相机跟踪方法。

最初提出的技术采用迭代最近点算法(ICP)的简单frame-to-frame变体，基于point-to-point或point-to-plane误差度量。帧到帧跟踪估计当前帧到上一帧的增量变换∆Tt−1，并将估计值连接到上一个姿势估计结果Tt=∆Tt−1·Tt−1。frame-to-frame策略的一个严重问题是在长扫描序列上的累积跟踪漂移。
frame-to-model tracking，基于point-to-plane ICP。与frame-to-frame框架相比有两个显著优势：第一，使用当前重建状态的综合渲染深度图来锚定重建，大幅减少了时间跟踪漂移。第二，如果一个点到平面的度量距离被使用，稳定的模型法线可以用来定义切面，而不是有噪声的输入法线，从而提高跟踪精度和鲁棒性。但这类方法也不能完全解决局部误差累积的问题。
全局姿态优化方法：
- [ZK 13] 使用兴趣点来保留局部细节，并结合全局姿势优化，在场景中均匀分布对齐误差。
- [CZK 15a]采用线性过程的鲁棒全局姿势优化，以消除错误匹配，提高重建质量。
- [DNZ 17] BundleFusion，基于在线bundle adjustment和曲面重新积分，以实时帧速率实现全局一致重建。局部到全局，分层优化策略。（目前实时重建效果最好的工作）。

2.3.2 Data Association

大多数依赖于frame-to-frame、frame-to-model或全局姿态优化的摄像机跟踪方法都需要识别单个帧和/或当前模型之间的对应点。将一组对应的点对输入优化，以找到可以获得最佳整体对齐的变换。从本质上讲，有稀疏的方法可以识别特定的特征点，也有密集的技术可以尝试找到（几乎）传入帧的所有点的对应关系。

Sparse Correspondences：通过将当前颜色和深度输入的特征点与前一帧或模型中检测到的对应特征相匹配来计算一组稀疏对应。特征提取和匹配的常用选择是SIFT ，还有许多替代的稀疏特征描述符如SURF，ORB，描述符，或在多帧中搜索对应关系。
Dense Correspondences：查找与投影数据的关联。大多方法基于point-to-plane误差度量测量空间接近度。除了空间接近性，一些方法也考虑：距离相关的传感器不确定性、表面颜色的兼容性、法线表示、梯度和局部曲率等；

2.3.3 Relocalization

在任何稳健的摄像机跟踪系统中，从跟踪故障中恢复是至关重要的一步。一些实现的方法如下：

使用回归森林来预测像素位置的概率密度函数，预测多模态高斯；
最小化重建误差的通用框架，包括使用检索林和导航图作为搜索结构的相姿态估计，从而也实现了RGB到3D模型的定位；
基于关键帧的重定位技术；
全局对齐策略（BundleFusion采用）；

2.4 Geometry Representations and Fusion

三维模型 M 的表示需要非常有效地集成大量传入的距离图。除此之外，frame-to-model 跟踪需要一种有效的方法，从任意视点生成模型的虚拟视图，以便对齐传入的map和模型，主要使用投影数据关联。在一个常见的三维模型中，主要存在两种不同的表示方式来累积观测到的RGB-D数据。最常用的方法是将信息存储在规则或分层的三维体素网格中。或者，模型可以存储为累积的三维点集。

voxel based：TSDF、体素哈希（voxelHashing）
point based：Surfel（ElasticFusion）

这张表是基于RGB-D的静态场景3D重建技术现状概述，当前的方法可以根据使用的场景表示、使用的摄像机跟踪器、使用的数据关联策略、对循环闭合的支持、流、对动态前景对象的鲁棒性以及它们的运行时性能来区分。
感兴趣的还可以下载原论文继续阅读后面的内容~