GeoNet: Deep Geodesic Networks for Point Cloud Analysis

摘要
基于表面的几何拓扑信息为对象语义分析和几何建模提供了强有力的线索。但是，这种连接信息在点云中丢失。因此，我们介绍了GeoNet，用于模拟点云潜在的网格曲面特征。为了证明所学习的测地信息表示的适用性，本文进一步提出了一种融合方案，将GeoNet与其他基线或骨干网络（如PU-Net和PointNet ++）结合使用，用于下游点云分析。我们的方法改进了多个代表性任务的最新技术，这些任务是从底层表面拓扑理解中受益，包括点上采样，法向量估计，网格重建和非刚性形状分类。
1 介绍
拓扑估计，即确定点云之中不同点的邻域关系，是一个很重要的问题，因为可以进一步揭示点云语义和功能信息的潜在的点云结构。
如图 1 左边红色插框所示：这两个点集，尽管看起来不相连，但实际上应该相连为一个椅腿，作为整个椅子的一部分。另一方面，位于椅子上、下表面的点集，尽管空间上非常聚集，但却不该相连。确定这样的拓扑学信息似乎是一个低阶问题，而实际上这是一项充满挑战的任务，需要全局、高阶的知识。再次回到图 1 中的红色插框，本文得出结论，两个点集只有从大量点云学习到统计规则之后才相连，并观察这一类型的诸多物体，伴随着从椅子延伸到地面的相连、垂直的元素。这启发本文采取一种学习的方法来捕捉点云的拓扑学结构。
图 1
本文旨在开发一种针对潜在曲面拓扑学和物体几何学的点云数据的表示，进而提出一种利用已学习的拓扑学特征分析测地性点云的方法。这一表示可捕捉一个点云的不同拓扑学模式，并且这一方法不会改变数据流，因此本文的表示可实现联合学习，与当前最优的 baseline 或 backbone 相结合，比如 PU-Net，PointNet++。对于第一个目标，本文提出一种测地性邻域估计网络（Geodesic Neighborhood Estimation Network） GeoNet，通过使用 groundtruth 测地距离作为监督信号来学习深度测地表示。如图 2 所示，GeoNet 包含两个模块：1）自动编码器，提取每一个点的特征向量；2）测量匹配层（GM），使用潜在特征充当一个已学习的核函数估计测地邻域点。
借助于监督式的测地训练过程，GM 层的中间特征包含丰富的点云拓扑学信息以及固有的曲面属性。本文注意到，尽管表示在测地距离上训练，但由于没有施加对称性、三角不等式等基于距离的约束，所学得的表示暂时并不适合作为标准测地距离。表示的目标是为整体几何学和拓扑学的后续处理过程提供点云潜在的网格曲面特征信息。

对于第二个任务，如图 3 所示，本文提出测地融合方案，从而把 GeoNet 整合到当前最优的架构之中，完成不同的任务。具体而言，本文通过 PU-Net fusion（PUF）进行点云上采样，通过 PointNet++ fusion（POF）进行法向量估计、网格重建以及非刚性形状分类。实验表明，这种来自 GeoNet 的已学习的测地表示同时有助于几何学和语义点云分析。

二相关工作
我们主要回顾传统的基于图的测地距离计算方法，以及点云上采样，法线估计和非刚性形状分类的一般工作，因为我们不了解基于点云的深度测地表示学习的其他先前工作。
测地距离计算
有两种法：1 允许路径遍历网格面以进行精确的测地距离计算，2 通过约束图边缘的最短路径算法找到近似解。
对于第一种类型，早期方法提出了时间复杂度为O（n3logn）的多项式算法，其中n是边数，它们的方法局限于凸多边形。基于Dijkstra算法将时间复杂度提高到O（n2logn）并将方法扩展到任意多面体表面。后来，[6]用多面体边上的一组窗口来编码最短路径集的结构将时间复杂度提高到O（n2）方法。通过过滤掉无用的窗口，[35]进一步加快了算法的速度。然后[7]引入了heat方法求解一对标准线性椭圆问题。
2 至于基于图边缘的方法，典型的解决方案包括Dijkstra ，Floyd-Warshall 和Johnson的算法，**它们的时间复杂度比表面遍历方法低得多。**对于20000顶点网格，使用[35]计算其所有对的测地距离可能需要几天，而Johnson算法仅在CPU上使用大约1分钟。当网格密集时，边缘约束的最短路径方法会生成低误差测地线估计。因此，在我们的工作中，我们应用Johnson算法来计算地面实况测地距离。
点上采样
有两种方法： i）基于优化的方法[1,23,18]，[1]从局部切线空间中的Voronoi图的顶点插入密集点集。[23]提出了一种局部最优投影（LOP）算子，用于点云重新采样和利用L1中值的网格重建。为了提高对点云密度变化的鲁棒性，[18]提出了加权LOP。这些方法都有很强的假设，例如表面光滑度，并且不是数据驱动的，因此在实践中应用有限。
ii）基于深度学习的方法。为了应用（图）卷积运算，许多方法首先将点云体素化为规则的体积网格[34,33,16,8]，或者改为使用网格[9,36]。虽然体素化引入了离散化伪像并且生成用于计算效率的低分辨率体素，但是不能从稀疏和嘈杂的点云中轻松地重建网格数据。为了直接对点云进行上采样，PU-Net [37]学习每个点的多级特征，并通过特征空间中隐含的多分支卷积单元扩展点集。但PU-Net基于欧几里德空间，因此不利用测地空间中的基础点云表面属性
法线估计
对点云法线估计，一种广泛使用的方法是分析点的切面中的方差，并通过主成分分析（PCA）找到最小方差方向[17,20]。但是这种方法对邻域尺寸的选择很敏感，即大区域可能导致过度平滑，小区域对噪声敏感。为了提高鲁棒性，已经提出了基于拟合高阶形状的方法[13,4,2]。但是，这些方法需要在推理时间进行仔细的参数调整，并且只能估计到区域的法线方向，到目前为止，使用传统方法对定向法向量的稳健估计仍然具有挑战性，尤其是在不同的噪声水平和形状结构上。只有很少的数据驱动方法能够将法线估计和方向对齐集成到统一管道中[14,28]。它们将点云作为输入并直接回归定向法向量，但这些方法并非设计用于学习基于拓扑的表示，即其不能捕获潜在表面特征以进行更好的正常估计。
非刚性形状分类
对非刚性对象的点云进行分类通常包括两个步骤：提取测地空间中的内在特征并应用分类器（例如SVM，MLP等）。一些常用的特征包括波核签名[3]，热核签名[31]，谱图小波签名[25]，Shape-DNA [29]等。例如[24]使用geodesic moments 和堆叠稀疏自动编码器进行分类例猫，马，蜘蛛等非刚性形状。geodesic moments是从形状上的测地距离的积分导出的特征向量，而堆叠的稀疏自编码器是由多层稀疏自编码器组成的深度神经网络。然而，上述方法都需要知道基于图形的数据，这些数据不能从广泛使用的传感器（例如深度相机，激光雷达等）获得以用于3D数据采集。虽然PointNet ++ [28]能够直接摄取点云并进行分类，但它并不是为非刚性形状的测地拓扑建模而设计的，因此其性能不如传统的两步法（注：自己研究的是刚性形状）
三方法
3.1 问题陈述

3.2 方法
我们通过训练GeoNet来学习上面定义的函数f。它包括带有跳跃连接的自动编码器，多尺度测地匹配（GM）层，起到利用点集潜在的空间特征的作用。GeoNet使用集合χ中点的地面实况测地距离进行监督训练。本文在一些需要理解潜在的表面拓扑学的经典任务上测试了该方法，具体包括点云上采样、法向量估计、网格重建以及非刚性形状分类。为此，本文还结合了专为上述问题而设计的当前最优的架构。比如，使用 PU-Net 作为 baseline 用于点云上采样，把 PointNet++ 用于其他任务，这两种测地融合方法分别称之为 PU-Net fusion (PUF) 和 PointNet++ fusion (POF)，通过与 GeoNet 的整合，解决测地相关的点云分析问题。
3.3 测地线邻域估计
如图2所示。 GeoNet 包含两个模块：自编码器提取每个点的特征向量；GM 层利用潜在的特征充当一个已学习的测地核函数评估。
特征提取 我们使用PointNet ++的变体进行特征提取。它把一个输入点集映射到特征集。为恢复点云的特征，本文还使用了带有跳跃连接的编码器。所得到的（N，3+C）张量接着被馈送至 GM 层用于测地邻域估计。
测地匹配 本文把不同半径下的潜在特征归组为邻域特征集合。针对每个半径设置一个最大数量的邻域点，从而得到一个维的向量。归组的特征，连同潜在的特征，输入到测地匹配模块，最后，GM 层为输入点云的每个点反馈一个测地核函数评估。
3.4 测地融合
为证明这一学习的测地表示可用于点云分析，本文结合针对不同任务的当前最优架构给出了新的融合方法。主要是基于 PU-Net （Point Cloud Upsampling Network ）提出 PU-Net fusion (PUF)，提出使用PU-Net作为基线网络的PUF来进行点云上采样的测地融合。利用由估计的测地线邻域提供的连通性信息，我们的测地线融合上采样网络可以比PU-Net更好地恢复拓扑细节，例如在曲线和尖锐形状上。基于 PointNet++ 提出 PointNet++ fusion (POF)用于语义任务上。
PU-Net Geodesic Fusion
在每个邻域尺度r1处，将分组点集Br1（xi）与估计的测地线邻域Gr1（xi）融合以产生Sr1（xi）= f（xj; gij）jxj2 Brl（xi）g与（xj; gij））2 Rd + 1。然后将（N; K1; d + 1）融合张量馈送到PointNet以生成（N; Cl）特征张量，其将与来自其他邻域尺度的特征堆叠。其余层来自PU-Net。如图3中的红色矩形所示，总损失有两个加权项：L = L geo +λLtask（2）其中L geo用于GeoNet训练（1），λ是权重，Ltask，一般来说，是我们所针对的当前任务的损失。在这种情况下，目标是点云上采样：Ltask = Lup（θ）其中θ表示网络参数。
PUF上采样将随机分布的稀疏点集χ作为输入，并生成均匀分布的密集点云P ^⊆R3。上采样因子是α=jjPχjj：L up（θ）= LEMD（P; P ^）+λ1Lrep（P ^）+λ2kθk2（3）其中第一项是上采样点之间的地球移动距离（EMD）设置P ^和地面实况密集点云P：LEMD（P; P ^）=minφ：P ^！PX pi2P ^ kpi - φ（pi）k2（4）其中φ：P ^！ P表示双射映射。
（3）中的第二项是排斥损失，它通过惩罚近点对来促进P ^的均匀空间分布：

PU-Net 测地融合。如图 3 上半部分所示，将输入点集（N，d）送至两个分支：multi-scale Euclidean grouping 和 GeoNet。

接着，融合张量被送至 PointNet 以生成一个向量。剩余的层则来自 PU-Net。如图 3 红框所示，这个损失函数有两个权重项：

PointNet++ Geodesic Fusion

图 3 下半部分给出了基于 PointNet++ 的融合方法的 pipeline。由于 PU-Net 和 PointNet++ 所面向的任务以及架构的不同，本文对 PUF 做了以下改变以设计一种使用 PointNet++ 的适宜的融合策略。首先，对于 multi-scale grouping，本文使用学习的测地邻域而不是欧氏邻域。其次，尽管 PUF 层把每一邻域点集已估计的融合进 backbone，在 GeoNet 中 POF 层依然使用提取第二个全连接层的潜在测地特征。第三，在 PointNet++ 融合中，借助最远点采样，本文以分层方式应用 POF 层。因此，已学习的特征同时编码点集的局部和全局的结构化信息。POF的总损失有两部分：一GeoNet训练，另一部分task-at-hand 。本文借助 L_1 误差估计点云法向量：接着，本文使用所估计的法向量通过泊松曲面重建（Poisson surface reconstruction）生成网格。使用交叉熵损失函数，为非刚性物体的点云分类：

实验
本文通过评估点云测地邻域对 GeoNet 进行性能测试。为证明已学习的深度测地表示的可用性，本文在一系列对潜在曲面网格特征理解有所要求的点云任务上进行了实验，比如点云上采样、法向量估计、网格重建、非刚性形状分类。
测地邻域估计
通过使用具有 512 个均布点的点云，下表中的展示了 ShapeNet 数据集上的测地距离集合、和估计结果，并给出了多个半径下的平均方误差（MSE）。

图 4：测地邻域估计的表示结果。
点云上采样
本文在点云上采样任务重测试 PUF，结果如下表所示。本文在 3 个指标上与当前最优的点云上采样方法 PU-Net 进行了对比：MSE、EMD 以及倒角距离 CD。

由于测地邻域较于欧氏邻域具有更丰富的潜在点集拓扑学信息，PUF 上采样产生更少的异常值，并复原更多的细节，比如曲线及尖锐结构，如图 5 所示。

法向量估计及网格重建
本文将 PointNet++ 测地融合方法 POF 应用于法向量估计，接着借已完成的法向量估计做泊松曲面重建。Shrec15 和 ShapeNet 数据集上的法向量估计量化结果如表 4 和表 5 所示。通过对比传统的 PCA 算法和当前最优的深度学习方法 PointNet++，POF 有 10% 左右的相对提升。

非刚性形状分类非刚性形状分类的实验结果如表 6 所示。尽管 POF 和 PointNet++ 只把xyz的点云作为输入，DeepGM 需要在 groudtruth 测地度量空间中利用精确网格数据获取线下计算的固有特征。尽管所用数据信息量更少，但 POF 相较其他方法精度更高。这进一步证明，POF 更适合解决需要理解潜在点云曲面属性的任务。

失败模式
测地线邻域估计的失败情况如下图所示。由于长度和宽度/高度之间的比率较大，因此在对棒形物体进行归一化之后（例如，火箭，刀等）成单位球我们需要高精度的小值来表示沿宽度/高度侧的点对测地距离。由于像火箭和刀这样的棒状物体只占训练数据的一小部分，因此GeoNet在训练时倾向于对来自这些类别的样本犯错误。

结论
本文提出 GeoNet，一种全新的深度学习架构，用于学习点云基于测地空间的拓扑学结构。其训练过程在 groundtruth 测地距离的监督之下进行，因此已学习的表示可反映出点云所潜在表征的网格曲面特征。为证明这一拓扑学结构的有效性，本文借助融合方法把 GeoNet 与当前最优的点云分析 baseline 或 backbone 整合为一种计算方案，在点云上采样、法向量估计、网格重建及非刚性形状分类等几何学及语义任务上的实验结果表明，GeoNet 性能优于当前最佳同类方法。
参考文献：
https://www.jiqizhixin.com/articles/2019-03-23-2