ECCV2020 点云处理——A Closer Look at Local Aggregation Operators in Point Cloud Analysis

A Closer Look at Local Aggregation Operators in Point Cloud Analysis

（一）动机 Motivation
（二）创新 Innovation
（三）Overview of Local Aggregation Operators
（四）Benchmarking Local Aggregation Operators in Common Deep Architecture
- 4.1 Common Experimental Settings
- 4.2 Performance Study on Point-wise MLP based Method
- 4.3 Performance Study on Adaptive Weight based Method
- 4.4 Discussions
（五）PosPool: An Extremely Simple Local Aggregation Operator
（六）实验 Experiments
- 6.1 Benchmark Settings
- 6.2 Comparing Operators with Varying Architecture Capacity
（七）总结 Conclusion

（一）动机 Motivation

用于点云处理的网络体系结构的最新进展主要是由local aggregation operators的新设计推动的。但是，由于每个网络的总体架构和实现细节不同，因此未仔细研究这些operators对网络性能的影响。同时，大多数operators仅应用于浅层架构。
aggreation operator对网络性能的贡献却从未经过认真研究和公平比较。这主要是由于每个工作中使用的网络架构不同，例如网络深度，宽度，基本构造块，是否使用跳跃连接，以及每种方法的不同实现（例如点采样方法，邻域计算，等等。同时，大多数现有的aggregation layers 都应用在浅层网络中，目前尚不清楚随着网络深度的增加，这些设计是否仍然有效。
论文表明，尽管这些operators的设计不同，但是所有这些operators在相同的网络输入和特征数量下，对网络性能的贡献出乎意料的相似。因此本篇论文重新考虑对点云处理进行本地聚合运算符的复杂设计的必要性。

（二）创新 Innovation

重新考虑局部聚合层在point cloud modeling中的作用：我们真的需要复杂的局部聚合计算吗？

提出一个非常简单的局部聚集算子来回答这个问题，该算子没有可学习的权重:通过元素乘法来组合相邻点特征及其三维相对坐标，然后使用一个AVG池层来从相邻点提取信息。
在这三个数据集上显示的精确度均不比其他高度优化的复杂运算符低甚至更好。在挑战性的PartNet数据集上大大优于以前的方法（7.4 mIoU）。

（三）Overview of Local Aggregation Operators

介绍了局部聚合运算符的一般公式以及它们的分类。

General Formulation

Point-wise MLP based Methods

Pseudo Grid Feature based Methods

基于伪网格特征的方法在几个采样的常规网格点上生成伪特征，从而可以应用常规卷积方法。代表性的方法是KPConv ，该方法对均匀分布的球面网格点进行采样，并在第K个网格点上计算伪特征为：

不同的基于伪网格特征的方法之间的主要区别在于网格点或索引顺序的定义。

Adaptive Weight based Methods

基于自适应权重的方法定义了任意相对位置上的卷积滤波器，因此可以计算所有相邻点上的聚合权重。

一些方法采用更多与位置有关的变量，点密度或边缘特征作为计算自适应权重的输入。例如，还可以使用除全连接（FC）层以外的更复杂的功能，例如，泰勒（Taylor）逼近和附加的SoftMax函数可对邻域中的聚合权重进行归一化。

（四）Benchmarking Local Aggregation Operators in Common Deep Architecture

4.1 Common Experimental Settings

图1显示了本文中使用的residual架构。

包括5个不同点分辨率的阶段，每个阶段由几个bottleneck residual blocks堆叠。
每个bottleneck residual block依次由1×1逐点转换层，局部聚合层和另一个1×1逐点转换层组成。
在连接两个阶段的块上，应用了跨越式局部聚合层，其中以较高的分辨率选择局部邻域，而输出采用较低的分辨率。
在每1×1层之后应用批归一化和ReLU层，以方便训练。
对于头部网络，分别使用4层分类器和U-Net风格的编码器-解码器进行分类和语义分割。

在评估本地聚合运算符时，使用此运算符实例化体系结构中的所有本地聚合层。本文还通过改变网络深度（block repeating factor Nr），width（C）和bottleneck ratio（γ）来调整模型复杂度。

Point Sampling and Neighborhoods.

为了生成不同分辨率级别的点集，遵循KPConv使用具有不同网格大小的子采样方法来生成不同分辨率阶段的点集。

具体来说，整个3D空间均由网格划分，并且如果在网格中出现多个点，则会随机采样一个点来表示网格。
这种方法可以减轻密度变化的问题。给定分辨率为Res1的最高分辨率的基本网格大小，将不同分辨率的网格大小逐级乘以2x。

要生成点邻域，论文遵循球半径方法(pointnet++)，该方法通常比位置或特征kNN方法产生更平衡的密度。球半径设置为基本网格大小的2.5倍。

Performance of Two Baseline Operators

对于点云建模，没有本地聚合运算符的体系结构在某种程度上也表现良好，例如PointNet。为了调查本地聚合运算符在性能方面的表现，提供了两个基准函数来代替第3节中描述的本地聚合运算符：

4.2 Performance Study on Point-wise MLP based Method

从代表性方法PointNet ++ 开始研究这种方法。

使用其自己的特定总体架构以及与我们相同的其他实现细节来重现此方法。表2（表示为PointNet ++ *）表明，论文的复制效果相当好，其准确性比作者在ModelNet40和PartNet上报告的准确性略高。
使用图1中的深层架构重新研究了针对此类方法的几个设计组件，包括MLP中完全连接（FC）层的数量，输入功能的选择和归约功能。表2显示了在这些方面的消融研究，其中架构超参数为：block repeat factor Nr = 1，base width C = 144，bottleneck ratioγ=8。可以得出以下结论：

Number of FC layers.

在这种方法类型的文献中，默认情况下通常使用3层来逼近复杂函数。
令人惊讶的是，在本文的实验中，使用1个没有非线性的FC层的性能明显优于在S3DIS上使用2层或3层FC层，在ModelNet40和PartNet上也具有竞争力。
假设应用于点特征和相对位置的串联的多个FC层的拟合能力可以部分地通过单独应用于点特征的逐点转换层（残差块中的第一层和最后一层）来部分实现。
较少的FC层也可以简化优化。考虑到效率问题，使用1 FC层也是有利的。

Input Features.

相对位置和边缘特征在ModelNet40和PartNet上的性能类似，将它们组合起来不会带来任何额外收益。但是，在S3DIS数据集上，将两者结合使用要明显优于单独使用它们的变体。

Reduction function.
MAX池执行最佳，这与文献中的一致。

An efficient implementation when 1 FC layer is used.

注意当点j出现在不同邻域中时可以共享第二项W2fjW^2f_jW2fj的计算，此算子的计算复杂度从（d + 3）ndK显着降低到nd2 + 3ndK。

Sweet spots for point-wise MLP methods

关于性能和效率，最佳点设置是将1 FC图层应用于相对位置和边缘特征的输入组合。表2还显示，对于此方法，使用γ= 2可以接近或超过所有三个数据集的最新水平。

4.3 Performance Study on Adaptive Weight based Method

表3显示了此方法类型内几个设计组件的消融，包括完全连接（FC）层的数量，输入功能的选择，归约函数以及是否进行权重归一化。采用的体系结构超参数为：block repeat factor Nr = 1，base width C = 144，bottleneck ratio γ= 8。

可以得出以下结论：

Number of FC layers.

与在S3DIS上使用2或3层相比，使用1 FC层的性能明显更好，并且在ModelNet40和PartNet上可以媲美。

Input features.

仅使用相对位置在所有数据集上效果最佳。附加位置特征会导致精度略有下降。边缘特征会损害性能，可能是因为它阻碍了从相对位置有效学习自适应权重。

Reduction function.

MAX和AVG函数的性能略好于SUM函数，这可能是因为MAX和AVG函数对变化的邻居大小更不敏感。我们默认使用AVG功能。

SoftMax normalization.

通过SoftMax归一化处理，精度会大大降低，这可能是因为归一化处理后的positive权重使内核充当低通滤波器，并可能导致过度平滑的问题。

Sweet spots for adaptive weight based methods.

通过仅在相对位置上应用1个没有SoftMax归一化的FC层来获得最佳性能，即可计算自适应权重。

4.4 Discussions

表1表明，具有适当设置的三种本地聚合运算符类型在使用相同深度残差架构的三个代表性数据集上都实现了最先进的性能。
与以前的最新技术相比，它们的参数和计算量减少了16倍（用“ S”标记），因此它们也具有竞争力。
不同运算符的最佳位置也支持简单性原则，即相对位置和1 FC层在大多数情况下均表现良好。
尽管最近对点云分析的研究主要在于发明新的本地聚合算子，但以上结果表明，其中一些可能值得在更深层次和residual架构下进行重新研究。
这些结果还引发了一个问题：一个更简单的本地聚合算子能否达到与复杂算子相似的准确性？

（五）PosPool: An Extremely Simple Local Aggregation Operator

该operator被称为位置池（PosPool），其特征在于其权重不可学习。它还保留了排列/平移不变性，这对于点云分析是有利的。

A Variant.

考虑了位置池化运算符的一种变体，该变体稍微复杂一些，但保持了没有可学习权重的属性。代替使用3-d相对坐标，使用余弦/正弦函数将坐标嵌入与点特征fijf_{ij}fij相同维度的向量中。嵌入是从d / 6组6维向量连接起来的，其中第m个6-d向量代表余弦/正弦函数，其相对位置x,y,z的波长为10006m/d10006^{m / d}10006m/d。

Complexity Analysis

空间复杂度O(space)=0O(space)= 0O(space)=0，因为没有可学习的权重。时间复杂度也很小O(time)=ndKO(time)= ndKO(time)=ndK。

（六）实验 Experiments

6.1 Benchmark Settings

ModelNet40 grid size of 2cm
S3DIS grid size of 4cm
PartNet grid size of 2cm

6.2 Comparing Operators with Varying Architecture Capacity

（七）总结 Conclusion

本文通过设计的通用测试平台深入研究了现有的本地聚合运算符
调查表明，通过适当的设置，所有operators都可以在三项任务上达到最先进的性能。
出于这一发现，论文提出了一种新的极其简单的operators，无需学习权重，其性能与具有复杂设计的现有operators一样。
为了了解从输入中学习到的与这些operators有关的网络，论文通过不同方法（算子）进行预测之前将激活图的范数可视化，这表明不同的算子倾向于为相同的输入点云提供相似的激活，如图4所示。