GLOBAL-LOCAL PROPAGATION NETWORK FOR RGB-D SEMANTIC SEGMENTATION

用于RGB-D语义分割的全局-局部传播网络

文章地址：https://arxiv.org/abs/2101.10801
代码地址：

摘要

深度信息在RGB-D语义分割任务中很重要，可以为彩色图像提供额外的几何信息。大多数现有的方法利用多阶段的融合策略，将深度特征传播到RGB分支。然而，在非常深的阶段，以简单的元素相加的方式传播，不能完全利用深度信息。我们提出**全局-局部传播网络（GLPNet）**来解决这个问题。具体来说，我们引入了一个局部语境融合模块(L-CFM)，在元素明智融合之前动态地对齐两种模式，并引入了一个全局语境融合模块(G-CFM)，通过联合建模多模式全局语境特征将深度信息传播到RGB分支。广泛的实验证明了所提出的融合模块的有效性和互补性。将两个融合模块嵌入到一个双流编码器-解码器结构中，我们的GLPNet在两个具有挑战性的室内场景分割数据集，即NYU-Depth v2和SUN-RGBD数据集上实现了新的最先进的性能。
索引项–RGB-D，图像分割

1导言

随着微软Kinect等RGB-D传感器的快速发展，人们更容易获得深度数据。深度数据可以自然地描述3D几何信息，反映场景中物体的结构，因此可以作为RGB数据的补充模式，捕获丰富的颜色和纹理信息，以改善语义分割结果。然而，如何充分利用深度信息并有效地融合这两种互补的模态仍然是一个开放的问题。

早期的方法[1]试图使用双流网络分别从RGB和深度模态中提取特征，并在最后一层将其融合以预测最终的分割结果。这种 "晚期融合 "策略将两种模态融合得太晚，导致RGB分支在早期阶段无法获得所需的几何信息指导。后来，研究人员倾向于以多阶段的方式将深度分支的特征传播到RGB分支，即在编码器网络的每个阶段结束时将深度特征添加到RGB分支[2, 3]。这种策略更早更充分地利用了几何线索，这被证明是有效的。

然而，我们反思，由于以下两个原因，传统方法中的特征传播方式不能完全利用深度信息。

首先，在双流编码器中连续使用卷积和下采样操作，使得两种模式的特征在早期层中并没有相互对齐，因此深度特征在深度阶段所提供的几何信息并不精确，无法辅助RGB特征。
其次，与深度信息相比，RGB信息反映了更多的语义信息，而这一事实在网络的高层更为明显。因此，元素加法不是一个合适的解决方案，RGB应该在语义预测方面得到更多关注。

为了解决上述问题，我们提出了全局-局部传播网络（GLPNet）来共同利用深度和RGB特征的互补模式，其中局部语境融合模块（L-CFM）和全局语境融合模块（G-CFM）被设计来分别解决特征融合中的空间失配和语义传播问题。L-CFM不是直接向RGB分支添加深度特征，而是在模态融合之前先动态地对齐两种模态的特征。具体来说，对齐过程是根据通过卷积层预测的偏移量同时翘起两种模态的特征图，卷积层的灵感来自视频处理领域的光流和语义流[4]。此外，G-CFM被提出来，通过联合多模态语境建模将深度特征传播到RGB分支。具体来说，我们从两种模式中提取全局上下文特征，并利用注意力机制将其聚集到每个RGB像素。与L-CFM相比，G-CFM旨在从全局背景的角度利用深度信息，而L-CFM则精确地将两种模式的局部特征联系起来。鉴于所提出的两个融合模块从正交的角度（即全局和局部）帮助深度特征的传播，以平行的方式结合它们，进一步提高了深度阶段的传播效果。

提出的GLPNet在两个具有挑战性的RGB-D语义分割数据集，即NYU-Depth v2和SUN-RGBD数据集上取得了新的最先进的性能。

2.相关工作

2.1. 概述

我们的方法的整体框架在图1中描述，它采用了编码器-解码器结构。在编码器部分，我们使用一个双流主干网络（例如ResNet 101）来分别提取两种模式的特征，就像以前的方法一样[2, 3, 5, 6]。我们采取多阶段融合策略，将深度特征传播到RGB分支。具体来说，我们在早期的三个阶段以元素相加的方式传播深度特征，并在最后一个阶段通过设计的局部和全局融合模块进行传播。在平行应用这两个融合模块后，我们将它们的输出连接起来，并增加一个额外的卷积块来进一步处理融合后的特征，然后将其送入分段解码器以获得最终的预测结果。段落解码器采用类似FPN[7]的结构，逐渐对特征图进行上采样，并通过跳过连接合并浅层阶段的特征（即阶段1，阶段2），在融合之前，不同阶段特征的通道维度被降低到256。

2.2. 本地上下文融合模块

我们引入了本地上下文融合模块，在两种模式的特征相加之前对其进行动态调整，以帮助深度特征的传播。如图1左下角所示，我们将上一阶段的两种模态特征作为L-CFM的输入，依次分别表示为RGBin∈RC×H×WRG{B_{in}} \in {R^{C \times H \times W}}RGBin∈RC×H×W和Din∈RC×H×W{D_{in}} \in {R^{C \times H \times W}}Din∈RC×H×W。从直观的角度看，应该根据两种模态的空间关系来推断动态排列，因此我们将两种模态特征沿通道维度连接起来，然后应用卷积层来预测每种模态的偏移场，分别表示为RGBoffset∈R2×H×WRG{B_{offset}} \in {R^{2 \times H \times W}}RGBoffset∈R2×H×W和Doffset∈R2×H×W{D_{offset}} \in {R^{2 \times H \times W}}Doffset∈R2×H×W。然后，我们使用翘曲操作，根据预测的偏移场分别调整两种模式的特征，并将调整后的深度特征加入到调整后的RGB特征中，得到最终输出。关于翘曲操作的更多细节可以在补充材料中找到。

2.3. 全局语境融合模块

图1. 我们的GLPNet的概述。分数描述了与原始输入图像的分辨率比。我们在最后阶段使用扩张策略，整体步幅为16。最好以彩色观看。

受语义分割研究的启发，我们利用多模态的全局语境信息来进一步帮助深度特征的传播。G-CFM的细节在图1的右下角显示。与L-CFM一样，它也将上一阶段的RGB和深度特征作为输入，即RGBin∈RC×H×WRG{B_{in}} \in {R^{C \times H \times W}}RGBin∈RC×H×W和Din∈RC×H×W{D_{in}} \in {R^{C \times H \times W}}Din∈RC×H×W。我们沿空间维度应用两个独立的卷积层和softmax函数来计算两种模式的集合掩码，分别表示为RGBmask∈RK×H×WRG{B_{mask}} \in {R^{K \times H \times W}}RGBmask∈RK×H×W和Dmask∈RK×H×W{D_{mask}} \in {R^{K \times H \times W}}Dmask∈RK×H×W。KKK是一个超参数，控制全局上下文特征向量的数量。我们将预测的RGBmaskRGB_{mask}RGBmask重塑为RK×HWR^{K×HW}RK×HW，RGBinRGB_{in}RGBin重塑为RHW×CR^{HW×C}RHW×C，然后进行矩阵乘法，提取KKK个全局上下文特征RGBcxt∈RK×CRGB_{cxt}∈R^{K×C}RGBcxt∈RK×C。对深度特征进行同样的处理，计算出Dcxt∈RK×CD_{cxt}∈R^{K×C}Dcxt∈RK×C，然后我们将两组上下文特征串联起来，生成多模态上下文特征RGB−Dcxt∈R2K×CRGB-D_{cxt}∈R^{2K×C}RGB−Dcxt∈R2K×C。

在对多模态全局上下文特征进行建模后，我们利用注意力机制将其聚合到RGBRGBRGB特征中。具体来说，我们将RGBinRGB_{in}RGBin送入1×11×11×1卷积层，生成查询特征Q∈RC′×H×W(C′=1/4C){\rm{Q}} \in {R^{{C'} \times H \times W}}({C'} = 1/4C)Q∈RC′×H×W(C′=1/4C)，并将多模态上下文特征送入两个线性层，分别生成关键特征K∈RC′×2KK∈R^{C '×2K}K∈RC′×2K和价值特征V∈RC×2KV∈R^{C×2K}V∈RC×2K。然后，我们将QQQ重塑为RC′×HWR^{C' ×HW}RC′×HW，并在QQQ和KKK的转置之间进行矩阵乘法，以计算出注意力图A∈RHW×2KA∈R^{HW ×2K}A∈RHW×2K，并应用softmax函数将2k多模态语境特征的贡献归一化。最后，我们将AAA与VVV的转置相乘，计算出被关注的特征，重塑并以残差连接的方式将其加入原始RGBinRGB_{in}RGBin，得到RGBoutRGB_{out}RGBout。

3 实验

3.1. 数据集和实施细节

为了评估所提出的网络，我们在两个RGB-D语义分割数据集上进行了实验。NYU-Depth v2 [8] 和 SUN-RGBD [9] 数据集。NYU-Depth v2数据集包含1449张RGB-D图像，分为795张训练图像和654张测试图像。SUN-RGBD数据集由10355张RGB-D图像组成，分为5285张训练图像和5050张测试图像。

我们选择在ImageNet上预训练的双流扩张ResNet101作为骨干网络，总步长为16。我们使用SGD优化器，并采用多学习率计划。NYU-Depth v2数据集的初始学习率设置为0.005，SUN-RGBD数据集为0.001。动量和权重衰减分别被设置为0.9和0.0005。两个数据集的批量大小都是8。我们对NYU-Depth v2数据集进行了500次历时训练，对SUN-RGBD数据集进行了200次历时训练。对于数据增强，我们在[0.5, 2.25]之间应用随机缩放，随机裁剪，裁剪尺寸为480×640，随机水平翻转。我们使用交叉熵作为损失函数。在组装片段解码器时，我们采用多损失策略。具体来说，我们使用解码器的阶段2和阶段4的输出来计算两个辅助损失，权重都设置为0.2。我们报告了三个指标，包括像素精度(Acc)、平均精度(mACC)和平均相交于联合(mIoU)。

3.2. 消融研究

我们在NYUDepth v2数据集上进行了广泛的消融实验，以验证所提出的模块的有效性。对于基线模型，我们使用传统的多阶段传播策略，在所有四个阶段直接将深度特征添加到rgb分支，而不使用解码器。如表1所示，与基线模型相比，嵌入L-CFM的模型实现了48.22%的mIoU，带来了1.49%的改进，嵌入G-CFM的模型实现了50.31%的mIoU，带来了3.58%的改进。当L-CFM和G-CFM并行使用时，结果进一步提高到51.39% mIoU，表明所提出的两个融合模块分别以局部和全局方式传播深度特征是相互补充的。在组装了分段解码器后，我们达到了52.11%的mIoU。为了与最先进的技术进行公平的比较，我们采用了多网格和多尺度的测试策略，实现了54.61%的mIoU。

表1. 拟议的GLPNet在NYU-Depth v2测试集上的消融研究。MG：多网格。MS:多尺度测试。

对于本地上下文融合模块，我们进一步对嵌入L-CFM的位置进行了不同设置的实验。如表2所示，在早期阶段使用L-CFM很难提高网络性能，因为对齐误差还没有积累到太大的程度。我们进一步证明了这一点，将L-CFM添加到所有阶段，并取得了轻微的性能下降，证明我们的设计只在最后阶段添加L-CFM，可以有效地进行精确的深度特征传播，并克服累积的对齐误差。

表2. 在NYU-Depth v2测试集上嵌入L-CFM的不同阶段的消融研究。S代表阶段。

表3. G-CFM不同变体的消融研究和NYU-Depth v2测试集上的超参数K值。

对于全局上下文融合模块，我们进一步进行了两个对比实验，不同的上下文建模设置分别表示为G-CFM var1和G-CFM var2。在G-CFM var1中，我们只从输入的RGB特征中提取K全局上下文特征，完全不使用深度特征。在G-CFM var2中，我们像基线网络一样直接将深度特征添加到RGB分支中，然后从融合的特征中提取K全局背景特征。结果如表3所示。我们可以看到，G-CFM var1只对RGB上下文建模，产生了49.81%的mIoU。G-CFM var2不能正确利用深度信息，因为未对齐的深度特征带来了噪音，性能下降到49.56% mIoU。与这两个变体相比，我们的G-CFM利用了多模型背景，达到了50.31%的mIoU，证明了联合建模多模型背景的有效性和必要性。关于超参数K，即每种模式提取的全局上下文特征的数量，我们发现网络性能对其选择很敏感，我们选择k=15为其最佳性能。我们从NYU-Depth v2测试集中选择了两幅RGBD图像对，以可视化G-CFM预测的集合掩码。结果如图2所示，我们可以发现，不同的全局集合掩码集中在图像的不同区域，并且在两种模式之间是不同的。

图2. G-CFM对NYU-Depth v2测试集的两个RGB-D对所预测的集合掩码的可视化。为了节省空间，我们为每种模式提供了15个极具代表性的掩码。最好以彩色观看。

3.3. 与最先进的比较

在NYU-Depth v2数据集上的性能比较结果如表4所示，我们的方法以主导优势超过了现有的方法，这证明了我们的GLPNet与所提出的融合模块的有效性。值得注意的是，我们使用原始深度图像作为深度分支的输入，并取得了比那些将编码的HHA[18]图像作为输入的方法[5, 11, 6, 13]更好的性能，后者消耗更多的推理时间。与之前使用双向信息传播策略并使用deeplabv3+[19]对融合语境进行建模的最先进的方法[6]相比，我们的方法超过了他们2.2%的mIoU。我们将其归因于我们网络更好的深度特征传播能力，G-CFM对多模态语境信息进行全局建模，L-CFM对局部进行精确的模态对齐。

表4. NYU-Depth v2测试集的比较结果。DE代表深度编码。

我们还在SUN-RGBD数据集上进行了实验，以进一步评估所提出的方法。该数据集的定量结果见表5，我们的方法将RGB-D基线从44.0 mIoU%提升到51.2 mIoU%，达到了最先进的水平。

表5. SUN-RGBD测试集的比较结果。

4. 结论

我们已经提出了用于RGB-D语义分割的GLPNet。GLPNet帮助信息在深度阶段从深度分支传播到RGB分支。具体来说，局部语境融合模块在融合前动态地对齐两种模式，全局语境融合模块通过多模式联合语境建模进行深度信息传播。为了验证所提出的方法的有效性，我们进行了大量的消融实验，GLPNet在两个室内场景分割数据集，即NYU-Depth v2和SUN-RGBD数据集上取得了新的先进性能。

5. REFERENCES

[1] Jonathan Long, Evan Shelhamer, and Trevor Darrell,“Fully convolutional networks for semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3431–3440. 1, 4
[2] Caner Hazirbas, Lingni Ma, Csaba Domokos, and Daniel Cremers, “Fusenet: Incorporating depth into semantic segmentation via fusion-based cnn architecture,”in Asian conference on computer vision. Springer, 2016,
pp. 213–228. 1, 2
[3] Jindong Jiang, Lunan Zheng, Fei Luo, and Zhijun Zhang, “Rednet: Residual encoder-decoder network
for indoor rgb-d semantic segmentation,” arXiv preprint arXiv:1806.01054, 2018. 1, 2
[4] Xiangtai Li, Ansheng Y ou, Zhen Zhu, Houlong Zhao,Maoke Y ang, Kuiyuan Y ang, and Y unhai Tong, “Semantic flow for fast and accurate scene parsing,” arXiv preprint arXiv:2002.10120, 2020. 1
[5] Seong-Jin Park, Ki-Sang Hong, and Seungyong Lee,“Rdfnet: Rgb-d multi-level residual feature fusion for
indoor semantic segmentation,” in Proceedings of the IEEE international conference on computer vision,2017, pp. 4980–4989. 2, 4
[6] Xiaokang Chen, Kwan-Y ee Lin, Jingbo Wang, Wayne Wu, Chen Qian, Hongsheng Li, and Gang Zeng,
“Bi-directional cross-modality feature propagation with separation-and-aggregation gate for rgb-d semantic segmentation,” arXiv preprint arXiv:2007.09183, 2020. 2,4
[7] Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He,Bharath Hariharan, and Serge Belongie, “Feature pyramid networks for object detection,” in Proceedings of the IEEE conference on computer vision and pattern
recognition, 2017, pp. 2117–2125. 2
[8] Nathan Silberman, Derek Hoiem, Pushmeet Kohli, and Rob Fergus, “Indoor segmentation and support inference from rgbd images,” in European conference on computer vision. Springer, 2012, pp. 746–760. 3
[9] Shuran Song, Samuel P Lichtenberg, and Jianxiong Xiao, “Sun rgb-d: A rgb-d scene understanding benchmark suite,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 567–576. 3
[10] Y anhua Cheng, Rui Cai, Zhiwei Li, Xin Zhao, and Kaiqi Huang, “Locality-sensitive deconvolution net-
works with gated fusion for rgb-d indoor semantic segmentation,” in Proceedings of the IEEE conference
on computer vision and pattern recognition, 2017, pp.3029–3037. 4
[11] Di Lin, Guangyong Chen, Daniel Cohen-Or, Pheng-AnnHeng, and Hui Huang, “Cascaded feature network for
semantic segmentation of rgb-d images,” in Proceedings of the IEEE International Conference on Computer
Vision, 2017, pp. 1311–1319. 4
[12] Xiaojuan Qi, Renjie Liao, Jiaya Jia, Sanja Fidler, and Raquel Urtasun, “3d graph neural networks for rgbd
semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp.
5199–5208. 4
[13] Weiyue Wang and Ulrich Neumann, “Depth-aware cnn for rgb-d segmentation,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018,pp. 135–150. 4
[14] Xinxin Hu, Kailun Y ang, Lei Fei, and Kaiwei Wang,“Acnet: Attention based network to exploit complementary features for rgbd semantic segmentation,” in 2019 IEEE International Conference on Image Processing (ICIP). IEEE, 2019, pp. 1440–1444. 4
[15] Dan Xu, Wanli Ouyang, Xiaogang Wang, and Nicu Sebe, “Pad-net: Multi-tasks guided prediction-and-distillation network for simultaneous depth estimation and scene parsing,” in Proceedings of the IEEE Conerence on Computer Vision and Pattern Recognition,2018, pp. 675–684. 4
[16] Zhenyu Zhang, Zhen Cui, Chunyan Xu, Y an Y an, Nicu Sebe, and Jian Y ang, “Pattern-affinitive propagation
across depth, surface normal and semantic segmentaion,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 4106–4115. 4
[17] Lin-Zhuo Chen, Zheng Lin, Ziqin Wang, Y ong-LiangY ang, and Ming-Ming Cheng, “Spatial information
guided convolution for real-time rgbd semantic segmentation,” arXiv preprint arXiv:2004.04534, 2020. 4
[18] Saurabh Gupta, Ross Girshick, Pablo Arbeláez, and Jitendra Malik, “Learning rich features from rgb-d images for object detection and segmentation,” in European conference on computer vision. Springer, 2014, pp.
345–360. 4
[19] Liang-Chieh Chen, Y ukun Zhu, George Papandreou,Florian Schroff, and Hartwig Adam, “Encoder-decoder
with atrous separable convolution for semantic image segmentation,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 801–818.

【GLPNet2021】GLOBAL-LOCAL PROPAGATION NETWORK FOR RGB-D SEMANTIC SEGMENTATION相关推荐

【RedNet2018】RedNet: Residual Encoder-Decoder Network for indoor RGB-D Semantic Segmentation
RedNet: Residual Encoder-Decoder Network for indoor RGB-D Semantic Segmentation RedNet: 用于室内RGB-D语义分 ...
【MaskFormer】Per-Pixel Classification is Not All You Needfor Semantic Segmentation
论文:https://arxiv.org/pdf/2107.06278.pdf 代码:MaskFormer 目录 1.背景 2.掩膜分类算法 2.1基于像素分类算法 2.2基于掩膜分类算法 2.3Ma ...
【ACNET2019】：ATTENTION BASED NETWORK TO EXPLOIT COMPLEMENTARY FEATURES FOR RGBD SEMANTIC SEGMENTATION
ACNET: ATTENTION BASED NETWORK TO EXPLOIT COMPLEMENTARY FEATURES FOR RGBD SEMANTIC SEGMENTATION ACNE ...
【阅读】Distributed Graph Neural Network Training: A Survey——翻译
转载请注明出处:小锋学长生活大爆炸[xfxuezhang.cn] 另一篇:[阅读]A Comprehensive Survey on Distributed Training of Graph Neu ...
【PSPnet2017】Pyramid Scene Parsing Network
Pyramid Scene Parsing Network 金字塔式场景解析网络 arXiv:1612.01105v2 [cs.CV] 27 Apr 2017 文章地址:https://arxiv.o ...
【PS】浅谈PS颜色模式-RGB模式
在Photoshop的[拾色器]中我们通常看到几种颜色的表达方式,分别为HSB.LAB.RGB.CMYK,另外还有16进制的RGB颜色表示.由于RGB颜色模式经常使用,所以笔者先从RGB开始讲起,过程 ...
【GCN】《Adaptive Propagation Graph Convolutional Network》（TNNLS 2020）
<Adaptive Propagation Graph Convolutional Network>(TNNLS 2020) 为每个节点赋予一个停止单元,该单元输出一个值控制Propaga ...
【arXiv2022】GroupTransNet: Group Transformer Network for RGB-D Salient Object Detection
paper:https://arxiv.org/abs/2203.10785 目录一动机二方法三网络框架 3.1 模态纯化模块(MPM) 3.2 尺度统一模块 (SUM) 3.3 多 Tr ...
【论文】模型剪枝（Network Pruning）论文详细翻译
前言: 这是关于模型剪枝(Network Pruning)的一篇论文,论文题目是:Learning both weights and connections for efficient neural ...
【机器视觉】 global算子
00. 目录文章目录 00. 目录 01. 概述 02. 签名 03. 描述 04. 注意 05. 参数 06. 结果 07. 附录 01. 概述 global - 声明一个全局变量. 02. 签名 ...

【GLPNet2021】GLOBAL-LOCAL PROPAGATION NETWORK FOR RGB-D SEMANTIC SEGMENTATION