ABMDRNet: Adaptive-weighted Bi-directional Modality Difference Reduction Network for RGB-T Semantic Segmentation

ABMDRNet：用于RGB-T语义分割的自适应加权双向模态差异还原网络

[1] Zhang Q , Zhao S , Luo Y , et al. ABMDRNet: Adaptive-weighted Bi-directional Modality Difference Reduction Network for RGB-T Semantic Segmentation[C]// Computer Vision and Pattern Recognition. IEEE, 2021.
论文地址

摘要

语义分割模型凭借来自可见光（RGB）和热图像的互补信息，在恶劣的照明条件下获得稳健性。尽管它很重要，但大多数现有的RGB-T语义分割模型执行原始的融合策略，如连接、元素求和和加权求和，以融合来自不同模式的特征。不幸的是，这些策略忽略了不同成像机制导致的模态差异，因此它们受到融合后的特征的可辨识度降低的影响。为了解决这个问题，我们首次提出了 "先桥接后融合 "的策略，其创新之处在于一个新型的自适应加权双向模态差异还原网络（ABMDRNet）。具体来说，我们设计了一个模态差异减少和融合（MDRF）子网络，它首先采用了一种基于图像到图像的双向翻译方法来减少RGB特征和热特征之间的模态差异，然后以通道加权融合的方式自适应地选择那些具有辨识度的多模态特征进行RGB-T语义分割。此外，考虑到语义分割中上下文信息的重要性，我们提出了一个多尺度空间上下文（MSC）模块和一个多尺度通道上下文（MCC）模块，分别利用跨模态特征的多尺度上下文信息以及它们在空间和通道维度上的远距离依赖关系之间的相互作用。在MFNet数据集上的综合实验表明，我们的方法取得了最先进的新成果。

图1 模态差异还原的说明。(a) 双向模态差异还原。(b)-(d)分别为原始RGB特征、热特征和它们的融合特征。(e)-(g)分别为减少模态差异后的RGB特征、热特征和它们的融合特征。

1.引言

语义分割旨在为自然图像中的每个像素分配类别标签，这在许多计算机视觉任务中起着重要作用，例如自动驾驶[6，29]、行人检测[1]、病理分析[19，24]等。

到目前为止，基于CNN的RGB语义分割方法[13,14,19,25]在许多大规模数据集[5,15]中取得了显著的结果。然而，在恶劣的照明条件下，它们的性能可能会显著下降。为了提高语义分割性能，最近的研究更加关注RGB-T语义分割[8、20、23]，其中热图像可以在较差的光照条件下补充RGB图像丰富的轮廓信息和语义信息。

现有的多模态像素级预测任务模型，包括RGB-T语义分割和RGB-T显著对象检测，通常采用简单的策略，如元素求和[23]、级联[8]和加权求和[7,30]，以从成对RGB和热图像中捕获互补信息。然而，他们通常忽略RGB图像和热图像之间的模态差异，这是由不同的成像机制引起的。这种疏忽可能导致跨模态互补信息利用不足。如图1所示，图1（b）中用红色虚线框标记的人物区域具有较低的亮度值，而图1（c）中的同一区域具有较高的亮度值。如图1（d）所示，如果采用简单的融合操作，热图像中的判别目标信息将在融合特征中受到明显抑制。

为了解决这个问题，我们提出了一种新的多模特征融合子网络，即模态差异减少和融合（MDRF），通过一种新策略，即先桥接后融合，更好地利用RGB图像和热图像中的多模互补信息。在桥接阶段，如图1（a）所示，采用基于双向图像到图像转换[12，31]的方法来减少RGB和热特征之间的差异。基本思想是，当将图像从一个模态传输到另一个模态时，由于不同成像机制（例如，图1（b）和图1（c））引起的一些非歧视性单模态信息将借助另一模态的图像的互补监督信息转换为歧视性信息（例如，表1（e）和表1（f））。因此，为了更好地融合，将减少提取的单模态RGB和热特征之间的模态差异（例如，图1（d）和图1（g））。然后，在融合阶段，提出了一种新的融合模块，即**通道加权融合（CWF）**模块，用于捕获单模态RGB和热特征对应通道之间的跨模态信息，其模态差异在第一步中已减小。如图所示。1（d）和图1（g），通过使用与原始特征相比减少了模态差异的单模态特征，可以获得更高的判别性融合特征。

此外，给定图像中对象的差异（例如类别、大小和形状）对于语义分割也存在问题。在RGB语义分割中，多尺度上下文信息及其long-range dependencies被证明是解决这一问题的有效方法。然而，在多模态语义分割中，特别是对于RGB-T语义分割[8、20、23]，跨模态特征的多尺度上下文信息及其long-range dependencies尚未到位。在RGB-T语义分割中，只有MFNet[8]在编码器中添加了几个小初始块以获得一些上下文信息。但这对于语义分割来说是非常有限的。

受[3,6,28]的启发，我们提出了两个新的模块，即多尺度空间上下文（MSC）模块和多尺度信道上下文（MCC）模块，分别利用跨通道特征的多尺度上下文信息及其沿空间和信道维度的long-range dependencies。首先，通过对原始融合的交叉通道特征执行空洞空间卷积池化金字塔（ASPP）模块[3]来获得多尺度特征。然后，分别在MSC和MCC中联合使用原始融合的跨通道特征及其相应的多尺度特征，建立这些多尺度特征在空间和通道维度上的long-range dependencies。在MSC和MCC的合作下，将充分利用跨模态特征的多尺度上下文信息及其long-range dependencies进行RGB-T语义分割。

本文的主要贡献总结如下：

（1）提出了一种端到端的ABMDRNet，通过同时考虑多通道差异减少和跨通道数据的多尺度上下文信息来促进RGB-T语义分割。综合实验结果表明，我们的模型在MFNet数据集上取得了最新的性能。

（2）提出了一种MDRF子网络，通过桥接然后融合的策略，有效地从RGB和热图像中捕获跨模态信息，该方法首先采用基于图像到图像双向转换的方法来弥合多模态数据之间的模态间隙，然后自适应地选择这些有区别的多模态特征进行RGB-T语义分割。

（3）提出了一个MSC模块和一个MCC模块，分别充分利用跨通道特征的多尺度上下文信息及其在空间和通道维度上的long-range dependencies。

2、相关工作

2.1、基于RGB的语义分割

早期基于RGB语义分割方法主要依靠低层手工特征与平面分类器相结合，如随机森林[21]和多类模糊支持向量机[18]。近年来，基于深度学习的语义切分模型[2,6,14,17,19,25]已成为主流，并取得了显著的改进。这些模型通常基于全卷积网络（FCN）[14]，因为其简单但合理的像素预测架构。此外，为了解决对象的多样性，这些基于FCN的模型主要利用一些金字塔结构，例如金字塔池模块（PPM）[32]和阿托斯空间金字塔池（ASPP）[3]，从输入图像中捕获有区别的多尺度上下文信息。虽然这些多尺度上下文信息提取模块在语义分割方面取得了巨大的成功，但它们的接受域仍然有限，因此无法利用全局上下文信息。最近，许多模型[16，28]试图利用长程依赖性来解决此类问题，并取得了有希望的结果。例如，提出了非局部操作[28]来计算某个位置的响应，作为特征的加权和，以捕捉long-range dependencies。

图2.我们提出的模型的总体框架。蓝色和红色虚线框表示MDRF子网络中的双向模态差减少阶段。

2.2.多模态语义分割

近年来，随着成像技术的快速发展，许多研究[4、8、11、20、23、27]使用多模态数据（例如RGB-T图像和RGB-D图像）来解决传统RGB语义分割中出现的一些问题。这些多模态语义分割模型通常分为两类，即基于特征级融合和基于图像级融合。具体来说，基于特征级融合的模型首先从每个输入模态数据中提取单个模态特征，然后将其融合以捕获用于语义分割的补充信息。例如，[10]提出了一种注意力互补模块（ACM），用于从不同通道捕获更多高质量的单模态RGB特征和深度特征，以增强RGB-D语义分割。[8] 采用编解码结构，首先分别提取RGB特征和热特征，然后通过定制的快捷块进行融合。[23]首先通过元素求和融合多级RGB特征和热特征，然后使用upception块来改善解码结果。与之不同的是，基于图像级融合的模型直接将多模态图像的组合作为输入。例如，[20]提出了一种顺序双流CNN架构，将RGB图像、匹配的热图像和由RGB特征预测的粗掩模连接为五通道输入来预测结果。

与RGB-D语义分割相比，RGB-T语义分割引起的关注较少。大多数现有的RGB-T语义分割模型[8、20、23]采用简单的融合策略，如元素求和[23]和级联[8、20]，以捕捉跨模态特征，同时忽略了由不同成像机制引起的模态差异。或者，本文提出了一种新的桥接融合策略来捕获跨模态特征，其中首先减少多模态数据之间的模态差异，然后自适应选择判别性多模态特征进行RGB-T语义分割。

3. 方法

如图2所示，提出的RGB-T语义分割框架，即ABMDRNet，由三个组件组成，包括MDRF子网、MSC模块和MCC模块。其细节将在以下内容中讨论。

3.1. MDRF

尽管成对RGB图像和热图像可以相互提供许多互补信息，但由不同成像机制引起的模态差异可能会阻碍RGB图像与热图像中多模态互补信息的集成和利用。不幸的是，大多数现有模型都忽略了这一点。为了解决这个问题，我们设计了一个新的多模态特征融合子网络，即MDRF子网络，通过桥接然后融合的策略，首先双向减少模态差异，然后利用多模态互补信息。具体来说，MDRF子网络包括两个阶段。第一阶段是双向模态差异缩减，其目的是分别从RGB图像和热图像中获得具有较少模态差异的判别性单模态特征。第二阶段是判别式单模态特征融合，旨在有效利用多模态特征中的互补信息。

3.1.1 双向模态差减少

受这些图像到图像转换方法[12，31]的启发，我们采用了双向桥接策略来减少由不同成像机制引起的模态差异。该策略从双向差分减少开始，包括从RGB到热成像的减少和从热成像到RGB的减少。具体来说，从一个模态中提取的多级单模态特征用于生成另一个模态的匹配伪图像。同时，在RGB-T语义分割中也可以获得另一模态对应的真实图像。考虑到这一点，我们通过强制同一模态的伪图像和真实图像的特征尽可能相似来减少不同模态之间的差异。

如图2所示，我们对RGB图像和热图像（即由蓝色虚线框和红色虚线框标记的区域）完全采用相同的模态差异缩减结构。因此，在下面的内容中，我们将以将RGB图像转为热图像的过程为例，说明我们的模态差异还原结构的细节。

首先，使用ResNet-50[9]从RGB图像中提取单模态特征。删除了ResNet50的平均池和完全连接层，以维护更多的空间信息。因此，获得了五个层次的单模态RGB特征{FnRGB∣n=1,2,3,4,5}\{ F_n^{RGB}{\rm{ }}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4,{\rm{ }}5\}{FnRGB∣n=1,2,3,4,5}，其分辨率分别为原始图像大小的1/2、1/4、1/8、1/16和1/32。。然后，最后四层的单模态RGB特征被送入RGB-T转换网络，生成相应的伪热图像。转换网络首先对四层单模态RGB特征{FnRGB∣n=2,3,4,5}\{ F_n^{RGB}{\rm{ }}|n = 2,{\rm{ }}3,{\rm{ }}4,{\rm{ }}5\}{FnRGB∣n=2,3,4,5}进行四个1×1卷积层，生成单通道特征图。然后，对生成的所有特征图进行上采样和融合，以生成伪热图像(Ipse−T)({I^{pse - T}}{\rm{ }})(Ipse−T)。之后，为了使生成的伪热图像与其对应的真实热图像相似，进一步减少模态差异，采用两个辅助ResNet-18s[9]，分别从伪热像及其真实热像中提取五级辅助特征（即[{Fnpse−T∣n=1,2,3,4,5}\{ F_n^{pse - T}{\rm{ }}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4,{\rm{ }}5\}{Fnpse−T∣n=1,2,3,4,5}和[{Fnreal−T∣n=1,2,3,4,5}\{ F_n^{real - T}{\rm{ }}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4,{\rm{ }}5\}{Fnreal−T∣n=1,2,3,4,5}）。两个ResNet-18的平均池和全连接层也被删除，以保持空间信息。通过强制两组特征尽可能相似，从RGB模态中提取的单模态特征{FnRGB∣n=1,2,3,4}{\rm{ }}\{ F_n^{RGB}{\rm{ }}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4\}{FnRGB∣n=1,2,3,4}}可能与从热模态中提取到的那些特征{FnT∣n=1,2,3,4}{\rm{ }}\{ F_n^T{\rm{ }}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4\}{FnT∣n=1,2,3,4}具有一些相似的属性，从而减少两个模态数据之间的模态差异。

图3 所提出的CWF模块的结构。权重向量$W_n$能够衡量RGB模式中特征图的重要性。

对于热图像,我们还可以获得其伪RGB图像Ipse−RGB{I^{pse - RGB}}Ipse−RGB及其对应的伪RGB图像特征和真实RGB图像特性{Fnpse−RGB∣n=1,2,3,4,5}\{ F_n^{pse - RGB}{\rm{ }}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4,{\rm{ }}5\}{Fnpse−RGB∣n=1,2,3,4,5}和{Fnreal−RGB∣n=1,2,3,4,5}\{ F_n^{real - RGB}{\rm{ }}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4,{\rm{ }}5\}{Fnreal−RGB∣n=1,2,3,4,5}。此外，还可以使用相同的方式强制从热图像中提取的单模态特征{FnT∣n=1,2,3,4}{\rm{ }}\{ F_n^T{\rm{ }}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4\}{FnT∣n=1,2,3,4}，以与来自RGB图像的特征共享一些相似的属性，这将进一步减少两个模态数据之间的模态差异。
在此阶段，以下损失用于监督，即：
LMD=∑n=15L1(Fnpse−T,Fnreal−T)+∑n=15L1(Fnpse−RGB,Fnreal−RGB)(1){L_{MD}} = \sum\limits_{n = 1}^5 {{L_1}(F_n^{pse - T},F_n^{real - T})} + \sum\limits_{n = 1}^5 {{L_1}(F_n^{pse - RGB},F_n^{real - RGB})}\tag{1} LMD=n=1∑5L1(Fnpse−T,Fnreal−T)+n=1∑5L1(Fnpse−RGB,Fnreal−RGB)(1)
其中L1(∗)L_1(*)L1(∗)表示L1L_1L1损耗。由于双向模态差异的减少，从ResNet-50s中提取的RGB特征{FnRGB∣n=1,2,3,4}\{ F_n^{RGB}{\rm{ }}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4\}{FnRGB∣n=1,2,3,4}和热特征{FnT∣n=1,2,3,4}\{ F_n^T{\rm{ }}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4\}{FnT∣n=1,2,3,4}之间的差异将更小。如前一节所述，这将提高融合后的跨模态特征的可识别性。

3.1.2通道加权特征融合CWF

有了单模态的特征，下一步是使用一些融合策略捕获它们的互补信息，以进行RGB-T语义分割。最直观的方法是按元素求和或串联，这不能有效地利用多模态的互补信息。为此，一些复杂策略[7，30]以加权求和的方式获得融合特征。然而，大多数现有的融合策略对所有通道采用相同的权重。这些权重可能对某些通道的特征有很好的效果，而对某些通道的特征可能会得到一些不理想的融合结果。事实上，对于语义分割来说，不不同的特征通道可能对应不同的语义分割类。与来自不同空间位置的特征相比，来自不同通道的特征在语义分割中可能具有更高的类别区分度。

考虑到这一点，我们在MDRF的融合阶段提出了一个新的CWF模块，通过对单模态特征的重要性进行通道依赖性的重新加权，而不是空间位置依赖性的加权，有效地利用跨通道互补信息。具体来说，如图3所示，给定第一阶段的第n级单模态特征（即{FnRGB∣n=1,2,3,4}\{ F_n^{RGB}{\rm{ }}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4\}{FnRGB∣n=1,2,3,4}和{FnT∣n=1,2,3,4}\{ F_n^T{\rm{ }}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4\}{FnT∣n=1,2,3,4}），所提出的CWF模块通过使用以下步骤利用其多模态互补信息。

首先，将FnRGBF_n^{RGB}FnRGB和FnTF_n^TFnT串联，然后送入两个卷积层，以获得来自不同模式但在相同通道中的成对特征的相对重要性。相应的重要性权重向量WnW_nWn通过以下方式获得：
Wn=GAP(σ(Conv(Cat(FnRGB,FnT);β)))(2){W_n}{\rm{ }} = {\rm{ }}GAP(\sigma (Conv(Cat(F_n^{RGB},F_n^T);\beta )))\tag{2} Wn=GAP(σ(Conv(Cat(FnRGB,FnT);β)))(2)
此时，Conv(∗;β）Conv(∗; β）Conv(∗;β）表示具有1×1卷积层和3×3卷积层的卷积块，β表示其参数。GAP(∗)GAP(∗)GAP(∗)表示全局平均池化操作。σ(∗)σ(∗)σ(∗) 表示SigmoidSigmoidSigmoid激活函数。WnW_nWn的值越高，表明RGB模式中的相应通道的特征比热图像中的相应通道的特征更可能是重要的，反之亦然。因此，获得了不同模态的特征对每个通道的相对重要性。通过使用这些通道重要性权重向量{Wn∣n=1,2,3,4}\{ {W_n}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4\}{Wn∣n=1,2,3,4}，通过以下方式获得融合特征{Fnfused∣n=1,2,3,4}\{ F_n^{fused}{\rm{ }}|n = 1,{\rm{ }}2,{\rm{ }}3,{\rm{ }}4\}{Fnfused∣n=1,2,3,4}
Fnfused={Wn⊙FnRGB+(1−Wn)⊙FnT,n=1D(Fn−1fused)+Wn⊙FnRGB+(1−Wn)⊙FnT,n=2,3,4(3)F_n^{fused} = \left\{ \begin{matrix}W_n \odot F_n^{RGB} + (1 - W_n) \odot F_n^T,\;n = 1\\ D(F_{n - 1}^{fused}) + W{\rm{_n}} \odot F_n^{RGB} + (1 - W_n) \odot F_n^T,\;n = 2,3,4 \end{matrix} \right.\tag{3} Fnfused={Wn⊙FnRGB+(1−Wn)⊙FnT,n=1D(Fn−1fused)+Wn⊙FnRGB+(1−Wn)⊙FnT,n=2,3,4(3)
其中,⊙\odot⊙表示通道乘法，1表示具有相同Wn{W_n}Wn.Fn−1fused{\rm{ }}F_{{\rm{n}} - 1}^{fused}Fn−1fused大小的1的向量。表示来自前一级的融合特征，D(∗)D(∗)D(∗)是用于下采样的步长为2的卷积块。

通过几个CWF模块，对来自不同模态的单模态特征的相应通道进行重新加权和融合。与对不同通道共享相同权重的融合策略相比，我们提出的CWF模块可以更好地从多模态数据中选择具有高可分辨性的特征信道进行语义分割。

3.2. MSC模块和MCC模块

如第1节所述，多尺度上下文信息和长距离依赖关系已经被证明可以有效地缓解RGB语义分割中的对象多样性问题，但它们在RGB-T语义分割中仍然没有得到很好的利用。为此，我们提出了一个MSC模块和一个MCC模块，分别同时利用跨通道特征的多尺度上下文信息及其在空间和通道维度上的长程依赖关系。更具体地说，考虑到整个模型中的参数数量，MSC模块是在融合特征F3fusedF_3^{fused}F3fused的第3层进行的，MCC模块是在融合特征F4fusedF_4^{fused}F4fused的第4层进行的。

图4 拟议的MSC模块的结构。蓝色注释表示MSC输入和输出特性的大小

3.2.1 MSC模块

MSC的结构如图4所示。考虑到第三级融合特征F3fused∈RH×W×512F_3^{fused} \in {\rm{ }}{R^{H \times W \times 512}}F3fused∈RH×W×512，MSC通过以下步骤利用其跨模态特征的多尺度上下文信息及其沿空间维度的长程依赖关系。

空洞空间卷积池化金字塔(atrous spatial pyramid pooling (ASPP))

模块目的：在不改变shape即不降采样的前提下增大网络的感受野，增强网络获得多尺度上下文的能力。

首先，使用ASPP模块[3]从输入融合特征中提取多尺度上下文信息。为此，ASPP模块采用四个并行卷积分支来获得四个尺度的特征。在每个分支中，使用具有不同扩张率（即分别为1、6、12和18）的1×1标准卷积层和3×3萎缩卷积层。然后，将四个尺度的特征串联，并送入1×1卷积层以减少其通道，从而获得最终的多尺度特征F3ms∈RH×W×512F_3^{{\rm{ms}}} \in {\rm{ }}{R^{H \times W \times 512}}F3ms∈RH×W×512。随后，受[6]和[16]的启发，从融合的多尺度特征中计算出自空间相关矩阵Mss∈RHW×HW{M_{ss}} \in {R^{HW \times HW}}Mss∈RHW×HW，具体方法是Mss=Reshape(F3ms)×(Reshape(F3ms))T,(4){M_{ss}} = {\mathop{\rm Re}\nolimits} shape(F_3^{ms}) \times {({\mathop{\rm Re}\nolimits} shape(F_3^{ms}))^T},\tag{4}Mss=Reshape(F3ms)×(Reshape(F3ms))T,(4)
其中(∗)T(∗)^T(∗)T表示矩阵转置，Reshape(∗)将输入矩阵的大小从RH×W×C{R^{H \times W \times C}}RH×W×C转换为RHW×C{R^{HW \times C}}RHW×C。该自空间相关矩阵MssM_{ss}Mss捕捉多尺度特征中两个任意位置的成对相似性，并可用于提取多尺度上下文特征之间的长距离空间依赖关系。

同时，考虑到多尺度情境特征之间的长程依赖关系应该与原始输入特征的长程依赖关系相一致，还从原始输入特征中计算出一个跨空间相关矩阵Mcs∈RHW×HW{M_{cs}} \in {R^{HW \times HW}}Mcs∈RHW×HW，以补充自空间相关矩阵MssM_{ss}Mss，从而更好地捕捉沿空间维度的长程依赖关系。
Mcs=Reshape(F3fused)×(Reshape(F3fused))T.(5){M_{cs}} = {\mathop{\rm Re}\nolimits} shape(F_3^{fused}) \times {({\mathop{\rm Re}\nolimits} shape(F_3^{fused}))^T}.\tag{5} Mcs=Reshape(F3fused)×(Reshape(F3fused))T.(5)
使用自空间和跨空间相关矩阵MssM_{ss}Mss和McsM_{cs}Mcs，最终的空间相关矩阵Mss∈RHW×HW{M_{ss}} \in {R^{HW \times HW}}Mss∈RHW×HW由以下公式获得：
Ms=Normalization(Mss+Mcs),(6){M_{s{\rm{ }}}} = {\rm{ }}Normalization{\rm{ }}({M_{ss}}{\rm{ }} + {\rm{ }}{M_{cs}}){\rm{ }},\tag{6} Ms=Normalization(Mss+Mcs),(6)
其中归一化(∗) 表示最小-最大归一化。

然后，通过以下方法获得融合特征的多尺度上下文信息及其在空间维度上的长期相关性：
F3fused′=Reshape′((Ms×Reshape(F3ms)))+F3fused,(7)F_3^{fused'} = {\mathop{\rm Re}\nolimits} shape'(({M_{s{\rm{ }}}} \times {\mathop{\rm Re}\nolimits} shape(F_3^{ms}))) + F_3^{fused},\tag{7} F3fused′=Reshape′((Ms×Reshape(F3ms)))+F3fused,(7)
其中 Reshape′(∗)Reshape'(∗)Reshape′(∗)表示Reshape(∗)Reshape(∗)Reshape(∗)的逆过程

3.2.2 MCC模块

鉴于融合特征的第4级F4fused∈RM×N×1024F_4^{fused} \in {\rm{ }}{R^{M \times N \times 1024}}F4fused∈RM×N×1024，MCC遵循与MSC类似的步骤，以利用跨通道特征的多尺度上下文信息及其沿通道维度的长期长距离依赖性。MSC和MCC的区别在于计算相关矩阵的方式。在MCC中，自通道相关矩阵Msc∈R1024×1024{M_{sc}} \in {\rm{ }}{R^{1024 \times 1024}}Msc∈R1024×1024和跨通道相关矩阵Mcc∈R1024×1024{M_{cc}} \in {\rm{ }}{R^{1024 \times 1024}}Mcc∈R1024×1024 计算。具体来说，从输入特征F4fusedF_4^{fused}F4fused获得多尺度特征F4ms∈RM×N×1024F_4^{ms} \in {\rm{ }}{R^{M \times N \times 1024}}F4ms∈RM×N×1024后，MscM_{sc}Msc和MccM_{cc}Mcc的计算公式:
Msc=(Reshape(F4ms))T×Reshape(F4ms),(8){M_{sc}} = {({\rm{Re}}shape(F_4^{ms}))^T} \times {\rm{Re}}shape(F_4^{ms}),\tag{8} Msc=(Reshape(F4ms))T×Reshape(F4ms),(8)
Mcc=(Reshape(F4fused))T×Reshape(F4fused).(9){M_{cc}} = {({\rm{Re}}shape(F_4^{fused}))^T} \times {\rm{Re}}shape(F_4^{fused} ).\tag{9}Mcc=(Reshape(F4fused))T×Reshape(F4fused).(9)
与MSC中类似，MCC中的跨通道相关矩阵MccM_{cc}Mcc也用于补充自通道相关矩阵MscM_{sc}Msc，以便更好地捕获沿通道维度的长程依赖关系。与MSC不同的是，通道相关矩阵捕捉了多尺度特征中两个任意通道的成对相似性，并可用于提取多尺度上下文特征之间的长程信道依赖关系。最终通道相关矩阵Mc∈R1024×1024{M_c} \in {\rm{ }}{R^{1024 \times 1024}}Mc∈R1024×1024的计算公式为：

Mc=Normalization(Msc+Mcc).(10){M_c}{\rm{ }} = {\rm{ }}Normalization{\rm{ }}({M_{sc}}{\rm{ }} + {\rm{ }}{M_{cc)}}{\rm{ }}.\tag{10} Mc=Normalization(Msc+Mcc).(10)

图5.使用MSC和MCC模块前后多尺度跨通道特征图的视觉结果

然后，通过以下方法获得融合特征的多尺度上下文信息及其沿通道维度的相应长程依赖关系：
F4fused′=Reshape′((Reshape(F4ms)×Mc)+F4fused.(11)F_4^{f{\rm{ }}used'}{\rm{ }} = {\rm{ }}{\mathop{\rm Re}\nolimits} shape'(({\mathop{\rm Re}\nolimits} shape{\rm{ }}(F_4^{ms}{\rm{ }}) \times {M_c}){\rm{ }} + F_4^{f{\rm{ }}used}.\tag{11} F4fused′=Reshape′((Reshape(F4ms)×Mc)+F4fused.(11)
通过使用MSC和MCC，可以同时捕获跨通道特征的多尺度上下文信息及其沿空间和通道维度的长程依赖关系。如图5所示，通过引入这些上下文信息，融合的跨模态特征的可辨别性将大大提高。

3.3损失函数

用于训练我们模型的总损失函数Ltotal{L_{total}}Ltotal包括语义分割损失LsL_sLs和多模态差异损失LMD{L_{MD}}LMD，即。
Ltotal=λ1Ls(S,G)+λ2LMD,(12){L_{total}}{\rm{ }} = {\rm{ }}{\lambda _1}{L_s}(S,G) + {\lambda _2}{L_{MD}},\tag{12} Ltotal=λ1Ls(S,G)+λ2LMD,(12)
其中λ1λ_1λ1和λ2λ_2λ2表示用于平衡两个损耗的两个超参数。根据经验，在我们的实验中，它们分别设置为1和5。G表示基础事实，S表示最终预测。考虑到MFNet数据集中每类像素的不平衡性，受[17]的启发，我们采用加权交叉熵损失作为语义分割损失，其定义如下：
Ls=−∑i=1m∑j=1nw(xij)×p(xij)×log⁡(q(xij)),(13){L_s} = - \sum\limits_{i = 1}^m {\sum\limits_{j = 1}^n {w({x_{ij}}) \times p({x_{ij}}) \times \log (q({x_{ij}}))} },\tag{13} Ls=−i=1∑mj=1∑nw(xij)×p(xij)×log(q(xij)),(13)
其中m和n表示图像的宽度和高度。（i，j）（i，j）（i，j）表示像素的坐标。w(xij)w({x_{ij}})w(xij)表示像素类的权重系数。p(xij)p(x_{ij})p(xij)表示像素的地面真值标签，q(xij)q({x_{ij}})q(xij)表示像素上的预测结果。

4、实验

4.1数据集和评估指标

我们的模型在MFNet数据集[8]中得到验证，该数据集是唯一用于RGB-T语义分割的自然图像公共数据集。该数据集包含1569个带注释的RGB和热自然图像对，其中820个图像对是在白天拍摄的，749个图像对是在夜间拍摄的。有9个语义类别，包括未标记的背景类别。这个数据集中的所有图像都有相同的分辨率，即480×640。为了进行公平的比较，我们遵循与[8]相同的训练、测试和验证设置。我们采用广泛使用的评价指标（即平均准确率（mAcc）和平均交叉联合（mIoU））来评价不同模型的性能。

表1.消融研究的定量结果（%）。”“BS”表示基线，“BMDR”表示MDRF中的双向模态差异减少阶段。同时，MSC-S和MCC-S分别表示仅捕捉跨通道特征在空间（通道）维度上的自（交叉）长程依赖关系

4.2实施细节

拟议的网络是由PyTorch在NVIDIA GTX 1080 Ti GPU上实现的。随机梯度下降法（SGD），动量为0.9，权重衰减为0.0005，被用来训练我们提出的网络。初始学习率被设定为0.01，在训练过程中通过采用基数为0.95的指数衰减方案来降低。此外，训练数据通过使用随机翻转、裁剪和噪声注入技术进行增强。我们对网络进行了大约300次的训练，直到其收敛。

4.2.1消融研究

在本节中，我们验证了我们提出的模型中每个组件的有效性。首先从我们的模型中删除拟议的MDRF子网络、MSC模块和MCC模块作为基线（用“BS”表示）。这里，“BMDR”表示MDRF中的双向模态差异减少阶段。同时，MSC-S和MCC-S分别表示仅捕捉跨通道特征在空间（通道）维度上的自（交叉）长程依赖关系。

定量实验结果如表1所示。“BS+BMDR”表明，减少多模态特征之间的模态差异有利于跨模态互补信息的利用，从而提高RGB-T语义分割。此外，还可以观察到，与其他融合模块（例如，“BS+BMDR+IFCNN”、“BS+BMDR+CW”）相比，我们提出的CWF模块可以更有效地选择这些判别特征进行语义分割。（‘BS+MDRF+MSC-S’和’BS+MDRFMSC-C’）和（‘BS+MDRF+MSC+MCC-S’和’BS+MDRF+MSC+MCC-C’）的结果表明，沿空间或通道维度引入长程依存关系可以为语义分割提供更有效的多尺度上下文信息。同时，“BS+MDRF+MSC+MCC”的结果表明，挖掘自身和跨空间相关矩阵或自身和跨通道相关矩阵之间的互补性可以进一步促进对RGB-T语义分割的长程依赖性的利用.

4.3.与最先进的方法相比

我们将我们的模型与9种最先进的（SOTA）方法进行了比较，包括3种基于深度学习的RGB语义分割方法（DUC[26]、DANet[6]和HRNet[22]）、3种RGB-T语义分割方法（“MFNet[8]、RTFNet[23]和PSTNet[20]）和3种RGB-D语义分割模型（LDFNet[11]、ACNet[10]和SA-Gate（ResNet-50）[4]）。将RGB语义分割模型转换为扩展RGBT模型的过程描述如下。首先，我们将单通道热图像作为三通道图像重复三次。然后，将其提出的网络分别作为RGB和热分支的主干。最后，将两个分支中预测层之前的最后一个输出特征添加到预测层中，以获得最终的语义分割图。对于RGB-D模型，我们直接将输入的单通道或HHA编码的三通道深度图像替换为通过扩展RGB模型相同的方式获得的单通道热图像或三通道热图像。

定量结果如表2所示，这表明我们的方法在MFNet数据集上大大优于其他SOTA方法。这表明我们的方法可以更好地利用RGB-T图像的互补信息进行语义分割。图6提供了不同模型的视觉比较。如前两行所示，在一些简单场景下，大多数模型可以准确分割目标。然而，如第3-5行所示，我们提出的方法在弱光条件下比其他SOTA模型具有显著优势。这归功于MDRF中桥接然后融合的策略。此外，如第6-8行所示，我们的方法仍然优于其他SOTA模型。这可能得益于使用我们提出的MSC和MCC模块，利用跨模式特征的多尺度上下文信息以及它们在空间和通道维度上的长距离依赖。

表2..不同模型在[8]测试集上的量化结果（%）。值为0.0表示没有真阳性。'-'表示相应的结果在[20]中被遗漏

图6. 不同方法的视觉比较。(a) RGB图像；(b) 热图像；(c) DUC[26]；(d) DANet[6]；(e) HRNet[22]；(f) LDFNet[11]；(g) ACNet[10]；(h) SA-Gate[4]；(i) MFNet[8]；(j) RTFNet[23]；(k) Ours; (l) GT

5.结论

本文提出了一种新的用于RGB-T语义分割的ABMDRNet，其中同时考虑了模态差异减少和多尺度上下文信息。通过桥接然后融合的策略，所提出的MDRF子网络可以获得比传统融合模块更高的区分性跨模态特征。这大大提高了我们提出的模型的语义分割性能。由于提出了MSC和MCC模块，跨通道特征的多尺度上下文信息及其沿空间和通道维度的长期依赖性得到了很好的利用。因此，语义分割中的对象多样性问题可以在很大程度上得到解决。在这些子网络和模块的协作下，我们提出的RGB-T语义分割模型在MFNet数据集上获得了新的SOTA结果。
致谢本研究得到了国家自然科学基金61773301号的资助。

References

[1] Y anpeng Cao, Dayan Guan, Y ulun Wu, Jiangxin Y ang,Y anlong Cao, and Michael Ying Y ang. Box-level segmentation supervised deep neural networks for accurate and real-time multispectral pedestrian detection.ISPRS, 150:70–79, 2019. 1
[2] Abhishek Chaurasia and Eugenio Culurciello.Linknet: Exploiting encoder representations for efficient semantic segmentation. In VCIP, pages 1–4.IEEE, 2017. 2
[3] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Y uille. Deeplab:Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs.PAMI, 40(4):834–848, 2017. 2, 5
[4] Xiaokang Chen, Kwan-Y ee Lin, Jingbo Wang, WayneWu, Chen Qian, Hongsheng Li, and Gang Zeng. Bidirectional cross-modality feature propagation with separation-and-aggregation gate for rgb-d semantic segmentation. arXiv preprint arXiv:2007.09183,3, 7, 8
[5] Marius Cordts, Mohamed Omran, Sebastian Ramos,Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson,Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, pages 3213–3223, 2016. 1 [6] Jun Fu, Jing Liu, Haijie Tian, Y ong Li, Y ongjun Bao,Zhiwei Fang, and Hanqing Lu. Dual attention network for scene segmentation. In CVPR, pages 3146–3154,1, 2, 5, 7, 8
[7] Dayan Guan, Y anpeng Cao, Jiangxin Y ang, Y anlong Cao, and Michael Ying Y ang. Fusion of multispectral data through illumination-aware deep neural networks for pedestrian detection. Information Fusion, 50:148–157, 2019. 1, 4
[8] Qishen Ha, Kohei Watanabe, Takumi Karasawa,Y oshitaka Ushiku, and Tatsuya Harada. Mfnet:Towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes. In IROS, pages 5108–5115, 2017. 1, 2, 3, 6, 7, 8
[9] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016. 4
[10] Xinxin Hu, Kailun Y ang, Lei Fei, and Kaiwei Wang.Acnet: Attention based network to exploit comple-mentary features for rgbd semantic segmentation. In ICIP, pages 1440–1444, 2019. 3, 7, 8
[11] Shang-Wei Hung, Shao-Y uan Lo, and Hsueh-Ming Hang. Incorporating luminance, depth and color information by a fusion-based network for semantic segmentation. In ICIP, pages 2374–2378, 2019. 3, 7, 8
[12] Phillip Isola, Jun-Y an Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In CVPR, pages 1125–1134, 2017. 2, 4
[13] Simon Jégou, Michal Drozdzal, David V azquez, Adriana Romero, and Y oshua Bengio. The one hundred layers tiramisu: Fully convolutional densenets for semantic segmentation. In CVPRW, pages 11–19, 2017.1
[14] Jonathan Long, Evan Shelhamer, and Trevor Darrell.Fully convolutional networks for semantic segmentation. In CVPR, pages 3431–3440, 2015. 1, 2
[15] Everingham Mark, Ali Eslami S, M, V an Gool Luc,Williams Christopher K, I, Winn John, and Zisserman Andrew. The pascal visual object classes challenge: A retrospective. volume 111, pages 98–136, 2015. 1
[16] Lichao Mou, Y uansheng Hua, and Xiao Xiang Zhu.A relation-augmented fully convolutional network for semantic segmentation in aerial scenes. In CVPR,pages 12416–12425, 2019. 3, 5
[17] Adam Paszke, Abhishek Chaurasia, Sangpil Kim, and Eugenio Culurciello. Enet: A deep neural network architecture for real-time semantic segmentation. arXiv preprint arXiv:1606.02147, 2016. 2, 6
[18] Chang-Y ong Ri and Min Y ao. Semantic image segmentation based on spatial context relations. In ISISE,pages 104–108, 2012. 2
[19] Olaf Ronneberger, Philipp Fischer, and Thomas Brox.U-net: Convolutional networks for biomedical image segmentation. In MICCAI, pages 234–241, 2015. 1, 2
[20] Shreyas S Shivakumar, Neil Rodrigues, Alex Zhou,Ian D Miller, Vijay Kumar, and Camillo J Taylor.Pst900: Rgb-thermal calibration, dataset and segmentation network. In ICRA, pages 9441–9447, 2020. 1,2, 3, 7, 8
[21] Jamie Shotton, Matthew Johnson, and Roberto Cipolla. Semantic texton forests for image categorization and segmentation. In CVPR, pages 1–8, 2008. 2
[22] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang.Deep high-resolution representation learning for human pose estimation. In CVPR, pages 5693–5703,7, 8
[23] Y uxiang Sun, Weixun Zuo, and Ming Liu. Rtfnet:Rgb-thermal fusion network for semantic segmentation of urban scenes. RAL, 4(3):2576–2583, 2019. 1,2, 3, 7, 8
[24] Hiroki Tokunaga, Y uki Teramoto, Akihiko Y oshizawa,and Ryoma Bise. Adaptive weighting multi-field-of-view cnn for semantic segmentation in pathology. In CVPR, pages 12597–12606, 2019. 1
[25] Badrinarayanan Vijay, Kendall Alex, and Cipolla Roberto. Segnet: A deep convolutional encoderdecoder architecture for image segmentation. PAMI, 39(12):2481–2495, 2017. 1, 2
[26] Panqu Wang, Pengfei Chen, Y e Y uan, Ding Liu, Zehua Huang, Xiaodi Hou, and Garrison Cottrell. Understanding convolution for semantic segmentation. In WACV, pages 1451–1460. IEEE, 2018. 7, 8
[27] Weiyue Wang and Ulrich Neumann. Depth-aware cnn for rgb-d segmentation. In ECCV, pages 135–150,3
[28] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In CVPR,pages 7794–7803, 2018. 2, 3
[29] Pingping Zhang, Wei Liu, Hongyu Wang, Yinjie Lei, and Huchuan Lu. Deep gated attention networks for large-scale street-level scene segmentation. PR, 88:702–714, 2019. 1
[30] Qiang Zhang, Tonglin Xiao, Nianchang Huang, Ding wen Zhang, and Jungong Han. Revisiting feature fusion for rgb-t salient object detection. TCSVT, 2020.1, 4
[31] Richard Zhang, Phillip Isola, and Alexei A Efros. Colorful image colorization. In ECCV, pages 649–666,2, 4
[32] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In CVPR, pages 2881–2890, 2017. 2

【ABMDRNet2021】 Adaptive-weighted Bi-directional Modality Difference Reduction Network for RGB-T Sema相关推荐

【Distilling】《Distilling the Knowledge in a Neural Network》
arXiv-2015 In NIPS Deep Learning Workshop, 2014 文章目录 1 Background and Motivation 2 Conceptual block ...
【STemWin】STM32F429IG单片机用LTDC驱动正点原子7寸RGB彩色触摸屏，并裸机移植STemWin图形库
[器件型号] 单片机采用STM32F429IG,运行频率为180MHz,外部晶振HSE的频率为25MHz. 开发板采用外部32MB的SDRAM内存作显存.显示屏分辨率为800×480,颜色格式为RGB ...
【论文】解读Robust bike-sharing stations allocation and path network design: a two-stage stochastic...
解读Robust bike-sharing stations allocation and path network design: a two-stage stochastic programmin ...
【综述】闲话模型压缩之网络剪枝（Network Pruning）
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 来自 | CSDN 地址 | https://blog.csdn.net/jinz ...
c++获得cpu厂商_【C++】WMI获取系统硬件信息(CPU/DISK/NetWork etc)
原创 2016年05月14日 01:50:22 标签: c++ / WMI / CPU 官网找到一个例子,根据例子修改下可以获取很多信息 [cpp] #define _WIN32_DCOM #incl ...
【全】各种颜色对应的 Hex code 和对应的 RGB 值
基准色所有小工具附一个在线查找工具:RGB颜色值与十六进制颜色码互转参考: RGB Color Codes Chart 其它参考: 图像的色彩空間cvtColor(HSV.HSL.HSB )及 ...
【图像复原】RDN论文详解（Residual Dense Network for Image Restoration）
这是CVPR2018的一篇文章,提出了针对图像复原任务的CNN模型RDN(residual dense network). RDN主要是提出了网络结构RDB(residual dense blocks ...
【笔记】input data to the valid range for imshow with RGB data [0..1] for floats or [0.255] for integers
Clipping input data to the valid range for imshow with RGB data ([0..1] for floats or [0..255] for i ...
【论文笔记】【2020TMM】Towards Imperceptible Adversarial Image Patches Based on Network Explanations
个人总结: 本文与PS-GAN有些相似,但是前者是通约束与原图像距离生成对抗样本,后者基于GAN,约束与patch种子的距离生成,但是两篇文章中都引用了CAM的方法--Grad_CAM通过权重汇集,再 ...
【Active Learning - 03】Adaptive Active Learning for Image Classification
主动学习系列博文: [Active Learning - 00]主动学习重要资源总结.分享(提供源码的论文.一些AL相关的研究者):https://blog.csdn.net/Houchaoqun_X ...

【ABMDRNet2021】 Adaptive-weighted Bi-directional Modality Difference Reduction Network for RGB-T Sema