【IVIF:特征聚合网络】

CMFA_Net: A cross-modal feature aggregation network for infrared-visible image fusion

（CMFA_Net: 用于红外-可见光图像融合的跨模态特征聚合网络）

在这项工作中，开发了一个无监督的跨模态特征聚合网络 (CMFA_Net)，该网络有效地探索内部特征之间的潜在相关性，并处理这些信息以融合令人满意的图像。首先，提出了一种密集集成的结构和注意模块，以形成特征提取器。随后，将l1-范数和注意机制组合在一起，以融合交叉模态图像的亲和力特征。最后，通过反卷积块重建融合图像。为了保证融合图像的清晰度和丰富的信息，通过利用结构相似性的平均像素决策 (ssim-p) 和content-gram variation (CGV) 在KAIST数据集上训练模型，提出了一个特定的损失函数。

介绍

跨模态图像融合是一种信息融合策略，它将两种类型的传感器捕获的图像的互补信息相结合。
传统方法分为两种：基于空间域和基于变换域。

变换域中的方法首先使用一些变换算法，如拉普拉斯金字塔 (LAP)、离散小波变换 (DWT) 、非下采样shearlet变换 (NSST)等，来分解源图像，然后采用一定的融合规则计算分解系数，最后通过逆变换重建融合图像。

基于空间域的方法通常作用于原始信息域，生成相应的特征模式，然后使用一些融合策略生成它们的蒙版图像，并与原始图像相结合，实现融合操作。这些方法很方便，因为它们避免了许多计算问题，然而，它们需要精确的掩码来产生良好的融合效果。现有的基于主成分分析 (PCA)，非负矩阵分解 (NMF)和基于深度学习 (DL) 的方法属于基于空间领域的方法。

基于深度学习的方法是目前流行的跨模态图像融合算法，它克服了传统方法在手工设计中的困难，可以从源图像中自动提取深度特征来表示多模态内的复杂关系。基于深度学习的融合方法包括卷积神经网络 (CNN)，残差神经网络 (ResNet)，生成对抗网络 (GAN)和基于密集神经网络 (DenseFuse) 的方法。形式上，所述方法使用CNN和ResNet作为特征提取模型，并通过对特征进行处理以融合源图像来获得融合系数。很明显，这些算法增加了计算复杂性和内部消耗。为了避免这些问题，Ma等人首先将FuseGAN引入红外和可见光图像融合任务中，这是一种端到端的图像融合方法，从而在没有人工干扰的情况下直接获得融合的图像。图1示出了端到端图像融合的概述。令人遗憾的是，训练GAN太难生成稳定的模型。

又由于densefuse易于重新使用中间特征的训练，因此将densefuse方法建议用于图像融合。Hou等人提出了一种基于DenseNet的跨模态图像融合无监督框架。名为VIF-Net的网络模型可以直接获得融合图像，从而提高了高级性能。此外，DenseFuse方法选择MS-COCO来训练其网络，而VIF-Net方法裁剪TNO图像数据集的图像来扩展训练集。然而，前者的训练数据集与红外图像和可见图像没有很强的相关性，而训练数据集与后一种方法的测试数据集之间的采样差异是不明显的。尽管VIF-Net方法具有明显的优势，但特征的重用仍然会在特征提取过程中产生冗余信息。
综上所述，现有的基于DL的方法面临三个问题 :( 1) 训练过程复杂，(2) 耗时高，(3) 可能忽略大量有效的中间层特征。由于这些问题，提出了一种无监督的跨模态特征聚合网络 (CMFA_Net)，以获得更好的融合性能。

贡献：
（1）所设计的CMFA_Net包含三个部分: 特征提取器，特征聚合和去卷积块。提出了通道空间注意力卷积 (CSAC) 层，并将其集成到特征提取器中，以提取有效的特征并专注于双重模态的亲和力区域。提出了一种基于注意力机制和l1范数的特征聚合策略，以适当地融合深度特征。最后，通过反卷积块重建融合图像。
（2）虽然以前的工作要获得良好的修复效果很耗时，但我们证明了用组归一化 (GN)层代替批归一化 (BN)可以加速网络的训练并同时防止过度拟合。

（3）为训练模型施加了特定的损失函数，该模型由SSIM-p和CGV组成，以使融合图像能够平衡高质量和丰富的背景细节。

Related works

Group normalization（组归一化）

尽管批次维度上的批次归一化 (BN) 一直是一种用于计算机视觉处理的深度神经网络训练技术，但在目标检测和视频处理方面似乎不足，这限制了高分辨率输入图像和多维度的批次大小。组归一化 (GN) 被设计为独立于批处理维度的归一化操作方案。GN通过对通道维度中的特征进行归一化来直接跳过批次维度，这意味着计算与批次大小无关。由于其特殊的优势，GN已被证明对图像处理有效，并且其性能往往优于LN，BN和IN[18]。如图2所示，沿批维对BN进行归一化，以找到N * H * W的平均值。其他三种方法沿通道维度进行归一化。在极端情况下，当组的值设置为C或1时，GN与LN或In相同。一般特征的GN公式表现为:

where xi is the feature of i = (iN, iC, iH.iW) layer, is a small constant to
prevent the denominator from being 0. m is the size of the set Si which is
the set of pixels in which the mean and the std are computed. and β are
trainable scale and offset, repsectively. In Group Norm, Si is defined as:其中xi是i = (iN，iC，iH.iW) 层的特征，∊ 是一个小常数，以防止分母为0。m是集合Si的大小，该集合Si是计算平均值和std的像素集合。 γ 和 β 分别是可训练的比例和偏移量。在群范数中，Si定义为:

G是可以人为预先定义的组的数量。⌊.∙⌋ 是地板操作，它是沿着GN中的通道轴计算的。

Attention mechanism

因此，注意力机制被认为是一种视觉信息处理，它选择吸引区域的特定部分并对其进行关注。传统的注意机制包括局部图像特征提取、显著性检测、滑动窗口方法等。与流行的神经网络和传统的注意方法不同，注意模块通常是能够刚性选择某些特征或为输入的不同部分分配特定权重的附加部分。

视觉注意力机制和深度学习的结合被广泛应用到图像分类和图像识别领域。堆叠注意力网络 (Stacked attention networks (STN)) 将原始图像的空间信息转换到其他空间中，并保留keys。STN通过使用最大池化层或平均池化层直接压缩图像信息，减少了计算量并提高了效率。作为STN中最重要的结构的spatial transformer模块可以直接胜任现有网络结构中的新层。但是，它将每个卷积核滤波器获得的统一信道信息转换为不同的信息，因此需要注意信道域之间的关系。挤压和激励网络 (Squeeze-and-excitation networks (SEN)) 将注意力机制分为挤压、激励和注意模块三部分，该模块提出了注意模块SE来生成每个通道的权重，以实现通道域的注意。基于空间域和信道域的网络从两个方面获得关注区域。一方面， 空间注意忽略了通道信息去平等地处理每个通道的特征，这导致空间域变换方法限制了特征提取器的性能。另一方面，通道注意忽略了每个通道中的局部信息，这实际上是一种相对暴力的操作，从而导致空间间信息的丢失。
SCA-CNN将空间注意力和通道注意力结合起来，实现功能互补，并在全局范围内提取相互信息，而它将空间注意力优先于渠道注意力。如图3和图4所示的通道和空间注意模块表明注意模块应该具有相反的优先级。

模块证实通道注意优先于空间注意，并将它们组合到残差网络中，以在图像分类中获得出色的性能。实际上，引入注意模块的所有提到的网络在一定程度上优于原始网络。关注度模块的公式定义为:

The proposed fusion framework

提出的网络框架图和参数信息如下：

Feature extractor

CSAC层由卷积层和通道、空间注意模块组成。 特征提取器由CSAC层和密集块组成。密集块中的卷积层被CSAC层代替。密集块体系结构可以保留丰富的信息，并为减少过拟合提供正则化效果，而CSAC层可以改善冗余信息并使其更有利于网络性能。特征提取器首先从输入红外图像IIn和可见图像IVi中提取稀疏特征。此后，对获得的特征图进行处理，以重建融合的信息图像IF。为了确保输入和输出图像的大小相同，本文中的卷积层均匀为3 × 3滤波器，填充有效，步幅为1。整个CSAC层定义为:

元素乘积。MCS是CSAC层的最终精炼输出。

Feature aggregation

根据红外图像和可见光图像的独特特性，我们设置了一种结合l1范数和注意机制的自我注意方案作为特征聚合规则，可以实现特征稀疏并去除一些冗余特征。特征聚合是基于特定组成的特征融合策略。根据红外图像和可见光图像的独特特性，我们设置了一种结合l1范数和注意机制的自我注意方案作为特征聚合规则，可以实现特征稀疏并去除一些冗余特征。l1-范数可以完成自动特征融合的任务，学会去除无信息的特征，l1范数用来替代空间注意模块去寻找红外和可见光图像中空间信息的相关性。随后，通过结合注意模块的功能，自动聚焦需要突出显示的特征区域。常规特征聚合定义为:

将所有通道的特征串联后，通过计算自我注意函数获得输出LF。

Deconvolutional block

解卷积块由多个解卷积层组成。网络引入GN层而不是BN层来归一化跨模态中间特征图，这样我们就可以设置一个小的批量，以减少计算资源，同时防止网络过度拟合。反卷积层的参数设置与前面卷积层的参数设置一致，以确保图像的大小在整个过程中保持不变。反卷积核的数量逐渐减少到1。

Loss function

提出了一种由SSIM-p和CGV组成的新颖损失函数，以找到表达网络的最佳参数。损失函数描述为:

其中Lssim-p表示基于SSIM的用于评估图像质量的批准度量，该度量计算两个图像的结构相似性。SSIM的计算公式定义为:

图像融合的目的是使融合后的图像包含多模态的重要信息。也就是说，我们需要确保融合结果与输入数据之间的相关性，Lssim − p可以保证。然而，与红外图像的低分辨率不同，可见图像具有高分辨率和丰富的场景信息。为保证融合图像的视觉效果，采用LCGV计算融合图像与可见图像的像素差，定义为:

注意力机制相关内容

BN,GN,LN,IN

空间注意力机制