CMFA_Net: A cross-modal feature aggregation network for infrared-visible image fusion

(CMFA_Net: 用于红外-可见光图像融合的跨模态特征聚合网络)

在这项工作中,开发了一个无监督的跨模态特征聚合网络 (CMFA_Net),该网络有效地探索内部特征之间的潜在相关性,并处理这些信息以融合令人满意的图像。首先,提出了一种密集集成的结构和注意模块,以形成特征提取器。随后,将l1-范数和注意机制组合在一起,以融合交叉模态图像的亲和力特征。最后,通过反卷积块重建融合图像。为了保证融合图像的清晰度和丰富的信息,通过利用结构相似性的平均像素决策 (ssim-p) 和content-gram variation (CGV) 在KAIST数据集上训练模型,提出了一个特定的损失函数。

介绍

跨模态图像融合是一种信息融合策略,它将两种类型的传感器捕获的图像的互补信息相结合。
传统方法分为两种:基于空间域和基于变换域。

变换域中的方法首先使用一些变换算法,如拉普拉斯金字塔 (LAP)、离散小波变换 (DWT) 、非下采样shearlet变换 (NSST)等,来分解源图像,然后采用一定的融合规则计算分解系数,最后通过逆变换重建融合图像。

基于空间域的方法通常作用于原始信息域,生成相应的特征模式,然后使用一些融合策略生成它们的蒙版图像,并与原始图像相结合,实现融合操作。这些方法很方便,因为它们避免了许多计算问题,然而,它们需要精确的掩码来产生良好的融合效果。现有的基于主成分分析 (PCA),非负矩阵分解 (NMF)和基于深度学习 (DL) 的方法属于基于空间领域的方法。

基于深度学习的方法是目前流行的跨模态图像融合算法,它克服了传统方法在手工设计中的困难,可以从源图像中自动提取深度特征来表示多模态内的复杂关系。基于深度学习的融合方法包括卷积神经网络 (CNN),残差神经网络 (ResNet),生成对抗网络 (GAN)和基于密集神经网络 (DenseFuse) 的方法 。形式上,所述方法使用CNN和ResNet作为特征提取模型,并通过对特征进行处理以融合源图像来获得融合系数。很明显,这些算法增加了计算复杂性和内部消耗。为了避免这些问题,Ma等人首先将FuseGAN引入红外和可见光图像融合任务中,这是一种端到端的图像融合方法,从而在没有人工干扰的情况下直接获得融合的图像。图1示出了端到端图像融合的概述。令人遗憾的是,训练GAN太难生成稳定的模型。

又由于densefuse易于重新使用中间特征的训练,因此将densefuse方法建议用于图像融合。Hou等人提出了一种基于DenseNet的跨模态图像融合无监督框架。名为VIF-Net的网络模型可以直接获得融合图像,从而提高了高级性能。此外,DenseFuse方法选择MS-COCO来训练其网络,而VIF-Net方法裁剪TNO图像数据集的图像来扩展训练集。然而,前者的训练数据集与红外图像和可见图像没有很强的相关性,而训练数据集与后一种方法的测试数据集之间的采样差异是不明显的。尽管VIF-Net方法具有明显的优势,但特征的重用仍然会在特征提取过程中产生冗余信息。
综上所述,现有的基于DL的方法面临三个问题 :( 1) 训练过程复杂,(2) 耗时高,(3) 可能忽略大量有效的中间层特征。由于这些问题,提出了一种无监督的跨模态特征聚合网络 (CMFA_Net),以获得更好的融合性能。

贡献:
(1)所设计的CMFA_Net包含三个部分: 特征提取器,特征聚合和去卷积块。提出了通道空间注意力卷积 (CSAC) 层,并将其集成到特征提取器中,以提取有效的特征并专注于双重模态的亲和力区域。提出了一种基于注意力机制和l1范数的特征聚合策略,以适当地融合深度特征。最后,通过反卷积块重建融合图像。
(2)虽然以前的工作要获得良好的修复效果很耗时,但我们证明了用组归一化 (GN)层代替批归一化 (BN)可以加速网络的训练并同时防止过度拟合。

(3)为训练模型施加了特定的损失函数,该模型由SSIM-p和CGV组成,以使融合图像能够平衡高质量和丰富的背景细节。

Related works

Group normalization(组归一化)

尽管批次维度上的批次归一化 (BN) 一直是一种用于计算机视觉处理的深度神经网络训练技术,但在目标检测和视频处理方面似乎不足,这限制了高分辨率输入图像和多维度的批次大小。 组归一化 (GN) 被设计为独立于批处理维度的归一化操作方案。GN通过对通道维度中的特征进行归一化来直接跳过批次维度,这意味着计算与批次大小无关。由于其特殊的优势,GN已被证明对图像处理有效,并且其性能往往优于LN,BN和IN[18]。如图2所示,沿批维对BN进行归一化,以找到N * H * W的平均值。其他三种方法沿通道维度进行归一化。在极端情况下,当组的值设置为C或1时,GN与LN或In相同。一般特征的GN公式表现为:

where xi is the feature of i = (iN, iC, iH.iW) layer, is a small constant to
prevent the denominator from being 0. m is the size of the set Si which is
the set of pixels in which the mean and the std are computed. and β are
trainable scale and offset, repsectively. In Group Norm, Si is defined as:其中xi是i = (iN,iC,iH.iW) 层的特征,∊ 是一个小常数,以防止分母为0。m是集合Si的大小,该集合Si是计算平均值和std的像素集合。 γ 和 β 分别是可训练的比例和偏移量。在群范数中,Si定义为:

G是可以人为预先定义的组的数量。⌊.∙⌋ 是地板操作,它是沿着GN中的通道轴计算的。

Attention mechanism

因此,注意力机制被认为是一种视觉信息处理,它选择吸引区域的特定部分并对其进行关注。传统的注意机制包括局部图像特征提取、显著性检测、滑动窗口方法等。与流行的神经网络和传统的注意方法不同,注意模块通常是能够刚性选择某些特征或为输入的不同部分分配特定权重的附加部分。

视觉注意力机制和深度学习的结合被广泛应用到图像分类和图像识别领域。堆叠注意力网络 (Stacked attention networks (STN)) 将原始图像的空间信息转换到其他空间中,并保留keys。STN通过使用最大池化层或平均池化层直接压缩图像信息,减少了计算量并提高了效率。作为STN中最重要的结构的spatial transformer模块可以直接胜任现有网络结构中的新层。但是,它将每个卷积核滤波器获得的统一信道信息转换为不同的信息,因此需要注意信道域之间的关系。挤压和激励网络 (Squeeze-and-excitation networks (SEN)) 将注意力机制分为挤压、激励和注意模块三部分,该模块提出了注意模块SE来生成每个通道的权重,以实现通道域的注意。基于空间域和信道域的网络从两个方面获得关注区域。一方面, 空间注意忽略了通道信息去平等地处理每个通道的特征,这导致空间域变换方法限制了特征提取器的性能。另一方面,通道注意忽略了每个通道中的局部信息,这实际上是一种相对暴力的操作,从而导致空间间信息的丢失。
SCA-CNN将空间注意力和通道注意力结合起来,实现功能互补,并在全局范围内提取相互信息,而它将空间注意力优先于渠道注意力。如图3和图4所示的通道和空间注意模块表明注意模块应该具有相反的优先级。

模块证实通道注意优先于空间注意,并将它们组合到残差网络中,以在图像分类中获得出色的性能。实际上,引入注意模块的所有提到的网络在一定程度上优于原始网络。关注度模块的公式定义为:

The proposed fusion framework

提出的网络框架图和参数信息如下:

Feature extractor

CSAC层由卷积层和通道、空间注意模块组成。 特征提取器由CSAC层和密集块组成。密集块中的卷积层被CSAC层代替。密集块体系结构可以保留丰富的信息,并为减少过拟合提供正则化效果,而CSAC层可以改善冗余信息并使其更有利于网络性能。特征提取器首先从输入红外图像IIn和可见图像IVi中提取稀疏特征。此后,对获得的特征图进行处理,以重建融合的信息图像IF。为了确保输入和输出图像的大小相同,本文中的卷积层均匀为3 × 3滤波器,填充有效,步幅为1。整个CSAC层定义为:

元素乘积。MCS是CSAC层的最终精炼输出。

Feature aggregation

根据红外图像和可见光图像的独特特性,我们设置了一种结合l1范数和注意机制的自我注意方案作为特征聚合规则,可以实现特征稀疏并去除一些冗余特征。特征聚合是基于特定组成的特征融合策略。根据红外图像和可见光图像的独特特性,我们设置了一种结合l1范数和注意机制的自我注意方案作为特征聚合规则,可以实现特征稀疏并去除一些冗余特征。l1-范数可以完成自动特征融合的任务,学会去除无信息的特征,l1范数用来替代空间注意模块去寻找红外和可见光图像中空间信息的相关性。随后,通过结合注意模块的功能,自动聚焦需要突出显示的特征区域。常规特征聚合定义为:

将所有通道的特征串联后,通过计算自我注意函数获得输出LF。

Deconvolutional block

解卷积块由多个解卷积层组成。网络引入GN层而不是BN层来归一化跨模态中间特征图,这样我们就可以设置一个小的批量,以减少计算资源,同时防止网络过度拟合。反卷积层的参数设置与前面卷积层的参数设置一致,以确保图像的大小在整个过程中保持不变。反卷积核的数量逐渐减少到1。

Loss function

提出了一种由SSIM-p和CGV组成的新颖损失函数,以找到表达网络的最佳参数。损失函数描述为:

其中Lssim-p表示基于SSIM的用于评估图像质量的批准度量,该度量计算两个图像的结构相似性。SSIM的计算公式定义为:


图像融合的目的是使融合后的图像包含多模态的重要信息。也就是说,我们需要确保融合结果与输入数据之间的相关性,Lssim − p可以保证。然而,与红外图像的低分辨率不同,可见图像具有高分辨率和丰富的场景信息。为保证融合图像的视觉效果,采用LCGV计算融合图像与可见图像的像素差,定义为:

注意力机制相关内容

BN,GN,LN,IN

空间注意力机制

【IVIF:特征聚合网络】相关推荐

  1. 性能超FPN!北大、阿里等提多层特征金字塔网络

    作者 | Qijie Zhao等 编译 | 李杰 出品 | AI科技大本营(ID:rgznai100) 特征金字塔网络具有处理不同物体尺度变化的能力,因此被广泛应用到one-stage目标检测网络(如 ...

  2. FatNet:一个用于三维点云处理的特征关注网络

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 小黑导读 论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨 ...

  3. CVPR 2020 | 自适应聚合网络AANet:更高效的立体匹配

    ‍‍ ©PaperWeekly 原创 · 作者|张承灏 单位|中科院自动化所硕士生 研究方向|双目深度估计 本文介绍的是中科大团队在 CVPR 2020 上提出的一种高效立体匹配网络--自适应聚合网络 ...

  4. ICCV 2019 | 旷视研究院提出文字检测新方法:像素聚合网络PAN

    本文介绍ICCV 2019 旷视研究院提出任意形状文字检测模型:像素聚合网络 PAN,它考虑了任意文字识别过程中速度与精度的权衡,在大幅提升识别性能的同时也显著降低了计算量,成为当前该领域最佳方法. ...

  5. CVPR2019文章解读 Pyramid Feature Attention Network for Saliency detection 用于显著性检测的金字塔特征注意网络

    Pyramid Feature Attention Network for Saliency detection 摘要 显著性检测是计算机视觉领域的基本挑战之一,怎么有效去提取特征非常关键,目前的一些 ...

  6. [Neck] 空间金字塔池化【池化策略】(Space Pyramid Pool, SPP)模块和路径聚合网络【增强】(Path Aggregation Network, PANet)的结构

    文章目录 背景 yolo v4 中的空间金字塔池化(Space Pyramid Pool, SPP)模块和路径聚合网络(Path Aggregation Network, PANet)的结构 SPP ...

  7. 【Gated Context Aggregation Network for Image Dehazing and Deraining用于图像去雾和去雨的门控上下文聚合网络】,个人笔记,勿喷

    摘要 图像去雾旨在从模糊图像中恢复未损坏的内容.我们没有利用传统的低级或手工图像先验作为恢复约束,例如暗通道和增加的对比度,而是提出了一个端到端的门控上下文聚合网络来直接恢复最终的无雾图像.在这个网络 ...

  8. 上下文聚合网络用于遥感影像语义分割

    Context Aggregation Network for Semantic Labeling in Aerial Images 摘要: 高分辨率航拍图像的语义标注是遥感图像分析的基本和必要任务. ...

  9. Backbone:深层聚合网络:Deep Layer Aggregation(DLA)

    Backbone:Deep Layer Aggregation(深层聚合网络,DLA) 论文网址:https://arxiv.org/abs/1707.06484 论文代码(pytorch):http ...

最新文章

  1. 漫漫运维路——集群基础知识
  2. 编译nginx时的两个报错
  3. asp.net 访问 access出现 ole_connection.ServerVersion引发了System.InvalidOperationException的解决
  4. 蓝桥杯-区间k大数查询(java)
  5. 软件测试mysql基础面试题_测试面试题合集之数据库
  6. 用积木做了个无人机。
  7. 计算机网络——差错控制
  8. Jackson安全漏洞版本升级
  9. Linux驱动程序中的并发控制
  10. Confluence 6 让一个空间可以公众访问
  11. 【手势识别】基于matlab GUI SIFT+SVM算法手势识别【含Matlab源码 1789期】
  12. 羊车门问题看到吐血后的理解----一千七百字小作文+Python代码验证,帮你从质到量上理解,这再看不明白算我输!
  13. 物联网-智能家居相关知识了解
  14. 常用的特效功能实现代码
  15. android webview 手机兼容问题
  16. 贝尔曼方程基于全期望公式的前期推导
  17. Directsound 与 Waveout 有何不同
  18. 数学之美-读书笔记6-10章
  19. 四川一度智信|小白卖家不懂选品?
  20. 算法之排序算法(冒泡法和选择法)

热门文章

  1. python架构的抉择
  2. SAX错误–序言中不允许包含内容
  3. PowerManagerService类大致解读
  4. 基于51单片机的波形发生器(四种波形)(毕业设计资料)
  5. C# 切换中英文输入法
  6. 小米机器人虚拟墙设置_扫地机器人虚拟墙介绍及怎样设置
  7. 教你如何使用SwipeRefreshLayout来构建一个上拉加载下拉刷新框架
  8. 优麒麟运行Linux软件,优麒麟Ubuntu Kylin特色应用软件下载
  9. qrcode获取图片链接在安卓/ios上的问题
  10. nafxcw.lib(dllmodul.obj) : error LNK2005: _DllMain@12 already defined