Dual-Path Fusion：遥感融合

DPFN: A Dual-Path Fusion Network for Pan-Sharpening

（一种用于泛锐化的双路径融合网络）

大多数现有深上用于pan-sharpening方法的几个公认的问题，如光谱失真和足够的空间纹理增强。针对这些问题，提出了一种新的双路径融合网络（DPFN）拟议的DPFN包括两个主要组成部分：1）全局子网（global subnetwork (GSN)）和2）局部子网（ local subnetwork (LSN)）。GSN的目标是在全色（PAN）空间和多光谱（MS）空间中搜索相似的图像块，并利用来自PAN空间的HR纹理信息和来自MS空间的光谱信息，通过使用交叉非局部块（cross nonlocal block (CNL)）来精细表示全色锐化的MS特征。同时，提出了一种基于高通修正块（high-pass modification block (HMB)）的LSN，用于学习高通信息，以增强MS图像的带域空间信息。HMB强制融合图像从PAN图像中获取高频细节。此外，为了便于生成视觉上吸引人的全色锐化图像，我们提出了一个感知损失函数，并进一步优化了基于近红外空间高级特征的模型。实验结果表明，与现有的全色锐化方法相比，该方法在定量和定性方面都具有更优越的性能。

介绍

随着卫星传感器的迅速发展，遥感图像在各个学术领域、民用和军事领域得到了广泛的应用。然而，正如许多人所认识到的，遥感传感器在空间分辨率和光谱分辨率之间进行一种权衡。因此，对于特定的遥感传感器，所捕获的灰度全色（PAN）图像通常具有比多光谱（MS）图像更精细的分辨率。典型地，全色锐化的目标是将高分辨率（HR）PAN图像的纹理细节与来自低分辨率（LR）MS图像的光谱信息集成，以用于生成HR-MS图像的目的，因此突破了技术限制。鉴于上述效用，全色锐化任务通常被视为许多遥感数据应用的关键预处理步骤，例如城市不透水表面的提取、土地覆被分类和变化检测。

传统的全色锐化方法一般基于手工特征，重建MS图像中缺失信息的能力有限。最近，提出了许多基于学习的框架。这些方法能够从大量成对图像中学习非线性映射和高语义特征，显著提高了全色锐化过程的性能和鲁棒性。

（传统的基于深度学习的全色锐化框架。(a)传统的全色锐化方法通常从LR-MS和PAN到HR-MS图像的级联（五个波段到一个HRMS图像策略）学习映射函数。然而，它们不能以有效的方式利用来自HR-PAN空间的全局信息，从而导致过度平滑的结果。(b)直接从PAN图像学习残差图引起光谱失真（一个高通版本PAN图像和一个LRMS对映射成一个HRMS图像策略）。提出了一种新的DPFN，它通过GSN和LSN分别学习全局谱空间信息和局部高通空间信息。B_NIR表示NIR通道。©双路径映像策略：全局像素方式和局部残差方式）

由于来自PAN图像和MS图像的信息是互补的，具有相当大的冗余量，因此构建具有不同规格的高效深度学习模型成为全色锐化任务的主要焦点。利用MS/PAN图像对，图1总结了传统的基于深度学习的全色锐化框架。我们提出的DPFN的目标是逐步学习多尺度特征信息，从而获得最佳性能。受近邻嵌入模型应用的启发，该模型利用PAN图像中的HR块并将这些块重建为全色锐化图像，我们设计了交叉非局部块（CNL）来挖掘长距离和交叉空间依赖性，并聚合这些相关块以表征全局信息。所设计的CNL能有效地降低计算量。我们估计局部逐频带残余分量，而不是同时估计所有频带，目的在于利用唯一的逐频带高通信息。更具体地说，我们设计了一种新的高通修正块（HMB），通过空间关注块提取特殊的残差信息，以自适应地学习细粒度的纹理信息。学习的全局和局部分量被组合为全色锐化图像。此外，我们提出了一个近红外-VGG（near-infrared-VGG (NIR-VGG)）损失，以指导网络集中在感知差异和产生视觉愉快的结果。

贡献

1）提出了一种高效的DPFN，分别通过GSN和LSN学习全局和局部信息。定性和定量结果均证实了所提出的DPFN优于现有的最新方法。

2）提出了一种结合邻域嵌入和残差块的全局纹理和光谱信息的GSN算法。融合PAN空间中的HR纹理信息和MS空间中的光谱信息来表征全局轮廓。该方法具有计算简单、空间和频谱失真小的特点。

3）我们设计了一个HMB来增强MS图像每个波段的高频空间信息。校正后的残差图像能够充分利用PAN图像的空间先验信息，在很大程度上避免了光谱失真问题。此外，我们使用感知损失来约束NIR波段的模型。感知域中的特征图在恢复细节纹理信息中起着重要作用。

Problem Formulation

现有的基于CNN的全色锐化方法具有保留频谱信息的能力，例如PNN和SDPNet，倾向于将全色锐化处理为黑盒问题。来自MSDCNN和SRPPNN的PAN域中的残差学习可以增强对空间纹理细节的关注，但是导致可观察到的频谱失真。由于融合结果倾向于MS图像或PAN图像，上述方法在性能上受到限制。融合结果的主观方面分别表现为模糊和光谱失真。这些现象背后的主要原因是忽视了MS和PAN图像之间的相关性。因此，提出的双路径策略的主要思想是利用MS和PAN图像之间的全局和局部相关性，以渐进的方式保留纹理和光谱信息。
图2展示出了所提出的方法的流程图，其包括两个主要部分：GSN和LSN。通过级联这些子网络，我们能够在多尺度框架中超分辨输入LR-MS和PAN图像，以减轻计算需求的负担。
我们将LR-MS图像表示为大小为w × h × c的I_LRMS，将相应的HR-PAN图像表示为大小为rw × rh × 1的I_PAN，并将地面真实HR-MS表示为I_GT ∈ r w × r h × c ^{rw×rh×c} rw×rh×c，其中w和h分别表示LR-MS图像的宽度和高度。c是MS图像中的图像波段的数量，r表示I_LRMS和I_PAN之间的空间分辨率尺度。我们的目标是生成具有高空间分辨率和高光谱分辨率的HR-MS图像I_HRMS，给定输入HR-PAN图像，即I_PAN和LR-MS图像，即I_LRMS，通过端到端解决方案。

下面以尺度因子为×2的空间中的子网为例，详细给予了GSN和LSN的结构。
1) Global Subnetwork:
具体地，输入LRMS I_LRMS被馈送到由特征提取部分（具有残差块）和上采样部分组成的up-block。然后，我们通过上采样空间中的特征提取器从MS和PAN图像中提取深度特征f_LRMS和f_PAN↓2。最后，利用CNL模块集成MS和PAN特征，学习非局部信息。该子网可表示为

其中H_GSN1（·）指的是GSN的操作，其目的是学习全局信息，I_GSN1（·）指全色锐化的MS图像，I_PAN↓2表示比例因子为×2的IPAN下采样版本。
2) Local Subnetwork:
在GSN中重建的全色锐化MS图像首先被分成c个波段（在本研究中为R、G、B和BNIR，其中BNIR表示NIR通道）。LSN可表示为

其中H_LSN1（·）旨在学习局部残差信息的LSN的操作。
进一步，通过求和运算，可以得到尺度因子为×2的空间中的最终全色锐化MS图像

Cross Nonlocal Block

非局部块通常用于图像修复任务，它允许模型将所有空间位置的全局像素聚合为某个位置的响应。具体而言，这些模型旨在计算整个空间空间的全局响应和聚合特征地图，期望有效挖掘相似和重复的互补信息。注意，在标准非局部块中，大小为W × H × C的矩阵相似度计算的算法复杂度为（ W H ） 2 （WH）^2 （WH）2。
对于全色锐化问题，关键是有效地利用MS的固有特性和PAN图像特性，并聚合来自两个空间的特征图。在本文中，我们提出的CNL利用MS和PAN图像的非局部空间先验，如图3所示。

与标准非局部块不同，CNL利用PAN空间的HR纹理信息和MS空间的光谱信息来精细表示全色锐化的MS特征。 用k × k卷积层（图3中的θ、δ和Φ）来模拟传统非局部算法中由k × k滑动窗口实现的块运算。 CNL中矩阵相似度计算的复杂度为
2( ( W H ) 2 (WH)^2 (WH)2/ k 2 k^2 k2)。

以尺度因子为× 2的空间中的CNL为例，首先将输入的大小为W × H × C的MS特征图f_LRMS和PAN特征图f_PAN↓输入到CNL中。CNL的优点之一是k × k卷积的输入可以重新缩放为（W/k）×（H/k）× C。然后，将重新缩放的特征（在δ卷积层之后）乘以MS空间中的特征（在θ卷积层之后）和PAN空间中的特征（在Φ卷积层之后），以使用归一化（softmax函数）计算特征相关性。我们通过一个近似插值将相似矩阵重新标度为WH × WH。嵌入操作（图3中的φ和υ）旨在通过缩放因子重新缩放原始特征。根据所提出的CNL，我们利用PAN空间中的HR纹理信息和MS空间中的光谱信息来精细表示全色锐化的MS特征。
最后，我们利用具有1 × 1卷积层的卷积块，通过以下公式融合空间和光谱特征：

High-Pass Modification Block

高频和低频信息
全色锐化属于ill-posed问题，它利用来自PAN图像的附加先验信息进行重建。通常，大多数传统方法试图利用高频信息作为残差图。对于MS图像增强问题，关键是要有效利用高通PAN图像与不同波段MS图像各波段之间的内在联系，以减少高通PAN图像中光谱信息的影响。受Zhang等人的启发，我们引入了空间注意机制来自适应地重新缩放每个像素特征，从而提高空间残差信息的表示能力。

RGB和NIR
提出的HMB（见图4），称为HMB，旨在利用高频先验。首先，将CNL的输出I_NN分解为单波段图像X（在本研究中，X ∈ {R，G，B，B_NIR}）。单波段图像X（在本研究中，X ∈ {R，G，B，BNIR}）。之后，我们将单波段图像X和PAN图像P的连接馈送到HMB中用于特征提取。特别地，HMB级联n_r（n_r = 12）个具有3 × 3卷积的剩余块。

我们进一步将F_X,1馈送到空间注意块中，其中通过空间特征的自适应学习，利用高频信息层进一步补充全色锐化图像。此过程可表示为
我们进一步通过下式获得当前HMB的高通输出：

其中I_HMB表示用于重建的MS图像的高通版本。全色锐化MS图像可定义为

为了更好地理解我们提出的CNL和HMB，我们在图5中给出了中间结果。

第二和第三行的特征图分别表示来自所提出的CNL和HMB的输出特征。第三行的特征中的像素稀疏分布并且具有相对小的值，因为局部信息主要包含高频信息。实验结果表明，所提出的CNL算法能够有效地恢复HMB算法更倾向于推断高通版本局部信息的图像中的全局信息，证明了所提出的双路径策略在全色锐化任务中的有效性.

Loss Function

现有的全色锐化模型训练方法大多采用像素级误差作为损失函数，以获得更客观的评价结果。其中，均方误差（MSE）和平均绝对误差（MAE）是应用最广泛的损失函数。具体而言，L₂损失定义为HR-MS和真实数据之间的MSE

尽管像素式损失函数可以实现高客观结果，但是它们不能捕获感知差异（例如，纹理和边缘）并且倾向于产生过平滑的图像。在本研究中，设计了一个感知损失函数，以捕获高级特征并生成视觉上令人愉悦的纹理信息。与自然图像不同，MS图像的NIR(近红外波段)的光谱波长比其他波段要大，这使得NIR的纹理信息丰富而完整。因此，我们认为近红外空间(NIR)的感知损失可以捕获可见光成像中被忽略的细节。
受SR任务中基于VGG的特征损失函数的启发，我们提出了一种新的用于纹理增强的NIR-VGG损失。具体而言，NIR-VGG损失最小化了NIR和PAN空间中的特征误差。

其中NIR（·）表示图像的NIR波段，Φ（·）是预训练VGG-19网络的输出特征图。L_NN表示在NIR波段空间中HR-MS和PAN图像之间的损失。L_NP表示PAN和NIR图像之间的损失。NIR-VGG损失计算如下：

总之，最终损失函数是两个损失之和

其中L₁用于避免光谱失真，L_NIR−VGG可以恢复纹理信息。
考虑到NIR-VGG损失函数可能降低全色锐化图像的客观性，我们将用L1训练的提议模型命名为DPFN，用Ltotal训练的提议模型命名为DPFN+。