[论文翻译]A Flexible Reference-Insensitive SpatiotemporalFusion Model for Remote Sensing Images Using...

为了方便自己理解和回看文章，这里把文章翻译一下

摘要

由于遥感图像的时空分辨率之间的权衡，提出了时空融合模型来合成高时空图像序列。目前，时空融合模型通常采用预测日期获得的一幅粗分辨率图像和至少一对接近预测时间的粗分辨率图像作为参考，得到预测日期的精细分辨率图像。经过多年的发展，模型的精度有了一定的提高，但几乎所有的模型都需要至少3个图像输入，并且必须对引用施加严格的时间约束，以保证融合精度。但是，由于恶劣的天气条件或粗分辨率数据源之间的时间不一致，在实践中收集精细分辨率的数据对并不总是那么容易，给实际应用带来了一些困难。本文将条件生成对抗网络(CGAN)和可切换归一化技术引入时空融合问题，提出了一种灵活的深度网络，即基于CGAN的时空融合模型(GAN-STFM)，以减少模型输入的数量，打破参考图像选择的时间限制。GAN-STFM只需要在预测日期上的一个粗分辨率图像和在同一区域的任意时间的另一个细分辨率参考图像来进行模型输入。据我们所知，这是第一个只需要两张图像作为模型输入的时空融合模型，并且不限制参考文献的获取时间。即便如此，GAN-STFM在实验中的表现与其他经典核聚变模型相同或更好。随着这种改进，时空融合的数据准备往往比以前容易得多，为实际应用提供了一个很好的前景。

介绍

传感器技术的进步不断地提高了遥感图像的时空分辨率，有利于大量基于遥感的实际应用，如农业、环境和资源的监测和管理，推动其专业化和精度向前发展。然而，由于技术和预算的限制，无法同时获得高空间和高时间分辨率的遥感数据，它部分地限制了遥感的先进应用。时空融合模型是数据后处理的一种后处理技术，以减少硬件限制。时空融合过程通常涉及两种遥感图像。一个数据源具有高空间分辨率和低时间分辨率（以下简称精细分辨率图像）。例如，陆地卫星-8号卫星以30米的空间分辨率获取图像，重复周期为16天。另一个数据源具有高时间分辨率和低空间分辨率（以下称为粗分辨率图像），如MODIS图像。MODIS传感器可以捕获每日的地球观测数据，但大多数光谱波段的空间分辨率只能达到500米。时空融合技术结合了这些独特的信息，通过从粗分辨率图像中检索时间地面变化，从精细分辨率图像中提取详细的地面纹理，同时合成具有高空间和高时间分辨率的新数据。Fig.1为时空融合示意图。通常，预测日期t1上的粗分辨率图像和至少一个ti(i≠1)参考的粗细分辨率图像对参与时空融合。t1和ti之间的时间跨度应该尽可能小，并且在此时间段内应该没有明显的地面特征变化。通过对长时间序列数据进行时空融合模型，可以生成高时空图像序列，基于遥感的应用可以进一步扩展到细粒度水平。整个融合过程可以表示为（1），其中Fti和Cti分别表示时间ti上的细分辨率图像和粗分辨率图像，函数f表示已建立的时空融合算法，通常比较复杂，规则众多

$Ft1 = f (Ct0 , Ft0 ,Ct1 ,Ct2 , Ft2 ). \left ( 1\right )$

对遥感图像时空融合的研究可以追溯到20世纪90年代，经过多年的发展，各种时空融合模型已经被提出。一般来说，这些模型可以分为四类：1）基于转换的；2）基于重构的；3）基于贝叶斯的；和4）基于学习的模型。基于变换的模型采用先进的数学变换，如小波变换，将原始图像像素映射到一个抽象空间中进行融合。基于重构的模型可以进一步分为基于权重函数和基于解混合的模型。基于权重函数的模型的一个典型例子是时空自适应反射率融合模型(STARFM)。许多时空融合模型随后受到STARFM模型的启发，如映射反射率变化（统计）的时空自适应算法和增强的STARFM(ESTARFM)，进一步提高了精度。基于解混的算法根据线性解混理论建立了融合模型，如时空数据融合方法(STDFA)。一些研究工作将基于加权函数的思想与基于融合的方法结合起来，建立了更先进的融合模型，如时空反射分解模型（初）和柔性时空数据融合(FSDAF)。基于贝叶斯统计量的融合模型的建立是基于贝叶斯统计量的，试图将时空光谱融合集成到一个统一的框架中。基于学习的模型是通过从存档数据中学习规则来建立的。它可以大致分为稀疏表示，如基于空间表示的时空反射融合模型(SPSTFM)和深度学习的模型，如时空融合使用深度卷积神经网络(STFDCNN)，深度卷积时空融合网络(DCSTFN)，增强DCSTFN(EDCSTFN)和双流卷积神经网络(StfNet)。

基于深度学习技术的融合模型可以在现代计算硬件加速下从大量归档数据集中学习隐式复杂规则和关系，大大提高了计算机建模的效率和准确性。通过将深度卷积神经网络(CNN)引入遥感图像融合问题，显著提高了模型的精度，提供了一个很有前景的研究方向。然而，许多时空融合模型被训练成对理想的数据集进行预测，而忽略了在一些研究领域收集到满意数据的困难。目前，几乎所有现有的模型都需要至少3幅输入图像，而参考图像的选择必须采用严格的约束，以保证融合精度。然而，由于恶劣的天气条件、研究区域的数据缺失或粗-细分辨率数据源之间的时间不一致，在实践中连续收集足够的数据对并不总是那么容易。因此，需要缓解时空融合问题中参考图像的强时间依赖性。为此，本文利用生成式对抗网络(GAN)的思想和规范化技术来改善上述问题。本文提出了一种新的基于GAN的时空融合模型(GAN-STFM)的体系结构，并与现有的一些时空融合模型进行了比较，证明了其有效性。这篇文章的贡献有两个。首先，将GAN架构引入时空融合域，细化模型输出。其次，与现有的时空融合模型不同，消除了对参考图像采集时间的限制。使用GAN-STFM，为融合模型准备输入数据可以不那么辛苦。我们认为，引用不敏感的融合方法可以为未来的研究提供参考，并具有广阔的实际应用前景。

本文的其余部分组织如下。在第二节中介绍了GAN的基础知识和所提出的GAN-STFM的详细体系结构。第三节详细介绍了模型结果的分析和比较。第四节总结了总结和未来的工作。

材料和方法

A. 生成对抗网络

GAN首先是由古德费勒等提出的，然后，基于GAN的应用爆炸，如图像生成、超分辨率、去噪、绘制和图像到图像转换，显示了其强大的建模能力。顾名思义，GAN是一种生成模型。训练在生成器和鉴别器之间的竞争过程，鉴别器设计区分发电机输出训练样本，同时，发电机努力生成假数据，类似于相同的分布的真实样本，根据鉴别器的反馈。通过这种迭代竞争训练，它们都进化得更强，整个系统最终达到平衡状态。最后，生成器可以产生几乎像真实样本一样的假输出，而鉴别器不能区分真实和虚假的输出。在本质上，GAN可以被看作是一个两人零和博弈。

从数学上讲，生成器G以一些噪声数据z作为输入，在真实训练样本x上学习一个复杂的映射函数，并试图将噪声数据pz(z)的分布映射到真实数据Pdata(x)的分布。同时，将鉴别器D作为一个二值分类器来区分生成的假数据G(z)和真实样本x。换句话说，生成器的目标是最小化G(z)和x之间的分布距离，而鉴别器的目标是最大化它们之间的分布。因此，VGAN采用极大极小损失函数，表示为（2），同时训练生成器和鉴别器。

VGAN损失函数通过Jensen-Shannon(JS)散度测量分布距离。在没有对解空间的额外约束的情况下，普通GAN在实践中的模型训练的稳定性较弱。随后的许多研究致力于探索可能的解决方案，以限制香草GAN，以提高其性能。例如，条件GAN(CGAN)提供一个额外的数据y到生成器和鉴别器作为条件标签驱动网络沿着预期的方向寻找最优解决方案，解决问题的香草干没有控制生成的数据模式。CGAN损失函数记为（3）。最小二乘GAN(LSGAN)[33]是另一种GAN变体，它对损失函数进行了较小的修改，以提高GAN的稳定性。实践表明，与普通的GAN相比，LSGAN可以产生更多高质量的结果，特别是对于与图像相关的任务。因此，在GAN-STFM训练中采用了它，而不是原来的极大极小损失。LSGAN损失函数表示为（4），其中a、b和c为常数，满足b−c=1和b−a=2的条件。

B. GAN-STFM体系结构

1) 模型设计：理论上，一个图像可以分解为粗近似和细细节。在时空融合问题中，可以将预测日期的粗分辨率图像作为近似部分，预测日期的地面细节需要从精细分辨率的参考图像中推测出。参考不敏感模型的主要思想是，可以利用深度模型从精细分辨率的参考图像中提取常见的高通特征，然后假设在研究区域的参考和预测时间段内，地面特征的形状变化很小，预期的融合结果可以与预测日期的近似和任意精细分辨率参考图像的共同细节相结合。在此基础上，本文将CGAN和归一化技术引入到遥感时空融合问题中，提出了一种具有很大灵活性的新模型GAN-STFM，以缓解现有融合模型中参考图像与预测图像之间的强时间依赖性。

Fig.2从概念上显示了参考不敏感的时空融合方法。数学上，参考不敏感模型可以表示为（5），其中Ft和Ct分别表示合成的细分辨率图像和观察到的粗分辨率图像，Ft*表示时间t*(t*≠t)上的任意精细分辨率图像，函数f表示输入和输出之间的学习映射关系。通过与（1）模型的比较，可以看出GAN-STFM模型在形式上比传统的时空融合方法要简单得多。

当然，所提出的GAN-STFM网络需要一个发生器和鉴别器，如图3所示，它们都是基于ResNet构建块构建的。使用ResNet，输入(s)和输出(s)之间的关系并不是直接建立起来的，而是通过跳过连接来学习输入(s)和输出(s)之间的残差。由于残余结构，极深网络中的消失和爆炸梯度问题得到了显著的缓解。用于组成GAN模型的基本ResNet块如图4所示。生成器涉及到两个不同的构建块，因为从概念上讲，生成器可以分为编码器和解码器。对于编码器，利用主分支提取常见的高通特征，然后将横向分支的公共高通特征添加到图像特定近似中，生成中间精细特征。

Fig.4(a)显示了这个过程(g编码器-ResBlock)，任意的细分辨率图像被输入主分支，而预测日期的粗分辨率图像通过横向分支。然后，将合并后的中间特征和粗逼近特征分别发送到下一个相邻的块中。这种分离的目的是在正向传播过程中尽可能多地保持粗光谱信息。在编码器的最后，提取调整后的精细特征、粗特征和抽象特征，然后连接并传递到解码器。所连接的特征在解码器中同时通过主分支和横向分支。添加中间特性，然后发送到下一个剩余块。发电机解码器中采用的构建块(GDecoder-ResBlock)如Fig.4(b)所示，与原始ResNet架构中使用的构建块相同。

发电机采用堆叠的残余块构成，如Fig.3所示。

生成器中的前四个块与g编码器-res块组成编码器，解码器由其余四个块与g解码器块组成。生成器编码器和解码器架构之间的另一个区别在于可切换的规范化，如图4所示。它在生成器编码器中被用来迫使模型过滤出特定于样本的信息，并只提取常见的高通细节。可切换归一化是一种由任务和数据驱动的可学习归一化方法，记为（6），其中 $h_{ncij}$ 和 $\hat{h}_{ncij}$ 为归一化前后具有坐标(n，c，i，j)的特征值；Ω表示一类采用不同的归一化方式估计的统计量，包括批处理归一化、层归一化和实例归一化；μ和σ分别表示均值和标准差；β和γ分别为位移参数和尺度参数；而wk和wk^是应用于以不同方法估计的统计量的可学习权值。从（6）中可以看出，可切换归一化统一了现有的三种特征归一化方法，适用于期望提取共同特征的情况。归一化层后的激活是漏性校流线性单元(LeakyReLU)函数，它被广泛应用于CNN模型中。主分支中的Conv3层，如Fig.4所示，表示核大小为3×3时的平卷积操作。在横向分支中使用的Conv1是在不引入太多参数的情况下调整特征映射的通道以匹配横向分支的输出

该鉴别器是由几个D-ResBlocks组成的普通二元分类器。对每个残差块进行批处理归一化，如Fig.4(c)所示，对模型进行推广。StridedConv3表示核大小为3×3，步幅为2的卷积操作，以减少特征大小。该鉴别器的独特结构是在GAN训练中采用光谱归一化来稳定对抗过程。将谱归一化应用于卷积运算的权值，而不是中间特征映射，以保证学习到的隐式函数的利普希茨连续性。鉴别器的输入是在预测日期上的粗分辨率图像和细分辨率的地面真实值或预测图像。将预测日期上的粗分辨率图像作为指导训练过程的条件。在最后一个s型激活时，鉴别器将输入的图像映射到虚假组和真实组的概率。除此之外，在GAN-STFM中采用了[42]中引入的多尺度鉴别器对输出图像进行快速增强。将鉴别器的条件输入降采样到两个不同的尺度，系数分别为0.5和0.25，用于在不同尺度上训练三种架构相同的鉴别器，如Fig.3所示。

2) 损失函数：LSGAN损失函数在GAN-STFM模型中被选择性地使用，并对图像内容有额外的约束。鉴别器的损耗计算与LSGAN中的相应部分相同，而生成器的损耗是由相应的LSGAN部分(LGAN)和图像本身的约束(LI)组成的。图像本身的损失包括特征损失(LFetage)，光谱角度损失(LSpectram)，以及视力损失(LVision)，因此，发电机的总损耗可以表示为（7），其中α、β和β为权重系数

特征损失用于捕获感知差异，生成高质量的图像。它可以在一个关联的自动编码器的帮助下计算，减少了一个抽象的高特征级别的差异。预训练的自动编码器还由一个编码器和解码器组成，它被构造为一个完全卷积的网络，跳过连接形成一个经典的“沙漏”架构，如Fig.5所示。

步幅为2的编码器中的StridedConv3层用于将特征大小缩小一半，而解码器中的Conv3层以及下面的上采样层将将特征大小扩大两次。最后一层Conv1用于恢复特征映射到原始图像。自动编码器的输入和输出是相同的精细分辨率图像。编码器将原始图像映射到高维特征空间，解码器将这些抽象特征恢复到原始图像空间。GAN-STFM中的特征损失使用基于编码器输出特征的均方误差(MSE)函数计算，如（8）所示，其中x和y分别表示地面真实值和预测，而编码器(x)和编码器(y)是预先训练的编码器的输出。本文提出了利用预测特征和地面真实特征之间的余弦相似度来减少和控制不同波段之间的光谱失真。它是根据（9）计算的，其中I表示1的张量。视力丧失是用来从计算机视觉的角度保留更详细的地面纹理。它可以计算使用多尺度结构相似度(MS-SSIM)[43]保证一个满意的视觉效果，记为（10），其中li(xy)，li(xy)和li(xy)的量化亮度，对比度和结构，αi，βi，γi是相应的权重系数

实验和结果

A.研究领域和数据集

来自社区灌溉区(CIA)1和下Gwydir流域(LGC)2的两个开源数据集被用于以下实验。中央情报局研究区位于澳大利亚新南威尔士州南部，种植水稻和现代化灌溉系统的水稻。它以一个生长季节的作物物候的显著时间动态而闻名。从2001年到2002年，有17对无云MODIS-陆地卫星数据对。每幅图像由6个光谱波段组成。MODIS和陆地卫星的图像都是在25米的分辨率下被插入到2040×1720的大小。LGC研究区位于澳大利亚新南威尔士州北部，收集了2004-2005年的14对无云数据对，插值图像大小为2720×3200，用于时空融合。由于洪水事件，这个区域也可以被认为是暂时动态的。所有的数据都经过了标准的预处理过程，可直接用于以下的融合模型。

B.实验设置

预计在接下来的实验中，可以实现三个目标。首先，通过从GAN-STFM架构中移除一些建筑组件来进行烧蚀实验，以深入了解其效果。其次，通过与现有的一些时空融合模型进行比较，评价了GAN-STFM的融合精度。第三，通过使用不同的参考图像对特定日期进行预测，证明了GAN-STFM对参考图像的不敏感性。将GAN-STFM与以下融合算法进行了比较，包括STARM、FSDAF和edcstfn。STARFM算法是一种经典的基于加权重建的融合模型。FSDAF是一种基于解混的重建融合模型。EDCSTFN是一种基于深度学习的融合模型。这三种模型都需要在预测日期上至少一幅粗分辨率图像和一对粗细分辨率图像作为参考。相比之下，GAN-STFM只需要一个关于预测日期的粗分辨率图像和一个任意的细分辨率参考图像。为了训练EDCSTFN模型，每个MODIS-陆地卫星数据对都需要与另一个数据对进行分组，并且在一个组中的数据采集日期应该足够接近。即，在所有分组的数据对中，参考图像的采集时间最接近预测日期。数据组规则也应用于STARM和FSDAF模型。对于GAN-STFM模型，预测和参考数据对不需要进行分组，因为精细分辨率的参考数据是从一个特定研究区域的陆地卫星数据集中随机选择的。这意味着一个特定预测日期的参考图像对于每次训练迭代都是不一样的，并且可以用这种方式训练GAN-STFM模型来学习参考不敏感的高通特征。在对所有数据集进行分组后，我们选取了2002年的10个数据组作为CIA研究区域，并使用2001年的5个数据组来验证其准确性。验证数据没有涉及到培训过程中。在LGC研究区域，2004年选择了8个数据组进行模型训练，2005年选择了4个数据组进行验证。

基于深度学习的模型都是使用Python编程语言实现的，使用了PyTorch深度学习框架[45]。为了向地球科学界做出贡献，源代码在GitHub3平台上发布，可供公共测试和使用。在执行模型训练时，每幅图像被细分为小的斑块（256×256），以考虑到大量的计算机内存消耗而馈入网络。在实例化的生成器中有8个基本的构建块，如图3所示，根据经验，每个块的输出通道分别设置为16、32、64、128、64、32、16和6。最后一层的输出通道等于图像频带的数量。对于鉴别器，需要8个构建块对应于256×256图像斑块大小。根据经验，每个块的输出通道被设置为12、32、32、64、64、128、128、256和256。第一层的输入通道应该是光谱波段数的两倍，因为预测真相的精细分辨率图像，以及预测日期的条件粗分辨率图像被叠加到鉴别器中。GAN-STFM设置为2×10−4，EDCSTFN设置为1×10−3。每个epoch的批处理大小设置为32个补丁，步幅大小分别为200和500个epoch。（7）中的系数设置如下：α=β=1和β=0.01。模型的超参数可以根据实际情况，如硬件规格和实验数据进行调整。我们的实验环境列于TABLE 1中。

C. 训练模型

基于深度学习的模型通过图形处理单元(gpu)的加速进行训练。根据上述设置，TABLE 2总结了模型参数和运行时间。令人惊讶的是，参数更少的EDCSTFN比架构更复杂的GAN-STFM花费的时间略短。

这是因为从磁盘将数据组加载到GPU内存中非常耗时，而且与EDCSTFN相比，GAN-STFM只需要三分之二的输入图像，当GPU的计算性能不是模型训练的系统瓶颈时，可以节省一些时间。在验证数据集上进行深度模型训练时的MSE变化如Fig.6所示。

难怪EDCSTFN比GAN-STFM的聚合速度更快。这是因为EDCSTFN模型需要三张输入图像，并且在参考和预测日期期间的时间非常接近，因此，在短时间内葫芦有一些显著的变化。与GAN-STFM相比，输入和输出之间的关系相对没有那么复杂。GAN-STFM模型被设计为只接受两个输入图像，并在训练中随机选择精细分辨率的参考图像。在这种情况下，输入和输出之间的关系比EDCSTFN模型相对复杂，因为GAN-STFM算法需要从大量的精细分辨率引用中提取常见的高通特征，而不是提取样本特定的特征。在CIA和LGC的研究区域中，Fig.6中的EDCSTFN的训练误差都小于GAN-STFM模型，而验证误差则相反。这证实了EDCSTFN比GAN-STFM模型更易于训练，而且GAN-STFM具有更高的泛化能力。

D. 比较和结果

为了客观地评价不同融合模型的性能，我们选择了几个定量指标来进行比较，包括平均绝对误差(MAE)、均方根误差(RMSE)、光谱角映射器(SAM)和结构相似度指数(SSIM)。MAE和RMSE常用于量化融合误差，值越小表明融合精度越好。SAM评估了有关光谱失真的融合模型，一个小的值表明了高光谱匹配。SSIM显示了合成图像的质量，而一个理想的融合图像通常具有较高的价值。以下是与上述三个目标对应的三个角度的实验结果。

1)消融研究：与现有的基于挖掘收益的融合模型相比，首先利用可切换归一化来减少融合过程中精细参考图像的依赖性。然后，在GAN-STFM中采用基于CGAN的架构来提高生成的图像质量。因此，我们选择性地删除了这两个组成部分，以理解本部分中对整体融合模型的贡献。具体来说，我们训练了没有鉴别器的普通旧CNN模型、生成器中没有可切换归一化的基于GAN的模型和GAN-STFM模型。

Fig.7显示了消融研究在训练过程中的误差变化。一般来说，GAN-STFM在训练和验证数据集上的两个研究领域的误差最小。在训练过程中，无可切换归一化模型的归一化模型误差最高，误差在验证数据集上波动，显示了可切换归一化在参考不敏感模型中的有效性。普通的CNN模型比没有可切换的规范化的CNN模型表现得相当稳定，但仍然不如基于GAN的模型好。表三和表四列出了这三种体系结构对验证数据集的定量评价结果。粗体显示的数字突出显示了最好的结果。这再次证实了GAN体系结构和可切换的规范化在GAN-STFM融合模型中发挥了重要作用。

2) 模型精度比较：对2001年CIA地区的5个数据组和2005年LGC的4个数据组进行了测试，以评估模型的精度。定量比较列于表五和表六。总的来说，基于深度学习的模型明显优于传统的融合方法。EDCSTFN和GAN-STFM均相匹配。具体来说，一个在某些数据组的某些指标中表现更好，而另一个在其他数据组的其他指标中产生更好的结果。考虑到GAN-STFM只需要两幅输入图像，而参考图像可以在较少的约束下选择，GAN-STFM模型具有更大的灵活性，在实际数据生产中具有相当好的前景。2001年11月9日CIA地区的合成聚变结果如Fig.8所示。

彩色图像表四定量评价结果LGC领域不同的深度模型架构在2005表V定量评估结果中情局地区各种时空融合方法在2001表六定量评价结果LGC地区各种时空融合方法在2005年由乐队5、4、3选择视觉演示。STARFM算法的输出包含过多的第一行观测噪声，而其他三个算法可以产生令人满意的结果。第二行对应于第一行中用黄色矩形标记的区域。第三种是通过与地面真相进行比较而得出的误差图。该值范围在0.1到0.2之间拉伸，以突出显示错误。除STARFM外的模型具有相似的误差分布。最后一个是计算出的归一化差异植被指数(NDVI)，GAN-STFM产生了最接近的近似。2005年3月2日对LGC区域的预测结果如图9所示。所有的模型都可以从前两排从视觉上产生令人满意的结果。DCSTFN和GAN-STFM的误差最小，它们的NDVIs与第三行和第四行的地面真相最相似。STARFM仍然有最高的误差。考虑到STARFM是最早的时空方法之一，可以理解该算法的鲁棒性不是很高。一般来说，从定量评价和视觉检查来看，GAN-STFM模型可以以更少的输入和更少的限制与现有的融合模型竞争。

3)参考文献评价：为现有的时空融合模型选择参考图像对预测精度至关重要。几乎所有现有的融合模型都需要有接近预测日期的参考图像对的采集日期。本实验旨在通过使用不同的参考图像在同一日期进行预测，探讨参考图像对融合模型的影响。

TABLE 7显示了2001年11月9日、10月17日、11月25日、11月24日4张不同参考图像的定量评价结果。

TABLE 8列出了2005年3月2日对LGC地区的评价结果，以及1月13日、1月29日和2月4日的三张不同的参考图像。从表格中观察到的指标显示，GAN-STFM模型的可比组之间略有差异，而其他三个模型的性能有显著差异。评价结果如Fig.10所示，直观地再次确认结论。

四种融合模型的性能都有不同的颜色。方框的顶部和底部分别表示具有不同引用的测试组之间的最大值和最小值。穿过这些方框的垂直线是每个测试组的平均值。显然，GAN-STFM模型可以在不同的参考文献中一致地进行高精度的预测，而其他模型则表现出一定的大波动，特别是对于STARFM模型。

Fig.11和Fig.12分别显示了GAN-STFM在CIA和LGC区域的融合结果。参考10月17日对CIA地区的预测和参考1月13日对LGC地区的预测产生的误差最高，但总体而言，生成的图像、误差图和NDVI在视觉上看起来非常相似。因此，它可以安全地得出结论，GAN-STFM可以像传统方法那样，使用任意精细分辨率的参考图像进行时空融合。

结论

目前，现有的时空融合模型几乎需要至少3张图像作为输入，并将刚性时间约束应用于参考图像的选择，以保证融合精度。为了提高融合模型的可用性，提出了一种基于CGAN的融合模型GAN-STFM，通过归一化技术减少模型输入，减少对模型输入的限制。实验表明，从定量评价和视觉检查表明，所提出的GAN-STFM模型可以与现有的融合模型竞争。当对GAN-STFM模型放置不同的参考图像时，对融合结果的影响很小。由于更少的输入和更少的限制，GAN-STFM显示出更多的灵活性，并在实际数据生产方面具有相当有前途的前景。

经过多年的研究和发展，时空融合的精度随着时间的推移而逐渐提高，但必须承认，进一步的改进越来越困难。我们认为，未来应进一步关注时空融合模型的鲁棒性和可用性。本文从一个角度出发，试图通过提出对引用不敏感的机制来降低对模型输入的需求，来提高模型的可用性。我们未来的工作将主要致力于设计能够自动处理一定程度的输入噪声的先进模型，提高模型的鲁棒性。