多聚焦融合：科普类，对知识的总结

Multi-focus image fusion: A Survey of the state of the art

（多焦点图像融合: 对最新技术的调查）

一组部分聚焦图片融合生成全焦点图片，将现有方法分为四个主要类别: 转换域方法，空间域方法，转换域和空间域相结合的方法以及深度学习方法。

介绍

近年来多聚焦图像发展迅猛的主要因素是：信号/图像处理和分析理论的快速发展，例如稀疏表示和深度学习。
本文的主要目标是为多焦点图像融合提供全面的调查。

贡献

全面概述了现有的多焦点图像融合方法。为了跟上该领域的最新发展，提出了一种新的分类法，将现有的融合方法分为四大类: 转换域方法，空间域方法，转换域和空间域相结合的方法以及深度学习方法。

方法

图像融合方法的典型分类法是将它们分为两类: 变换域方法和空间域方法。

变换域方法由三个主要阶段组成，即图像变换、系数（coefficient）融合和逆变换。
首先，通过应用图像分解/表示方法将源图像转换为变换域。然后，通过预先设计的融合策略将转换后的coefficient进行融合，融合策略包括活动水平测量，融合规则和一致性验证。最后，通过对融合后的coefficient进行相应的逆变换来重建融合后的图像。

根据应用的图像变换，变换域方法可以进一步分为基于多尺度分解 (MSD) 的方法，基于稀疏表示 (SR) 的方法，基于梯度域 (GD) 的方法，基于其他变换的方法以及基于不同变换组合的方法。

在空间域方法中，利用图像的某些空间特征，将源图像融合在空间域中。与变换域方法相比，空间域方法最突出的特征是它们不包含用于重建融合图像的逆变换阶段。某些空间域方法可能会将图像变换技术 (例如小波变换和稀疏表示) 应用于活动水平测量，但是它们不需要执行逆变换。在空间域方法中，一般的目标是为每个源图像生成权重图，并将融合后的图像计算为所有源图像的加权平均值。

根据采用的像素处理方式，空间域方法可以进一步分为基于块的方法、基于区域的方法和基于像素的方法。

组合方法旨在整合变换域方法和空间域方法的优势。在这类方法中，通常需要使用聚焦区域检测方法将图像划分为具有确定聚焦特性的区域和具有不确定聚焦特性的区域。使用空间域方法融合具有确定焦点属性的区域，而使用变换域方法融合具有不确定焦点属性的区域 (通常位于聚焦区域和散焦区域之间的边界处)。

根据融合过程中变换域部分和空间域近年来，深度学习方法已成为多焦点图像融合领域中一个非常活跃的方向。具有深度架构的神经网络已被广泛验证具有强大的特征表示能力，这对于包括图像融合在内的各种基于图像和视觉的任务非常有帮助。目前，包括卷积神经网络 (CNNs) 和生成对抗网络 (GANs) 在内的深度学习模型已成功应用于多焦点图像融合。根据所采用的模型的类型，深度学习方法可以进一步分为基于分类模型的方法和基于回归模型的方法。对每一类多焦点图像融合方法的详细综述如下。部分之间的关系，这些组合方法可以进一步分为串行和并行。

近年来，深度学习方法已成为多焦点图像融合领域中一个非常活跃的方向。具有深度架构的神经网络已被广泛验证具有强大的特征表示能力，这对于包括图像融合在内的各种基于图像和视觉的任务非常有帮助。目前，包括卷积神经网络 (CNNs) 和生成对抗网络 (GANs) 在内的深度学习模型已成功应用于多焦点图像融合。根据所采用的模型的类型，深度学习方法可以进一步分为基于分类模型的方法和基于回归模型的方法。对每一类多焦点图像融合方法的详细综述如下。

变换域方法（Transform domain methods）

Multi-scale decomposition (MSD)-based methods（基于多尺度分解 (MSD) 的方法）

随着图像金字塔和小波等多分辨率分析理论的兴起，多焦点图像融合的研究可以追溯到20世纪80年代和20世纪90年代。从那时起，基于多尺度分解 (MSD) 的研究一直是多焦点图像融合领域的主流。除金字塔和小波外，多尺度几何分析 (MGA) 理论在多焦点图像融合方面也取得了巨大成功，这是因为与传统的金字塔和小波相比，它们在特征表示方面具有更好的能力。此外，在多焦点图像融合中也采用了其他一些多尺度图像分解方法，例如基本细节分解和经验模式分解 (EMD)。

1) 基于金字塔的方法
1985年，Burt和Adelson首次提出了基于拉普拉斯金字塔 (Laplacian pyramid (LP)) 的多焦点图像融合方法。在他们的方法中，将分解的coeﬃcient的绝对值用作其活动水平度量，并应用最大选择 (即选择-最大) 规则来获得融合的coe- ﬃcient。

介绍了一种基于方向滤波的梯度金字塔 (gradient pyramid(GP) ) 模型，用于多焦点图像融合。在这种方法中，将coeﬃcient的局部能量 (定义为局部小窗口内其周围coeﬃcient (包括自身) 的平方和) 用作其活动度量。提出了一种基于自适应局部相似性的coeﬃcient 融合规则，其中当两个源coe ﬃ 之间的局部相似性较大时采用加权平均规则，而当相似性较小时采用最大选择规则。这种融合策略在随后的图像融合研究中经常使用。

Bogoni和Hansen 提出了一种基于滤波器-减法-抽取 (ﬁlter-subtract-decimate (FSD)) 金字塔的多焦点图像融合方法，该金字塔是LP的计算有效变化。他们通过应用YUV色彩空间扩展了彩色图像融合的方法。有学者提出了一种基于梯度的金字塔分解方法，用于多焦点图像融合。与大多数基于MSD的方法不同，又提出了一种 “融合然后分解” 技术，以获得不同比例的融合带，并最终重建融合图像。
最近，针对基于金字塔的多焦点图像融合，提出了一些改进的融合策略。Jin等人应用自适应脉冲耦合神经网络 (pulse coupled neural network (PCNN)) 模型来测量LP coeﬃcient 的活动水平。Kou等人提出了融合LP子带的区域镶嵌策略。

2) 基于小波变换的方法（Wavelet-based methods）

Li等人首先将离散小波变换 (discrete wavelet transform (DWT)) 引入图像融合领域。他们提出了一个影响深远的融合策略框架，包括三个步骤，即活动水平测量，融合规则和一致性验证。在这个的方法中，将局部小窗口内的最大绝对值用作活动度量，并将最大选择规则应用于融合小波coeﬃcient。最后，采用多数过滤器通过根据邻居的值调整coeﬃcient的值来完善上面获得的二进制决策图。此后处理步骤称为图像融合中的一致性验证。但是，对于特征表示，DWT并非移位不变。

作为图像融合中最重要的属性之一，移位不变性是设计有效的融合策略以避免在嘈杂和错误配准区域中产生不良视觉效果的主要保证。为了解决这个问题，已经将小波的许多移位不变扩展应用于多焦点图像融合。

Rockinger等人提出了一种基于移位不变DWT (shift invariant DWT (SIDWT)) 模型的图像融合方法，比传统的基于DWT的方法具有更好的结果。Hill等人介绍了一种基于双树复小波变换 (dual-tree complex wavelet transform (DTCWT)) 的多焦点图像融合方法，该方法可以提供近似位移不变性和方向选择性 (与传统DWT相比的另一个重要优势)。Li等人提出了一种基于离散小波帧变换 (discrete wavelet frame transform (DWFT)) 的多焦点图像融合方法，以获得移位不变分解。De和Chanda提出了一种使用形态小波变换 (morphological wavelet transform (MWT)) 的多焦点图像融合方法，该方法本质上是通过包括膨胀和侵蚀在内的形态操作构造的DWT的非线性扩展。Chai等人介绍了一种基于提升平稳小波变换 ( lifting stationary wavelet transform (LSWT)) 的多焦点图像融合方法，该方法还可以同时具有非线性和位移不变性。改善基于小波的多焦点图像融合表示的其他工作包括基于冗余小波变换 (redundant wavelet transform (RWT)) 的方法，基于四元数小波变换 (quaternion wavelet transform (QWT)) 的方法，基于多小波的方法，基于log-Gabor小波的方法、基于小波滤波器组的方法等。

除了对基于小波的表示的改进之外，在基于小波的融合中广泛探索的另一个方向是开发有效的融合策略。与基于金字塔的方法一样，基于小波的方法中经常使用的常规融合策略包括基于coefficient和基于窗口的活动水平测量，基于加权平均和最大选择的融合规则以及基于图像滤波的一致性验证。近年来，已经开发了一些先进的融合方案，以追求更好的融合效果。Lewis等人通过应用图像分割算法，将基于DTCWT的融合中的基于像素的策略扩展到基于区域的策略。Tian等人利用小波coefficient分布的扩展，提出了一种统计清晰度度量，用于基于小波的多焦点图像融合。Aymaz和Kose 介绍了一种基于主成分分析 (PCA) 的方案，用于基于平稳小波变换 (SWT) 的多焦点图像融合。基于小波的方法中使用的其他融合策略包括基于PCNN的方法，基于支持向量机 (SVM) 的方法，基于fisher分类器的方法，基于模糊集的方法等。

3) 基于MGA的方法（MGA-based methods）
用于图像表示的小波变换的一个主要缺点是在2D空间中捕获方向信息的能力有限。结果，从信号稀疏的角度来看，大多数小波变换都无法获得图像的最佳表示。为了解决这个问题，研究人员提出了一系列包括curvelet，contourlet和shearlet的MGA方法，这极大地促进了图像融合的发展。
Yang等人使用传统的基于窗口的活动度量和最大选择融合规则将非子采样contourlet变换 (nonsubsampled
contourlet transform (NSCT))引入图像融合领域。Zhang和Guo [在基于nsct的多焦点图像融合方面进行了另一项早期工作，其中设计了一种改进的融合策略，该策略共同利用了每个尺度上不同方向带的coeﬃcient。Miao等人将shearlet变换 (nonsubsampled contourlet transform (NSCT)) 引入图像融合。就像contourlet变换 (CT) 一样，ST还可以获得高质量图像的多尺度和多方向表示。它们之间的主要区别在于，CT中使用的定向滤波器被ST中的剪切滤波器所取代，从而对方向数量没有限制，并且计算效率更高。为了实现移位不变特性，随后将非次采样shearlet变换 (NSST)和复数shearlet变换 (CST) 应用于多焦点图像融合。除了contourlet和shearlet之外，在多焦点图像融合中也采用了其他一些MGA方法，包括curvelet，survelet，ripplet。此外，融合策略的设计构造了基于MGA的融合方法研究中的另一个关键组成部分。Li等 [56] 提出了一种基于多尺度曲率的NSCT域多焦点图像融合方案。曲等介绍了一种基于PCNN的融合策略，用于基于NSCT的图像融合。NSCT频带的空间频率 (SF) 被馈送到PCNN以获得活动水平测量值。从那时起，PCNN及其改进版本 (如尖刺皮层模型 (SCM)) 已成为基于MGA的多焦点图像融合中设计融合策略的流行方法，并提出了许多相关方法。

4) 基于基础细节分解的方法（Base-detail decomposition based methods）
2013年，Li等人提出了一种新的图像融合的二尺度分解方法。通过简单的平均滤波器将每个源图像分解为包含大规模变化的基础层和包含小规模细节的细节层。基础层和细节层通过加权平均策略分别融合，其中应用引导滤波 (GF) 技术来细化权重图。最后，通过融合的基础层和融合的细节层重建融合的图像。该方法在融合性能和计算效率方面均优于许多基于MSD的常规方法。Zhao等人通过在空间域中设计邻居距离滤波器，提出了一种多焦点图像融合方法，该方法可以将图像迭代分解为不同尺度的基础层和一组细节层。此后，提出了几种基于基础细节分解的多焦点图像融合方法。Dong等人提出了一种基于三尺度分解 (一个基础层和两个细节层) 的融合方法，并应用了多通道PCNN模型来融合细节层。Bavirisetti和Dhuli在基细节分解框架下引入了基于显著性检测的融合策略。Zhang等人提出了一种使用交替引导滤波进行多焦点图像融合的基础细节分解方案。Wang等人通过基于随机游走 (RW) 的方案提出了一种多焦点图像融合方法，该方案涉及基细节分解和权重图构建。Zhou等人应用邻域距离滤波器得到了源图像的基-细节分解，提出了基于sum-modifiedLaplacian (SML) 和引导滤波的融合方案。

5) 基于EMD的方法（EMD-based methods）
与基于傅立叶或小波的信号分解方法不同，该方法将信号投射到一组固定的基础上，EMD是一种完全数据驱动的技术，它将信号分解成它们的自然比例分量，称为固有模式函数 (imf) 。Chen等人介绍了一种基于EMD的多焦点图像融合方法，通过应用固定筛选过程，他们采用SVM模型进行焦点检测。Looney和Mandic 指出了基于EMD的图像融合中存在的主要难题：不能保证不同来源的分解在数量或性质上都是匹配的。为了克服这个问题，他们应用了复杂的EMD模型来同时分解两个源图像 (分别作为输入的实部和虚部)。出于同样的原因，Rehman等人将多变量EMD (MEMD) 模型引入图像融合领域。EMD用于图像融合的另一个问题是原始EMD模型用于1D信号分解。Yang等人提出了一种基于二维EMD (BEMD) 模型的多焦点图像融合方法，该模型专门为2D图像分解而设计。Qin等人引入了窗口EMD (WEMD) 模型作为BEMD的一种改进形式，用于多焦点图像融合。

基于稀疏表示 (SR) 的方法（Sparse representation (SR)-based methods）

通过解决信号的自然稀疏性，SR被认为符合人类视觉系统的生理特征。SR的基本假设是，信号可以近似表示为来自冗余字典的 “几个” 原子的线性组合。在过去的十年中，基于SR的方法已迅速成为图像融合领域中具有影响力的分支。Yang和Li首先将SR引入了多焦点图像的图像融合中。在他们的方法中，应用滑动窗口技术将每个源图像划分为多个重叠的补丁，并使用正交匹配追踪 (OMP) 算法对每个补丁独立地执行稀疏分解。然后，将稀疏coe ﬃ 有效向量的L1-norm用作活动度量，并采用最大选择融合规则来获得融合的稀疏coefficient有效向量。最后，通过融合的稀疏向量和字典重建融合的补丁。为了构建整个融合图像，将所有融合的补丁粘贴在其相应的位置，并且重叠像素的强度值以其累积时间取平均值。Yang和Li 通过采用同时OMP (SOMP) 算法进一步改进了该方法，该算法可以保证在相同位置的源补丁由字典中的相同原子子集表示。他们还用基于机器学习的字典代替了中使用分析模型 (例如DCT基) 构建的字典，该字典是通过k-svd算法从大量自然图像补丁中学习的。
Chen等人提出了基于区域的稀疏coeﬃcient 融合策略。将图像分割方法应用于清晰度增强图像，该图像通过将清晰度信息 (从稀疏向量获得) 注入源图像的平均值来创建。分段区域用于指导源稀疏coefficent 的融合。Jiang和Wang提出了一种利用形态分量分析 (MCA) 模型的基于多分量SR的图像融合方法，该方法可以分别获得源图像的卡通和纹理分量的稀疏表示，根据不同组件的特性，在设计更有效的融合策略时具有更高的灵活性。Liu等人介绍了一种用于图像融合的自适应稀疏表示 (ASR) 模型。ASR模型不是为SR学习单个高度冗余的字典，而是基于不同的梯度方向学习一组更紧凑的子字典，这可以减轻高度冗余的字典在处理噪声图像时的di ﬃ。在融合过程中，根据源图像补丁的梯度信息自适应地选择一个子字典。Yin等人提出了一种基于SR的图像融合的联合字典构造方法。在他们的方法中，稀疏coeﬃcients是通过批处理OMP算法计算的，并且通过同时考虑L1-norm和L0-norm来测量图像补丁的活性。马等人提出了一种基于联合稀疏表示 (JSR) 的多焦点马ge fu方法，其中分别解决了源i马的冗余和互补分量。此外，提出了一种基于优化的融合策略来获得融合的稀疏coeﬃcient。为了克服常规SR方法采用基于补丁的方式的缺陷，Liu等人提出了一种基于融合方法的卷积稀疏表示 (CSR) ，该方法可以获得整个图像的SR。由于全局优化的单值表示和CSR的移位不变性，基于CSR的方法在细节保存和对错误注册的鲁棒性方面显示出优势。值得注意的是，存在一些融合方法 [90-93]，它们在融合过程中采用SR进行活动水平测量，但它们不包含稀疏重建过程。根据上述分类原则 (也符合基于SR的图像融合调查 )，本文将这些方法分为空间域方法，并将在后面讨论。

基于梯度域 (GD) 的方法（Gradient domain (GD)-based methods）

基于GD的图像融合方法的基本思想是融合源图像的梯度表示，然后通过将其梯度限制为融合的梯度来重建融合图像。Piella提出了一种基于结构张量的梯度域图像融合的变分方法。将源图像堆叠成多值图像，并根据每个源图像的梯度图计算其结构张量 (2乘2矩阵，而每个元素是梯度图)。结果，结构张量包含了所有源图像的组合梯度信息，目标梯度可以用结构张量的特征值和特征向量来表示。该方法采用结构张量的加权版本，以获得更好的性能，并且将每个源图像的权重图简单定义为其归一化梯度幅度。最后，通过最小化融合图像的梯度与从加权结构张量获得的目标梯度之间的差异，以优化形式重建融合图像。Hong等人通过对其动态范围添加约束，引入了一种用于多焦点图像融合的改进目标梯度。Zhou等人提出了一种基于多尺度的方案来计算加权结构张量中使用的权重图。在他们的方法中，首先应用大规模聚焦度量来衰减各向异性模糊和错误配准对聚焦区域检测的影响，然后使用小规模聚焦度量来确定聚焦区域和散焦区域之间边界周围的权重。除了结构张量外，一些显式梯度融合模型也已应用于多焦点图像融合。Sun等人。提出了一种基于加权平均的方案，用于在每个单独方向上融合梯度。通过计算高斯卷积梯度幅度上的softmax函数来初始化权重，并通过基于马尔可夫随机场 (MRF) 的模型进行细化。最后通过在融合梯度场上求解泊松方程来重建融合图像。Paul等人引入了基于最大选择的方案来估计每个方向上的融合梯度以进行重建。

基于其他变换的方法（Methods based on other transforms）

除上述图像变换方法外，还包括其他一些变换，例如独立分量分析 (ICA)，高阶奇异值分解 (HOSVD)，离散余弦变换 (DCT)，压缩感知 (CS) 和卡通纹理分解 (CTD) 也已成功应用于多焦点图像融合。2007年，Mitianoudis和Stathaki 提出了一种基于ICA的图像融合方法，该方法将图像分解为ICA基。具体而言，采用滑动窗口技术将每个源图像划分为多个补丁，并将每个补丁分解到ICA域。将变换coe ﬃ 元件融合，然后重建融合的斑块。最后，通过对重叠的图像块进行平均来重建融合图像。请注意，Stathaki提出的基于滑动窗口的融合方案对如上所述的基于SR的图像融合的研究具有重大影响。Liang等人介绍了一种基于HOSVD的图像融合方法，该方法还采用了基于滑动窗口的 “分解-融合重建” 框架。在他们的方法中，对级联图像块 (即子张量) 执行HOSVD，并将变换后的coe ﬃ 的绝对值之和用作活动水平测量。应用类似sigmoid函数的融合规则来组合转换后的coe ﬃ。Luo等人提出了一种基于边缘强度的锐度度量，用于基于HOSVD的多焦点图像融合。融合策略是基于sigmoid函数和边缘强度度量同时设计的。
Tang提出了一种基于DCT域中定义的对比度度量的多焦点图像融合方法，用于JPEG格式的图像。由于DCT是JPEG压缩的核心技术，因此可以轻松地将融合过程合并为JPEG编码过程和JPEG解码过程。因此，当要融合的图像以JPEG格式保存或融合的图像将以JPEG格式保存时，基于DCT的融合方法可以提供很高的计算效率。近年来，已经提出了几种基于DCT的多焦点图像融合方法，着重于设计有效的融合策略。Haghighat等人提出了用于多焦点图像融合的DCT域中基于方差的活动度量。他们应用了基于多数过滤器的一致性验证方法来完善决策图。Phammila和Amutha在DCT域中引入了一种基于更高值交流电coeﬃcients方案的活动度量，用于多焦点图像融合。Cao等人提出了一种应用空间频率测量DCT coeﬃcient 因子活性的DCT域融合方法。最近，已经提出了一些在CS域中执行融合过程的融合方法。此类方法首先通过测量矩阵将源图像转换为CS域。然后，将获得的源测量值与一些预先设计的策略 (例如基于熵的加权平均和基于局部能量的加权平均) 融合。最后，基于测量矩阵，正交矩阵和合并测量值，采用稀疏重建方法获得融合图像。Zhang等人提出了一种基于CTD的多焦点图像融合方法。在他们的方法中，首先将每个源图像分解为卡通分量和纹理分量。然后，采用基于滑动窗口的融合方案，使用图像梯度的能量作为活动度量。最后，通过融合的卡通分量和融合的纹理分量重建融合的图像。Liu等人介绍了一种改进的基于MCA的CTD多焦点图像融合方法。他们还提出了一种基于方差的卡通成分融合策略，以及一种基于能量和结构相似性的纹理成分融合策略。Li等人提出了一种基于CTD多级MCA模型和支持向量机模型的多焦点图像融合方法。

基于不同变换组合的方法（ Methods based on the combination of diﬀerent transforms）

不同变换有各自的特点。基于不同变换的组合，提出了一些多焦点图像融合方法，以整合各自的优势。Li和Yang 等人通过结合curvelet变换和小波变换引入了一种混合多尺度方法，以克服应用每个个体的缺点。将源图像转换到curvelet域以捕获更多的边缘信息，并使用小波变换融合curvelet coeﬃcients以提取更多的小细节。Liu等人通过结合多尺度变换 (MST) 和SR提出了一种图像融合的通用框架，以克服它们各自的缺陷。采用基于SR的融合方案来融合MST的低通带以保留图像能量。与基于SR的方法相比，基于MST的框架可以更有效地提取空间细节。Yang等进一步提出了一种改进的基于NSCTSR的融合方法，引入了基于聚类PCA的SR联合字典学习方案，并设计了用于高通带融合的形态学聚焦度量。Vishwakarma和Bhuyan 介绍了一种基于mst-csr的融合方法，其中提出了一种用于图像分解的可调NSST模型，并通过基于CSR的融合方案融合了低通带。Liu和Wang 通过引入用于MSD的多尺度剪切非局部引导平均 (MSNLGA) 滤波器并应用CSR模型融合细节子带，提出了一种多焦点图像融合方法。Zhu等人提出了一种基于CTD的图像融合方法，其中纹理分量通过基于SR的融合方案进行融合。表1总结了变换域多焦点图像融合方法，包括所采用的图像变换，活动水平测量和融合规则。、

空间域方法

1）基于块方法（Block-based methods）
2001年，Li等人首先介绍了一种基于块划分方案的空间域多焦点图像融合方法，其中每个源图像被划分成若干具有固定大小的块。将空间频率用作每个块的活动水平测量，并使用基于阈值的自适应融合规则来获得融合块。在应用主要的基于过滤的一致性验证方法之后，最终构建了融合图像。此后，基于块的方法已成为多焦点图像融合的积极方向，并且在活动水平度量，融合规则，块划分策略等方面进行了多种改进。Huang和Jing 提出了一组多焦点图像融合中经常使用的焦点度量的评估，包括方差，梯度能量 (EOG)，拉普拉斯能量 (EOL)，和-修改拉普拉斯能量 (SML)，空间频率 (SF) 等。他们还提出了一种基于块融合的EOL和PCNN组合活动水平测量，从而在多焦点图像融合中产生了一种流行的方案 (即，将传统焦点测量与PCNN模型相结合) 。Zhan等人提出了一种基于相位一致性 (PC) 的聚焦量度，用于融合多焦点图像。基于DCT的活动水平测量也已应用于基于块的多焦点图像融合。除了开发更有效的活动度量外，一些研究人员还尝试应用多种活动度量来代替上述基于单个度量的方式，并设计相应的分类模型作为融合规则来组合源图像块。Li等人提出了一种基于神经网络的规则，通过包括SF，可见性和边缘特征在内的活动度量来确定源图像块的焦点属性。Kausar和Majid引入了随机森林作为分类器，用于基于九个常用的局部特征 (例如可见性，SF，方差，EOG，基于DWT的特征和基于DCT的特征) 确定焦点属性。基于多数投票的分类方案也被采用在这一类融合方法。上面提到的所有基于块的融合方法都基于经验设置的固定块大小。显然，块大小对最终融合结果具有至关重要的影响。基于固定大小的方式很可能在融合图像中引入不良的阻挡效果。为了解决这个问题，研究人员提出了一些改进的块划分策略。Zhang等应用遗传算法获得了多焦点图像融合的最优块尺寸。遗传算法将块大小设置为要优化的2D变量 (高度和宽度)。通过采用适当的适应度函数作为目标，可以从具有多个世代初始化的随机值中获得最佳解决方案，其中包含诸如交叉，突变和选择之类的操作。Aslantas和kyurban提出了一种基于差分进化算法的相似块尺寸优化方法，用于多焦点图像融合。其他进化计算算法，例如粒子群优化，基于生物地理学的优化和人工蜂群，也已用于基于块的多焦点图像融合。但是，在这些基于优化的方法中，对于给定的图像，通过优化算法获得的块大小仍然是固定的，这仍然可能导致块效应。为了解决这个问题，De和Chanda 应用四叉树结构来实现多焦点图像融合的自适应分块。给定图像中不同块的大小不同，并由其中的特定内容决定。Bai等还提出了一种基于四叉树的多焦点图像融合方法，该方法具有改进的四叉树分解策略和基于SML的聚焦度量。

在上面介绍的基于块的方法中，每个块的融合是独立于其他块执行的。还有一些基于块的方法专注于融合过程中不同块之间的关系。Wu等人提出了一种基于重叠块划分的多焦点图像融合方法，并采用隐马尔可夫模型 (HMM)，既考虑了当前块的清晰度，又考虑了与其相邻块的兼容性。Guo等人提出了一种基于块的多焦点图像融合方法，其中根据两个块之间的相似性构造每个块的自适应区域。对于每个自适应区域，共同使用SML和深度信息来定义融合的活动度量。Zhang和Levine提出了一种多任务鲁棒稀疏表示模型，用于获得多焦点图像融合的活动度量。在他们的方法中，将一个图像块及其8个连接的邻居共同分解，以获得稀疏coeﬃcient 和用于活动度量计算的重建误差。

2）基于区域的方法（Region-based methods）
为了进一步提高源图像分割的灵活性，研究人员开发了具有图像分割技术的基于区域的空间域融合方法。基于区域的方法的框架与基于块的方法相似，而主要区别在于活动水平度量是在每个分割区域中以不规则的大小而不是块进行的。Li等人首先介绍了一种基于区域的多焦点图像融合方法与基于PCNN的分割方法。为融合设计了一种共同采用显著性和可见性的活动度量。Li和Yang提出了一种基于归一化分割和基于SF的聚焦度量的多聚焦图像融合方法。Hao等人提出了一种基于mean shift分割方法的多焦点彩色图像融合方法，并采用SML作为活动度量。Yang和Guo 应用分水岭算法将源图像分割为多个超像素进行多焦点图像融合。Duan等人介绍了基于线性光谱聚类 (LPC) 的分割方法，用于多焦点图像融合，并将分割的超像素与基于SR的活度度量进行融合。他们还提出了一种增强的基于LPC的分割方案，该方案使用灰度和深度信息进行多焦点图像的融合。Huang等人提出了一种基于代数多网格的多焦点图像融合方法，该方法同时涉及基于块和基于区域的方法的特征。具有不确定焦点特性的块被进一步分割成超像素，以实现更精确的融合。

3）基于像素的方法（Pixel-based methods）

近年来，基于像素的空间域方法由于其在获得精确的像素加权图进行融合方面的优势而成为多焦点图像融合中最受欢迎的方向。大*多数基于像素的方法都是在线性加权和框架下设计的，即将融合图像计算为所有源图像的加权和，核心问题是获得每个源图像的权重图。*在这些方法中，首先将活动水平测量 (也称为多焦点图像融合中的焦点测量) 用于评估源图像中像素的显着性。然后，比较从不同源图像获得的焦点度量，以生成像素权重图。在大多数情况下，权重图也被称为决策图，因为多焦点图像融合可以被视为一个分类问题，其中每个像素的焦点属性 (即聚焦或散焦) 被确定。对于某些融合方法，直接使用权重图来获得融合图像。然而，为了获得更准确的权重或分类结果，更多的方法试图通过增加一致性验证步骤来细化上面获得的权重或决策图，其中使用频率最高的是各种图像滤波技术。在这种情况下，细化之前和之后的权重/决策图通常分别表示为初始权重/决策图和最终权重/决策图。与用于生成初始权重/决策图的先前融合规则相比，最终融合规则可以保持相同 (例如，两者都是最大选择或加权平均) 或进行改变 (例如，从最大选择到加权平均)。此外，还有一些基于像素的方法旨在通过设计更复杂的融合规则来提高融合性能。例如，一些方法将源图像划分为具有不同属性 (例如，聚焦/散焦/边界，纹理/平滑) 的区域，并根据其各自的特征采用不同的融合规则。

传统的活动水平测量，如方差，SF，EOG，EOL，SML也经常用于基于像素的空间域方法。此外，还有许多基于像素的方法采用变换域方法中使用的图像分解方法作为焦点度量，例如QWT，NSCT，ND滤波，ICA，SR，鲁棒主成分分析 (RPCA) 、结构张量等.一些基于像素的方法设计或应用更高级的特征提取模型，以获得稳健的聚焦度量。典型示例包括基于LBP的方法，基于可操纵局部频率的方法，基于密集SIFT的方法，基于表面积的方法，基于边缘模型的方法，基于显着结构的方法，基于Hessian矩阵的方法等。最后，许多基于像素的方法试图通过一些图像滤波方法通过计算原始源图像与其平滑或增强版本之间的差异图像来获得焦点度量。对于融合规则，最大选择和加权平均仍然是基于像素的融合方法中使用最广泛的规则。如上所述，一些基于区域属性的自适应规则也出现在这个方向上流行的方式。这些方法的基本假设是，具有不同属性的区域应通过不同的规则进行合并。一种常见的方法是将源图像分为聚焦区域，散焦区域和边界区域，边界区域的融合通常需要更复杂的方案来提高融合图像的视觉质量。还有一些基于像素的方法将估计权重图的任务转换为求解优化问题，例如基于变分模型的方法，基于随机游走 (RW) 的方法，基于条件随机场 (CRF) 的方法，基于多消光模型的方法等。最后，采用极限学习机 (ELM) 和多项式logistic回归分类器等分类模型，根据预先提取的特征确定源像素的聚焦特性。大多数权重/决策图细化方法基于图像滤波技术，包括形态滤波，中值滤波，多数滤波，引导滤波，双边滤波，结构保留滤波，非局部均值滤波、概率滤波、迭代联合滤波 ] 等。另一种用于权重/决策图细化的流行技术是小区域去除，它也可以被视为广义上的形态过滤方法。形态滤波和统计滤波的主要目标是消除在初始决策图中很可能被错误分类的孤立区域，而边缘保留滤波器 (如引导滤波器和双边滤波器) 主要是为了使边界区域中的权重更加平滑和自然。基于像素的融合方法中使用的其他权重/决策图细化方法包括基于马尔可夫随机场 (MRF) 的方法，基于RW的方法，基于归一化切割的方法，基于局部特征匹配的方法，基于图形切割的，基于活动轮廓模型的等。除了上面介绍的最常用的线性加权和模型外，还有一些基于像素的空间域方法采用非线性方式来获得融合图像。Wang等人提出了一种基于PCNN的多焦点图像融合方法，该方法采用双通道PCNN，以源图像为输入，直接输出融合图像。Li等人介绍了一种基于特征注入的多焦点图像融合方式。通过将提取的特征导入到通过对源图像进行加权而获得的基础图像中，形成融合图像。此外，一些具有非线性融合框架的变分方法也被用于多焦点图像融合。

组合方法（The combined methods）

1）串行模式下的方法（Methods in serial mode）

Chai等人首先介绍了一种结合了变换域和空间域方法的多焦点图像融合方法。在他们的方法中，首先提出了一种使用LSWT的基于多尺度分解的融合方法，以获得称为初始融合图像的中间融合结果。然后，通过均方根误差 (RMSE) 来测量初始融合图像与每个源图像之间的相似性，该均方根误差旨在确定源图像中每个像素的聚焦特性。具体地，对通过比较rmse获得的决策图执行基于窗口的方案，以将图像划分为具有确定聚焦特性的区域和具有不确定聚焦特性的区域。具有不确定焦点属性的区域通常位于源图像中聚焦区域和散焦区域之间的边界周围。最后，具有确定焦点属性的区域通过决策图以空间域模式进行融合，而具有不确定焦点属性的区域的融合结果与通过基于LSWT的方法获得的初始融合图像相同。该策略的主要动机是，空间域模式可以使用 “剪切粘贴” 方式最大程度地保留聚焦区域中的原始信息，而变换域模式可以在视觉感知方面获得更好的融合效果。具有不确定焦点属性的边界区域。由于在 [200] 中使用的聚焦特性检测方法基于通过变换域方法获得的初始融合图像，因此可以将该组合方法视为以串行模式进行。此后，在此框架下提出了几种改进的组合方法。Li等人提出了一种基于多尺寸窗口的聚焦区域检测策略，并引入了用于相似性度量的相关系数 ﬃ。Yang等人提出了一种基于DTCWT的方法来获得初始融合图像，并采用块残差作为相似性度量。Yang等人提出了一种基于NSCT的方法来实现初始融合结果，并应用RMSE度量来检测聚焦区域。Li等人介绍了一种多尺度、多方向邻居距离滤波器作为分解方法来获得初始融合图像，并提出了一种基于差分图像的聚焦区域检测方案。Wang等人提出了一种基于基础细节分解的多焦点图像融合方法，用于生成初始融合结果，以及一种基于PCNN的聚焦区域检测方法。也有一些工作专注于使用上述类似框架将变换域融合模式和空间域融合模式相结合，但是通过变换域方法获得的初始融合图像并没有在最终融合图像中直接采用 (只是作为后续空间域融合过程的中间结果)。

2）Methods in parallel mode

除了上述以并行模式设计的组合方法之外，还有几种组合方法，其中焦点区域检测不依赖于通过变换域融合方法获得的初始融合图像。Zhang等人提出了一种基于视觉显著性的聚焦区域检测方法，用于多焦点图像融合。在他们的方法中，每个源图像被划分为聚焦区域和其他区域。将所有源图像的聚焦区域粘贴到融合图像中，而将所有其他区域与基于shearlet的融合方案融合。He等人提出了一种基于均值偏移算法和形态学处理的聚焦区域检测方法，以确定源图像中的聚焦区域和边界区域。将聚焦区域粘贴到融合图像中，并使用基于NSCT的方法融合边界区域。He等人介绍了一种组合多焦点图像融合方法，其中应用反向传播神经网络来找到源图像中的聚焦区域。

深度学习（deep learning）

1）基于分类模型的方法（Classiﬁcation model based methods）
Liu等人首先将卷积神经网络 (CNN)引入多焦点图像融合领域。在他们的方法中，设计了具有暹罗体系结构的面向分类的CNN，以学习从源图像到焦点图的直接映射，该焦点图集成了来自所有源图像的清晰度信息。通过这种方式，可以通过学习CNN模型来共同生成常规图像融合过程中两个关键步骤的活动水平测量和融合规则。阻止CNN用于图像融合的一个主要障碍是，大多数图像融合任务基本上没有地面真相。为了解决这个问题，作者通过应用多尺度高斯模糊来模拟散焦现象，创建了一个由清晰模糊的补丁对组成的大规模数据集，用于监督学习。网络中的全连接层在网络训练完成后转换为等效的卷积层，从而可以将任意大小的源图像作为一个整体馈送到网络中，以避免基于滑动窗口的补丁划分引入重复计算。对CNN得到的焦点图进行进一步处理，生成图像融合的最终决策图。此后，提出了几种共享类似框架的基于CNN的改进融合方法。Amin-Naji等采用了集成学习技术，以特征水平融合策略或决策水平融合策略来提高CNN模型的分类精度。Yang等提出了一种应用跳过连接技术提高网络特征提取能力的多级特征引导CNN。Tang等人提出了一种像素CNN模型，用于将每个源图像中的像素分为聚焦像素，散焦像素和未知像素。然后，采用空间域融合方法获得融合图像。Guo等人提出了一种基于全卷积网络的多焦点图像融合方法。与上述方法不同，整个图像用于网络训练，以输出与源图像大小相同的焦点图。为此，作者设计了一种基于高斯滤波的方法，用于从原始图像和聚焦/散焦的分割图合成源图像以进行监督学习，并将融合任务建模为类似分割的问题。最终通过基于完全连接的CRF方法来完善所获得的决策图。除了CNNs之外，生成对抗网络 (GANs)也被ma等人引入到图像融合中，其中提出了基于GAN的红外和可见光融合方法。对抗机制有助于从源图像中提取更多的语义信息，这些语义信息很难通过传统的内容损失函数以数学方式描述。Guo等人提出了一种基于最小二乘GAN (LSGAN) 的多焦点图像融合方法。发生器的输出是一个焦点图。除了具有地面真相决策图的二进制交叉熵损失外，还设计了判别器模型，以进一步提高输出与地面真相之间的相似性。在融合过程中，将生成器获得的聚焦图以二进制的方式进行分段，并进行细化，以实现融合的最终决策图。

2）基于回归模型的方法（Regression model based methods）

上述基于分类模型的方法的一个明显特点是融合框架不是端到端的。这些方法**通常需要一些源自基于像素的空间域方法的后处理步骤来获得最终的融合结果。**还有几种深度学习方法旨在学习从源图像到融合图像的端到端映射，这可以称为基于回归模型的方法。Xu等人提出了一种用于多焦点图像融合的全卷积两流网络，并采用高斯滤波来创建训练数据集。Zhao等人提出了一种基于CNN的多焦点图像融合多级特征处理机制。特征提取，融合和重建阶段均在不同级别进行。Zhang等人还提出了一种由特征提取、特征融合和特征重建阶段组成的端到端架构，用于多焦点图像融合。他们在通过高斯模糊生成训练数据集时应用深度信息，并采用感知损失进行网络训练。Li等人提出了一种用于提高多焦点图像融合特征提取能力的U形端到端卷积网络，其中设计了基于结构相似性 (SSIM) 的损失函数来训练网络。Lai等人提出了一种多尺度视觉注意卷积网络用于多焦点图像融合。他们应用扩张卷积操作来提取多尺度特征，并设计了一个空间注意模块来完善提取的特征。Wang等人提出了一种生成模型，通过显式融合来自不同源图像的显著表示，并提出了基于加权梯度流的策略来优化网络。Li等引入了全卷积网络对权重映射对进行回归，并通过加权求和直接获得融合图像。在权域和空间图像域同时设计损失函数。Li等提出了一种基于CNN的小波域多焦点图像融合方法。设计了两个端到端卷积网络，分别融合了高频和低频分量。除了上述基于监督学习的融合方法外，最近还提出了一些针对基于无监督深度学习的多焦点图像融合的工作。在这些方法中不再需要手动构造带标签的训练集的过程。Yan等人通过设计基于融合图像和源图像之间的SSIM测度的损失函数，提出了一种基于无监督CNN的多焦点图像融合方法。Mustafa等人将多尺度体系结构引入端到端CNN模型中，用于无监督的多焦点图像融合。提出了一种同时考虑像素差和SSIM的损失函数，用于网络训练。Jung等人提出了一种无监督深度图像融合方法，采用结构张量表示来测量融合图像和源图像在梯度域的差异，用于损失函数的设计。