MICCAI 2022 | CLFC:基于对比学习的多模态脑肿瘤分割与单模态正常脑图像的特征比较

MICCAI 2022 | CLFC基于对比学习的多模态脑肿瘤分割与单模态正常脑图像的特征比较

Multimodal Brain Tumor Segmentation Using Contrastive Learning Based Feature Comparison with Monomodal Normal Brain Images

摘要

已经提出了许多基于深度学习（DL）的脑肿瘤分割方法。他们中的大多数人强调阐述深度网络的内部结构，以增强学习肿瘤相关特征的能力，而其他有价值的相关信息，如正常的大脑外观，往往被忽视。受放射科医生在识别肿瘤区域时经常被训练为与正常组织进行比较这一事实的启发，在本文中，我们提出了一种新的脑肿瘤分割框架，通过采用正常脑图像作为参考，在学习的特征空间中与肿瘤脑图像进行比较。通过这种方式，可以突出和增强肿瘤相关特征，以实现准确的肿瘤分割。考虑到常规肿瘤脑图像是多模态的，而正常脑图像通常是单模态的，提出了一种新的基于对比学习的特征比较模块，以解决从多模态图像和单模态图像中学习到的特征之间的不可比性问题。在实验中，内部和公共（BraTS2019）多模态肿瘤脑图像数据集均用于评估我们提出的框架，在Dice评分、灵敏度和Hausdorff距离方面，与最先进的方法相比，表现出更好的性能。

1 Introduction

使用多模态磁共振（MR）图像进行脑肿瘤分割是后续诊断和治疗的重要任务。在过去几年中，已经提出了许多基于深度学习（DL）的分割方法，并取得了巨大成功。例如，Dong等人提出使用2D U-Net用于端到端脑肿瘤分割，其中引入soft Dice损失来处理不平衡的训练样本。为了利用体积信息和多尺度上下文信息，Kamnitsas等人提出了一个3D卷积神经网络（CNN），该网络具有称为DeepMedic的双通道架构，以同时从多尺度的肿瘤脑图像中提取特征。Wang等人[20]提出了TransBTS进一步将Transformers[17]集成到3D U-Net中，以构建长期依赖关系并学习全局语义特征，基于此可以增强分割性能。

尽管现有的基于DL的方法已显示出很有希望的结果，但大多数方法都侧重于通过阐述深度网络的内部结构来提高肿瘤相关特征的学习能力，而其他有价值的相关信息，如正常的大脑外观，往往被忽略[18，19]。众所周知，放射科医生经常接受培训，以便在识别肿瘤区域时与正常组织进行比较。在这一观察之后，异常检测已被引入肿瘤分割。这些方法将病理图像与自动编码器重建的各自正常外观图像进行比较[16]。通过这种方式，病理区域可以被突出显示并容易地分割。注意，现有的基于异常检测的方法通常使用单模态[2]。然而，在脑肿瘤分割的背景下，常规肿瘤脑图像是多模态的，例如T1、T1 contrast-enhanced（T1c）、T2和FLAIR MR图像，而用于训练自动编码器的正常脑图像通常是单模态的，如T1 MR图像。将多模态图像与单模态图像进行比较是困难的，因此基于异常检测的方法不能直接应用于多模态脑肿瘤分割。

在本文中，我们提出了一种新的多模态脑肿瘤分割框架，其中采用单模态正常脑图像作为参考，并在特征空间中与多模态肿瘤脑图像进行比较，以提高分割性能。为了解决从不同模态学习的特征之间的不可比性问题，提出了一种新的基于对比学习的特征比较（CLFC）模块，以将从单峰正常脑图像（正常脑特征）学习的特征与从正常脑区域（即非肿瘤区域）的多模态肿瘤脑图像（肿瘤脑特征）中学习的特征对齐。通过这种方式，可以使用正常的脑特征作为参考来有效地突出和增强肿瘤脑特征中的肿瘤区域，即肿瘤相关特征。我们提出的框架使用内部和公共（BraTS2019）肿瘤脑图像数据集进行评估。

实验结果表明，在两个数据集中，我们提出的框架在Dice评分、灵敏度和Hausdorff距离方面都优于现有技术方法。我们工作的贡献可以总结如下：

–我们提出了一种新的多模态脑肿瘤分割深度框架，其中外部信息，即单模态正常脑图像，被用作参考，以推动分割性能。

–基于对比学习的特征比较（CLFC）模块旨在解决从多模态肿瘤脑图像和单模态正常脑图像中学习到的特征之间的不可比性问题。

1 Method

我们提出的框架由两个子网络组成：

1）分割主干网和 2）正常外观网络，如图所示.

分割主干的输入是多模态肿瘤脑图像，而正常外观网络以单模态（T1）正常脑图像作为输入。单模态正常脑图像由内省变分自动编码器（IntroVAE）从包含在输入多模态肿瘤脑图像中的T1模态生成。分割主干和正常外观网络由编码器和解码器结构组成，其中每个编码器由四个卷积层组成，随后是批归一化、ReLU和maxpooling层，每个解码器具有四个转置卷积层以执行上采样。在分割主干的末端，设计了一个额外的卷积层以产生最终的分割结果。在两个子网络中，在两个解码器的每一级l上，将分割主干学习的肿瘤脑特征F_T,l和通过正常外观网络学习的正常脑特征F_R，l 通过CLFC模块进行对齐和比较，产生F'_{T、 l}分割，它包含增强的肿瘤相关特征，使最终分割达到高精度水平。考虑到二维卷积的高计算效率以及3D空间信息的优势，将包含要分割的切片及其K个相邻切片（即2K+1个切片）的2.5D切片用作我们框架的输入。

2.1正常外观网络

如上所述，将输入的单峰正常大脑图像设置为T1 MR图像，这是临床常规背景下正常大脑成像的常用模式。代替使用来自健康受试者的正常脑图像，使用IntroVAE从包含在输入多模态肿瘤脑图像中的T1模态重建单峰正常脑图像。

这样，除了肿瘤区域，重建的正常大脑图像具有与原始肿瘤大脑图像相似的解剖结构。

The IntroVAE。IntroVAE将传统的VAE扩展到对抗性学习框架，通过该框架，重建的图像具有详细的结构。它由用于将输入脑图像投影到潜在分布的编码器和用于基于所学习的分布产生重建脑图像的解码器组成。在训练阶段，使用来自健康受试者的T1正常大脑MR图像来训练IntroVAE，通过该图像可以获得代表正常大脑外观的低维流形。在推断阶段，训练的模型将输入的肿瘤脑图像投影到流形上的某一点，这代表最接近的正常脑外观。最后，可以从该点重建相应的正常大脑图像。有关IntroVAE的更多详细信息，请参阅原始论文[8]。

基于重建的单峰正常大脑图像，可以在正常外观网络中学习正常的大脑特征。在正常外观网络中解码器的每一级，学习到的正常大脑特征F_R，l，l＝1，…，4被发送到分割主干作为参考，以增强分割性能（下面讨论）。

2.2分割主干分割

主干以级联的多模态肿瘤脑图像作为输入，并输出肿瘤分割结果。为了改进分割结果，在分割主干的每个解码级别，将学习的肿瘤脑特征F_T，l与学习的正常脑特征R_l，b进行比较，通过F_T，l中的哪些肿瘤区域，即那些肿瘤相关特征，可以被突出显示和增强。理想地，对于位于正常/肿瘤区域的位置x处的特征向量F_T，l（x），F_R，l（x）应在相应位置处具有一致/不一致的特征。这样，可以根据特征一致性有效地突出F_T，l中的肿瘤区域。不幸的是，在多模态脑肿瘤分割的上下文，F_T，l和F_R，l是无法比拟的（多模态与单模态）。

为了解决上述问题，我们提出了一个新的基于对比学习的特征比较（CLFC）模块，如图1b所示。CLFC模块由两个主要步骤组成。第一步是特征对齐，其中采用两个1×1分辨率层ζ和g来对齐正常区域的FT，l和FR，l。因此，正常区域的特征向量在ζ(F_T,l)和 g（F_R，l）中是一致的。

为了实现有效的特征对齐，采用了一种称为简单孪生网络（SimSiam）[4]的对比学习方法（见图1c）。SimSiam网络由编码器F、投影MLP K和预测MLP H组成。它将每个正样本对{I1，I2}（同类样本）作为输入，并最大化输出向量p1和v2的余弦相似性

||·||2是L2范数。在我们的框架中，特征向量对{F_T，l（x），F_R，l（x）}，x∈ Ω_NR，其中Ω_NR表示正常区域，定义为正样本。注意，Ω_NR是根据训练数据集中手动标记的肿瘤掩模确定的。在CLFC模块中，ζ和g被视为SimSiam网络的编码器F，因此{ζ（FT，l）（x），g（FR，l））（x）}被发送到投影和预测MLP以计算余弦相似度。

SimSiam网络的损失定义为：

值得注意的是，SimSiam网络在训练阶段被使用，但在推理阶段被移除。此外，为了使分割主干专注于肿瘤分割而不是特征对齐，在ζ之前还应用了停止梯度操作，如图1b所示。

在特征对齐步骤之后，第二步是特征比较。由于对齐的F_T，l和F_R，l中的特征向量，即ζ（F_T，l）和 g（F_R，l），在正常区域是一致的，因此ζ（F_T，l）中的肿瘤区域可以很容易地使用g（F_R、l）作为参考来识别。具体而言，我们测量ζ（F_T，l）和g（F_R，l）之间的一致性，并识别低特征一致性的区域，即ζ（FT，l）在肿瘤区域与正常区域的g（FR、l），以生成关注图A_l。

通过使用A_l作为mask，可以增强F_T，l中的肿瘤相关特征。CLFC模块的整个过程可以概括为：

其中σ1是ReLU，σ2是S形激活函数，ψ是1×1卷积层，F·_{T、 l}是包含增强的肿瘤相关特征的CLFC模块的输出。最终分割结果Y由F`_T，4由分割主干中的最后一个卷积层进行。Y采用Dice损失[5]，我们框架的最终损失函数为L=L Dice+L Sim。

3 实验

内部和公共数据集用于评估我们提出的框架。具体而言，内部数据集包含104名胶质母细胞瘤患者的T1c，B0，平均扩散率（MD）和分数各向异性（FA）模态的多模态肿瘤脑MR图像。公共数据集是BraTS2019，其中包括335名胶质瘤患者的肿瘤脑T1、T1c、T2和FLAIR脑MR图像。

两个数据集中的每个患者都可以使用手动标记的肿瘤mask。使用仿射变换将所有图像与MNI152对齐，并通过直方图匹配进行归一化。除了我们的框架，还评估了最先进的分割方法nnU-Net。此外，还对我们的框架进行了消融实验。具体而言，基线-1仅使用我们框架的分割主干（没有正常外观网络），基线-2与我们的框架相似，但在训练期间，它在CLFC模块中没有对比学习（没有SimSiam网络）。对于两个数据集，采用五倍患者交叉验证来评估每种方法。

所有评估方法的输入均为K=2的2.5D切片，即五个切片。批量大小设置为4，最大epoch为300。肿瘤分割结果的准确性使用患者的Dice评分、灵敏度和95%Hausdorff距离（HD95）进行量化。所有方法都使用PyTorch实现，并使用RTX 3090 GPU进行训练。

值得注意的是，IntroVAE是用包含581个正常大脑T1 MR图像的公共数据集IXI单独训练的。具体来说，IntroVAE的编码器和解码器分别以1×10的-4次方和5×10的−3次方的学习速率迭代训练。批次大小和epoch设置为120和200。其他超参数，如损失函数中的权重项，与原始论文保持相同。

在集成到我们的框架中之后，IntroVAE的参数在我们的框架训练期间是固定的。此外，对于没有T1模态的内部数据集，我们采用肿瘤大脑T1c MR图像作为IntroVAE的输入，以获得重建的正常大脑T1 MR图像，由于T1c为T1血管内使用造影剂，两种模态在正常区域表现出相似的灰质和白质外观。

3.1分割结果的评估

图2显示了使用每种评估方法的肿瘤分割结果的一些示例。很明显，由于受益于使用正常大脑图像作为参考的特征比较，我们的框架可以检测细微的正常区域和肿瘤区域，仅使用肿瘤大脑图像很难区分，尤其是在图2中红色圆圈标记的区域。

评估结果的细节如表1所示，我们的框架在两个数据集中的Dice评分、灵敏度和HD95方面优于所有其他评估方法。采用患者明智的Wilcoxon符号秩检验来比较不同方法的Dice评分。对于内部/公共数据集，p值为0.0185/0.076（Ours vs.nnU Net），1.0320×10−4/2.7976 × 10−7（我们与基线-1的比较）和7.7959×10−4/4.9657 × 10−4（我们与比较基准2）。基线-2比基线-1实现了更好的分割精度，这表明正常外观网络在肿瘤分割中发挥了积极作用。但如果没有对比学习，FT、l和FR、l很难相互比较，使用Baseline-2的改进是有限的。我们的框架在CLFC模块中采用了用于特征对齐的对比学习，通过对比学习，FT、l和FR、l可以很好地对齐，并且分割性能显著提高。

3.2 基于特征比较的对比学习评估

在CLFC模块中，对比学习发挥着重要作用。为了使用对比学习直观地显示效果，ζ（FT，l）和g（FR，l）展示在图3中特征向量分布。

具体来说，特征向量分为三种类型：ζ（FT，l）中的肿瘤区域，ζ（FT，l）的正常区域，以及g（FR，l）内的正常区域。使用基于PCA的降维将所有特征向量投影到2D平面上。显然，与基线-2（无对比学习）相比，在我们的框架（有对比学习）中，ζ（FT，l）和 g（FR，l）中正常区域的特征向量可以更有效地对齐，并且与ζ（FT，l）的肿瘤区域的特征矢量更不同。结果，通过特征比较可以容易地识别肿瘤区域。

图4显示了在基线-2和我们的框架中每个解码级别产生的注意力图Al的一些示例。很明显，在我们的框架中生成的注意力图具有更集中的肿瘤区域，并且分割结果比基线-2更符合基本事实。

4结论

我们提出了一种新的多模态脑肿瘤分割框架，其中使用正常大脑外观的外部信息作为参考，以突出和增强肿瘤相关特征。此外，提出了一种基于对比学习的特征比较（CLFC）模块，以解决从多模态肿瘤脑图像和单模态正常脑图像中学习到的特征之间的不可比性问题，基于该模块，高质量的注意力图Al以及肿瘤相关特征F`_{T、 l}可以产生更好的分割结果。内部和公共BraTS2019数据集均用于评估我们的框架。实验结果表明，我们的框架在统计意义上优于最先进的方法，并且所提出的正常外观网络和所提出的CLFC模块都在分割中发挥了有效作用。由于CLFC模块对二值分割有效，因此我们的框架目前适用于整个肿瘤分割。在未来的工作中，我们将把我们的框架扩展到肿瘤亚区域的分割，例如水肿、增强肿瘤、坏死和非增强肿瘤核心。
分割中发挥了有效作用。由于CLFC模块对二值分割有效，因此我们的框架目前适用于整个肿瘤分割。在未来的工作中，我们将把我们的框架扩展到肿瘤亚区域的分割，例如水肿、增强肿瘤、坏死和非增强肿瘤核心。