AnatomyNet: Deep Learning for Fast and Fully Automated Whole-volume Segmentation of Head and Neck An

AnatomyNet: Deep Learning for Fast and Fully Automated Whole-volume Segmentation of Head and Neck Anatomy
AnatomyNet：用于快速和全自动全体积分割头颈部解剖结构的深度学习
发表期刊：Medical Physics(医学3区)
发表时间：2019年

Abstract

**Purpose: ** 放射治疗 (RT) 是头颈部癌症的常见治疗选择。RT计划涉及的一个重要步骤是基于HaN计算机断层扫描 (CT) 的风险器官 (oar) 的划分。但是，手动描绘器官非常耗时，因为需要单独检查每个CT图像切片，并且典型的CT由数百个切片组成。自动进行器官分割具有减少时间和提高RT计划质量的好处。现有的解剖学自动分割算法主要使用基于地图集的方法，这需要复杂的地图集创建，并且无法充分考虑患者之间的解剖学差异。在这项工作中，我们提出了一种端到端，无atlas的3D卷积深度学习框架，用于快速，全自动的整体积HaN解剖学分割。
Methods： 我们的深度学习模型，称为 AnatomyNet，以端到端的方式从头颈部 CT 图像中分割出 OAR，接收全体积HaN CT 图像作为输入，并在一次拍摄中生成所有感兴趣的 OAR 的掩码。 AnatomyNet 建立在流行的 3D U-net 架构之上，但在三个重要方面对其进行了扩展：1) 一种新的编码方案，允许对全体积 CT 图像进行自动分割，而不是局部patch或切片子集，2) 结合 3D 编码层中的挤压和激发残差块以获得更好的特征表示，以及 3) 结合 Dice 分数和Focal损失的新损失函数，以促进神经模型的训练。这些功能旨在解决基于深度学习的 HaN 分割中的两个主要挑战：a) 分割仅占用几个切片的小解剖结构（即视交叉和视神经），以及 b) 使用不一致的数据注释进行训练，缺少对于一些解剖结构的ground truth。
Results: 我们收集了261幅HaN CT图像来训练AnatomyNet，并使用MICCAI头颈部自动分割挑战2015作为基准数据集来评估AnatomyNet的性能。目的是分割九个解剖结构: 脑干，视交叉，下颌骨，左视神经，右视神经，左腮腺，右腮腺，左颌下腺和右颌下腺。与以前MICCAI 2015竞赛的最新结果相比，AnatomyNet将Dice相似度平均提高了3.3%。AnatomyNet大约需要0.12秒才能完全分割尺寸为178 × 302 × 225的头颈部CT图像，这比以前的方法要快得多。此外，该模型能够处理全量CT图像并在一次中描绘所有OAR，几乎不需要预处理或后处理。
Conclusion： 深度学习模型为从 CT 图像中描绘 OAR 的问题提供了一种可行的解决方案。我们证明了我们提出的模型可以提高分割精度并简化自动分割管道。使用这种方法，可以在几分之一秒内描绘出头颈部 CT 的 OAR。

Keywords

automated anatomy segmentation，U-Net, radiation therapy, head and neck cancer, deep learning

Introduction

头颈癌是世界上最常见的癌症之一。放射治疗是治疗头颈癌患者的主要方法。放射治疗的计划依赖于准确的风险器官 (OAR) 分割，这通常由放射治疗师通过费力的手工描绘来进行。如果这些工具能够在合理的时间内准确地描绘解剖区域，那么自动分割解剖区域的计算工具可以大大减轻医生的手动工作。有大量关于从 CT 或 MRI 图像中自动分割解剖结构的文献。在这里，我们重点回顾与头颈部 (HaN) CT 解剖分割相关的文献。传统的解剖分割方法主要使用基于图谱的方法，通过将新图像与一组固定的手动标记样本对齐来产生分割。基于图谱的分割方法通常经过几个步骤，包括预处理、图谱创建、图像配准和标签融合。因此，它们的性能会受到每个步骤中涉及的各种因素的影响，例如创建图集的方法、标签融合的方法和配准方法。尽管基于图谱的方法仍然非常流行，并且是迄今为止解剖分割中使用最广泛的方法，但它们的主要限制是难以处理患者之间的解剖变化，因为它们使用一组固定的图谱。此外，它是计算密集型的，即使使用最有效的实现也可能需要几分钟才能完成一项配准任务。

除了将图像与一组固定的样本对齐之外，还尝试了基于学习的方法来直接分割 OAR，而不求助于参考样本。然而，大多数基于学习的方法需要费力的预处理步骤和/或手工制作的图像特征。因此，它们的性能往往不如基于配准的方法稳健。

最近，深度卷积模型在生物医学图像分割方面取得了巨大成功，并已被引入HaN解剖分割领域。然而，现有的基于 HaN 的深度学习方法要么使用滑动窗口处理无法捕获全局特征的patch，要么依赖图谱配准在预处理中获得高精度的小感兴趣区域。更吸引人的是模型接收全体积图像作为输入而无需繁重的预处理，然后直接输出所有感兴趣的解剖结构的分割。

在这项工作中，我们研究了构建和训练一个深度神经网络模型的可行性和性能，该模型以完全端到端的方式联合分割所有器官，接收原始的全体积HaN CT图像作为输入，并一次性生成所有器官的掩膜。该系统的成功可以简化整个计算流程，降低计算成本，提高分割精度，从而提高当前自动解剖分割的性能。

然而，为了使这种基于深度卷积神经网络的系统成功，需要克服许多障碍。 首先，在设计网络架构时，我们应该牢记 GPU 内存的最大容量。由于使用全体积图像作为输入，每个图像特征图将是 3D 的，由于内存限制，限制了神经网络每一层的特征图的大小和数量。 其次，OAR 包含大小不一的器官/区域，包括一些尺寸非常小的 OAR。准确分割这些小体积结构始终是一项挑战。 第三，现有的 HaN CT 图像数据集包含从各种来源收集的具有非标准化注释的数据。特别是，训练数据中的许多图像仅包含 OAR 子集的注释。 如何有效地处理丢失的注释需要在训练算法的设计中解决。

在这里，我们提出了一个基于深度学习的框架，称为AnatomyNet，用于使用经过端到端训练的单个网络来分割OAR。网络接收全体积CT图像作为输入，并输出所有器官的分割掩膜。我们的方法需要最少的预处理和后处理，并利用所有切片中的特征来分割解剖区域。通过设计新颖的网络体系结构并利用新颖的损耗函数来训练网络，我们克服了上述三个主要障碍。

更具体地说，我们的主要贡献包括以下内容。首先，我们通过结合一个新的特征提取组件来扩展用于 3D HaN 图像分割的标准 U-Net 模型，该组件基于挤压和激发 (SE) 残差块。其次，我们提出了一种新的损失函数来更好地分割小体积结构。小体积分割受到数据不平衡问题的困扰，小区域内的体素数量远小于外部的体素数量，导致训练困难。已经提出了新类别的损失函数来解决这个问题，包括 Tversky 损失、广义 Dice 系数、Focal损失、稀疏标签分配深度多实例学习和指数对数损失。然而，我们发现，单凭这些解决方案都不足以解决我们在从HaN图像分割小器官（如视神经和视交叉）时面临的数据极不平衡问题（1/100000）。我们提出了一种基于Dice得分和Focal损失组合的新损失，并从经验上证明它比其他损失带来更好的结果。最后，为了解决缺少注释的问题，我们使用masked加权损失函数来训练AnatomyNet，以解释缺少的数据，并平衡来自不同器官的损失的贡献。

为了训练和评估 AnatomyNet 的性能，我们从许多公开可用的资源中整理了一个包含 261 幅头颈部 CT 图像的数据集。我们对网络的各个组成部分进行了系统的实验分析，并通过与其他已发表的方法进行比较来证明它们的有效性。当在 MICCAI 2015 的 HaN 分割竞赛的测试数据集上进行基准测试时，AnatomyNet 在 Dice 系数 (DSC) 方面优于最先进的方法 3.3%，平均超过 9 个解剖结构。

Materials and Methods

接下来，我们描述我们的深度学习模型，以从头颈部CT图像中描绘出OAR。我们的模型接收患者的全体积HaN CT图像作为输入，并一次输出所有器官的3D二进制掩模。典型的HaN CT的尺寸约为178 × 512，但由于图像裁剪和不同的设置，不同患者的尺寸可能会有所不同。在这项工作中，我们专注于分割与头颈部癌症放射治疗最相关的九个器官-脑干，交叉，下颌骨，左视神经，右视神经，左腮腺，右腮腺，左下颌下腺和右下颌下腺。因此，我们的模型将为每个整体CT产生9个3D二进制掩模。

Data

在介绍我们的模型之前，我们首先描述训练和测试数据的管理。我们的数据由全体积 CT 图像以及上述九个解剖结构的手动生成的二进制掩码组成。从四个公开来源收集：1）数据集 1（38 个样本）包含来自 2015 年 MICCAI 头颈自动分割挑战赛的训练集。 2) DATASET 2（46 个样本）由来自头颈西妥昔单抗集合的 CT 图像组成，从癌症成像档案 (TCIA)1 [36] 下载。 3) DATASET 3（177 个样本）由来自加拿大魁北克的四个不同机构的 CT 图像组成 [37]，也从 TCIA [36] 下载。 4) DATATSET 4（10 个样本）由来自 MICCAI 的测试集组成。我们结合了前三个数据集，并将聚合数据用作我们的训练数据，总共产生了 261 个训练样本。 DATASET 4 被用作我们的最终评估/测试数据集，以便我们可以将我们的性能与在同一数据集上评估的已发布结果进行基准测试。每个训练和测试样本都包含头部和颈部图像以及相应的手动描绘的 OAR。

在生成这些数据集时，我们执行了几个数据清理步骤，包括1) 将由不同医院的不同医生命名的注释名称映射为统一的注释名称，2) 查找注释和CT图像之间的对应关系，3) 将放射治疗格式的注释转换为可用的ground truth标签掩模，4) 从CT图像中删除胸部，以关注头颈部解剖。我们已经注意确保上面描述的四个数据集不重叠，以避免任何潜在的影响测试或验证性能的陷阱。

Network Architecture

我们利用从挤压和激发 (SE) 残差块中获得的稳健特征学习机制，并将它们合并到改进的 U-Net 架构中用于医学图像分割。我们提出了一种新颖的三维 U-Net，它具有挤压和激发 (SE) 残差块以及用于解剖分割的混合Focal和Dice损失，如图 1 所示。

Fig.1 AnatomyNet是U-Net的一个变体，只有一个下采样和压缩与激励（SE）残差构建块。符号@前的数字表示输出通道的数量，而符号后的数字表示特征映射相对于输入的大小。在解码器中，我们使用拼接特征。Dice损失和Focal损失组成的混合损失被用来迫使模型学习分类不好的体素。对于缺失注释和平衡梯度下降的ground truth，使用masked加权损失函数。解码器层与编码器层对称。SE残差块如右上角所示。

AnatomyNet 是 3D U-Net的变体，是生物医学图像分割中最常用的神经网络架构之一。标准 U-Net 包含多个通过最大池化或步长超过 2 的卷积的下采样层。尽管它们有利于学习分割复杂、大型解剖结构的高级特征，但这些下采样层可能会损害小解剖结构的分割，例如视交叉，在 HaN CT 图像中仅占少数切片。我们设计了只有一个下采样层的 AnatomyNet，以考虑 GPU 内存使用和网络学习能力之间的权衡。在第一个编码块中使用下采样层，以便后续层中的特征图和梯度比其他网络结构占用更少的 GPU 内存。受挤压和激发残差特征对图像对象分类的影响的启发，我们在 AnatomyNet 中设计了用于 OAR 分割的 3D 挤压和激发 (SE) 残差块。 SE残差块自适应地校准每个特征通道内的残差特征图。 3D SE残差学习通过将二维挤压、激发、尺度和卷积函数扩展到三维函数，直接从 CT 图像中提取 3D 特征。它可以表述为，

其中X^r _{k}∈R³表示来自残差特征X^r的一个通道的特征图。Fsq是挤压函数，这里是全局平均池化。S，H，W分别是X^r的切片数，高度和宽度。Fex是激励函数，它由两层全连接的神经网络组成，激活函数分别为G和 σ，权重为W1和W2。σ是sigmoid函数。G通常是ReLU函数，但我们在AnatomyNet中使用LeakyReLU [40]。利用学习到的比例值Sk对残差特征通道X^r _{k}进行校准，得到校准后的残差特征x^~, 在图1的右上角示出了SE块。

AnatomyNet 用 SE 残差块替换 U-Net 中的标准卷积层，以学习有效的特征。 AnatomyNet 的输入是裁剪后的全体积头颈部 CT 图像。我们移除了第二个、第三个和第四个编码器块中的下采样层，以提高分割小解剖结构的性能。在输出块中，我们将输入与从倒数第二块获得的转置卷积特征图连接起来。之后，使用具有 16 个 3 × 3 × 3 内核和 LeakyReLU 激活函数的卷积层。在最后一层，我们使用具有 10 个 3 × 3 × 3 内核和 soft-max 激活函数的卷积层来生成 9 个 OAR 和背景的分割概率图。

Loss function

小对象分割一直是语义分割中的一个挑战。从学习的角度来看，挑战是由不平衡的数据分布引起的，因为图像语义分割需要逐像素标记，而小体积器官对损失的贡献较小。在我们的例子中，小体积器官，如视交叉，仅占图 2 中全体积 CT 图像的大约 1/100,000。Dice损失，Dice系数 (DSC) 的负值，可用于通过将逐像素标记问题转化为最小化类级分布距离，部分解决了该问题。

已经提出了几种方法来缓解小体积器官分割问题。广义Dice损失使用平方体积权重。然而，它使优化在极度不平衡的分割中变得不稳定[33]。指数对数损失的灵感来自于类级别损失的Focal损失 E[(-ln(D))^γ]，其中 D 是感兴趣类的Dice系数 (DSC)，γ 可以设置为 0.3，并且E 是对类别和全体积 CT 图像的期望。指数对数损失 w.r.t 的梯度 DSC D 为 - 0.3/Dln(D)^0.7
。对于分割良好的类（D 接近 1），梯度的绝对值增大了 0.3。因此，指数对数损失仍然对良好分割的类赋予更多的权重，并且对于学习改进非良好分割的类没有效果。

在 AnatomyNet 中，我们采用了混合损失，包括Dice损失和Focal损失的贡献 [34]。 Dice损失学习减轻不平衡体素问题的类分布，而Focal损失迫使模型更好地学习分类不良的体素。总损失可以表示为

其中TPp©、FNp©和FPp©分别是通过预测概率计算的c类的真阳性、假阴性和假阳性，pn©是体素n为c类的预测概率、gn©是体素 n 为 c 类的ground truth，C 是解剖结构的总数加一（背景），λ 是Dice损失 LDice 和Focal损失 LFocal 之间的权衡，α 和 β 是权衡对假阴性和假阳性的惩罚在这里设置为0.5，N是CT图像中的体素总数。 λ 根据验证集的性能设置为 0.1、0.5 或 1。由于不同 HaN 全体积 CT 图像的大小差异，我们将批大小设置为 1。

Fig.2 MICCAI 2015挑战数据集上每个类的体素频率。背景占据所有体素的98.18%。Chiasm仅获取前景的0.35%，这意味着它仅占用整个CT图像的约1/100，000。小体积器官中体素的巨大失衡导致小体积器官分割的困难。

Handing missing annotations

解剖分割的另一个挑战是由于缺少训练数据集中常见的注释，因为注释器通常在其注释中包含不同的解剖结构。例如，我们从 5 家医院收集了 261 张具有解剖分割基础事实的头颈部 CT 图像，九个带注释的解剖结构的数量非常不同，如表 I 所示。为了应对这一挑战，我们标记了背景（表示为作为 0 级）和遗漏的解剖结构。令 c ∈ {1, 2, 3, 4, 5, 6, 7, 8, 9} 表示解剖索引。我们为第i个CT图像使用掩模矢量mi，并将背景表示为标签0。如果注释了解剖c，则mi© = 1，否则为0。对于背景，如果对所有解剖结构进行了分析，则掩模为mi(0) = 1，否则为0。某些解剖结构的缺失注释会导致类级注释不平衡。为了解决这个问题，我们使用加权损失函数来更新不同解剖结构的平衡权重。权重w被设置为类c的注释数量的倒数，w© = 1/ Σi mi©，因此深度网络中的权重通过不同的解剖结构被同等地更新。公式2中第i个CT图像的Dice损失可以写为

第 i 个 CT 图像中缺失注释的Focal损失可以写为

我们在 AnatomyNet 中使用损失 ^~LDice + λ^~LFocal。

Implementation details and performance evaluation

我们在PyTorch中实现了AnatomyNet，并在NVIDIA Tesla p40上进行了培训。由于全体积CT图像的不同尺寸，批次大小被设置为1。我们首先使用RMSprop优化器 [41]，学习率是0.002的，epoch的数量是150的。然后，我们使用了具有动量0.9，学习率0.001和epochs为50的随机梯度下降。在训练过程中，我们使用仿射变换和弹性变形进行数据增强，在 ﬂy上实现。

我们使用Dice系数 (DSC) 作为最终的评估指标，定义为 2TP/(2TP + FN + FP)，其中 TP、FN 和 FP 分别为真阳性、假阴性、假阳性。

Results

我们在261训练样本上训练了我们的深度学习模型AnatomyNet，并2015测试数据 (10个样本，数据集4) 评估了其在MICCAI头部和颈部分割挑战上的性能，并将其与在相同测试数据集上基准测试的先前方法的性能进行了比较。在介绍最终结果之前，我们首先描述AnatomyNet下几种设计选择背后的基本原理，包括架构设计和模型训练。

Determining down-sampling scheme

标准的 U-Net 模型具有多个下采样层，有助于模型学习高级图像特征。然而，下采样也降低了图像分辨率，使得更难分割小的 OAR，如视神经和交叉。为了评估下采样层数对分割性能的影响，我们尝试了四种不同的下采样方案，如表 II 所示。Pool1 仅使用一个下采样步骤，而Pool 2、3 和 4 分别使用 2、3 和 4 下采样步骤，分布在连续的块上。每次下采样，特征图大小都会减少一半。我们将四种下采样方案中的每一种都合并到标准 U-Net 模型中，然后在训练集上对其进行训练并在测试集上进行评估。为了公平比较，我们在每一层中使用了相同数量的过滤器。每个模型的解码器层设置为与编码器层对称。

Table2. U-Nets 中具有不同下采样次数的编码器块的大小。符号@前面的数字表示输出通道的数量，而符号后面的数字表示特征图相对于输入的大小。

四种下采样方案的 DSC 得分如表 III 所示。平均而言，一个下采样块（Pool1）产生最佳的平均性能，在 9 个解剖结构中的 6 个中击败其他下采样方案。性能差距在三个小体积 OAR 上最为突出——左视神经、右视神经和视交叉，这表明具有一个下采样层的 U-Net 在小器官分割上的效果优于标准 U-Net。可能的原因是小器官只存在于几个切片中，并且更多的下采样层更容易错过更深层中小器官的特征。基于这些结果，我们决定在 AnatomyNet 中仅使用一个下采样层（图 1）。

Table3. 使用 Dice 系数测量的具有不同下采样层数的 U-Net 模型的性能。

Choosing network structures

除了下采样方案，我们还测试了其他几个架构设计选择。第一个是关于如何在 U-Net 中组合来自水平层的特征。传统的 U-Net 使用拼接来组合解码器中水平层的特征，如图 1 中的虚线所示。然而，最近的特征金字塔网络 (FPN) 建议使用求和来组合水平特征 [42]。另一个设计选择是为每一层选择局部特征学习块。传统的 U-Net 使用简单的 2D 卷积，在我们的例子中扩展到 3D 卷积。为了学习更有效的特征，我们尝试了另外两个特征学习块：a）残差学习，b）挤压和激励残差学习。总之，我们调查了以下六种架构设计选择的性能：

3D SE Res UNet，在AnatomyNet (图1) 中实现的体系结构，具有挤压激励残差学习和拼接的水平特征。
3D Res UNet，将 3D SE Res UNet 中的 SE Residual 块替换为残差块。
朴素U-Net，用3D卷积层替换3D SE Res UNet中的SE残差块。
3D SE Res UNet (sum)，将 3D SE Res UNet 中的拼接替换为求和。当通道数不同时，使用一个额外的 1 × 1 × 1 3D 卷积层将编码器映射到与解码器相同的大小。
3D Res UNet (sum)，用残差块替换 3D SE Res UNet (sum) 中的 SE Residual 块。
朴素U-Net（sum），用3D卷积层替换3D SE Res UNet（sum）中的SE剩余块。
这六个模型使用相同的训练程序在相同的训练数据集上进行训练。表 IV 总结了 DSC 在测试数据集上测量的性能。我们注意到这项研究的一些观察结果。首先，特征连接始终显示出比特征求和更好的性能。似乎特征连接在特征学习中比通过特征求和的固定操作提供了更多的灵活性。其次，具有连接的 3D SE 残差 U-Net 产生了最佳性能。它展示了 SE 特征在 3D 语义分割中的强大功能，因为 SE 方案学习了通道校准，并有助于减轻第 II B 节中讨论的通道特征之间的依赖性。

Table4. 不同网络结构的性能比较

与传统的U-Net模型相比，AnatomyNet中包含的SE残差块学习使DSC提高了2-3%，在9个解剖结构中有6个优于U-Net。

Choosing loss functions

我们还验证了不同损失函数对训练和模型性能的影响。为了区分损失函数对网络设计选择的影响，我们只使用了普通的 U-Net 并用不同的损失函数对其进行了训练。这样，我们可以专注于研究损失函数对模型性能的影响。我们尝试了四种损失函数，包括 Dice 损失、指数对数损失、Dice 损失和focal损失之间的混合损失以及 Dice 损失和交叉熵之间的混合损失。基于验证集的性能，混合损失中的权衡参数（λ inEq. 2）从 0.1、0.5 或 1 中选择。对于 Dice 损失和focal损失之间的混合损失，发现最佳 λ 为 0.5。对于 Dice 损失和交叉熵之间的混合损失，最佳 λ 为 0.1。

用上述四个损失函数训练的模型的性能如表V所示。性能是根据测试数据集上的平均DSC来测量的。我们从这个实验中注意到一些观察。首先，两个混合损失函数一致优于简单Dice或指数对数损失，在9个解剖结构中有8个击败了其他两个损失。这表明考虑体素级损失可以提高性能。其次，在这两个混合损失之间，Dice结合Focal损失具有更好的性能。特别是，它在分割两个小解剖结构——视神经和视交叉上带来了显著的改进（2-3%），与我们在第二节第三部分中讨论的动机一致。

Table5. 比较用不同损失函数训练的模型的测试性能，用Dice系数进行评估。

基于以上观察结果，使用Dice混合损失和Focal损失来训练AnatomyNet，并与以前的方法进行性能对比。

Comparing to state-of-the-art methods

在确定了解剖网络的结构和用于训练它的损失函数后，我们开始将其性能与以前最先进的方法进行比较。为了一致性的目的，所有模型都在MICCAI头颈部挑战2015测试集上进行了评估。不同方法的平均DSC总结在表六中。MICCAI 2015挑战中每个解剖结构的最佳结果被表示为MICCAI 2015[4]，这可能来自具有不同方法的不同团队。

Table6. 与最先进方法的性能比较，显示测试集上的平均 DSC。

MICCAI 2015 竞赛将左右配对器官合并为一个目标，而我们将它们视为两个独立的解剖结构。因此，MICCAI 2015 比赛是七（6 个器官+背景）类分割，而我们的是十类分割，这使得分割任务更具挑战性。尽管如此，AnatomyNet 的平均 Dice 系数为 79.25，比 MICCAI 2015 挑战赛的最佳结果高出 3.3%（表 VI）。特别是，视神经的改善约为 9-10%，这表明深度学习模型能够更好地处理患者之间差异较大的小解剖结构。 AnatomyNet 在所有类别上也优于中基于图集的 ConvNet，这可能是由于 AnatomyNet 中用于全体积 HaN CT 图像的端到端结构捕获了解剖结构之间相对空间位置的全局信息。与 [28] 中在视交叉、左视神经和右视神经等小体积器官上的交错卷积网络相比，AnatomyNet 在 3 例中的 2 例上更好。交错的ConvNets 在视交叉上取得了更高的性能，这可能是因为它的预测是在小的感兴趣区域 (ROI) 上进行的，首先通过 atlas 注册获得，而 AnatomyNet 直接在整个体积切片上运行。
除了提高分割精度之外，AnatomyNet 的另一个优势是它比 MICCAI 2015 挑战赛中使用的传统基于图集的方法快几个数量级。 AnatomyNet 大约需要 0.12 秒才能完全分割尺寸为 178×302×225 的头颈部 CT 图像。相比之下，基于图集的方法可能需要十几分钟才能完成一个分割，具体取决于实现细节和图集数量的选择。

Visualizations on MICCAI 2015 test

在图 3 和图 4 中，我们将 AnatomyNet 对测试数据集中四个案例的分割结果进行可视化。每行代表一个（左和右）解剖结构或 3D 重建解剖结构。每列表示一个样本。最后两列显示了 AnatomyNet 表现不佳的情况。第IVB节介绍了这些案例的讨论。绿色表示ground truth。红色代表预测的分割结果。黄色表示ground truth和预测之间的重叠。我们可视化包含每个相关器官的最大区域的切片。对于小的 OAR，如视神经和视交叉（如图 4 所示），仅显示横截面切片。

Fig.3 四个测试 CT 图像的可视化。从上到下的行代表脑干、脑干 3D、下颌骨、下颌骨 3D、腮腺左右和腮腺左右 3D。每列代表一个 CT 图像。绿色代表ground truth，红色代表预测。黄色是重叠。

Fig.4 四个测试 CT 图像的可视化。从上到下的行代表左右下颌下腺、左右下颌下腺 3D、左右视神经和交叉。每列代表一个 CT 图像。绿色代表ground truth，红色代表预测。黄色是重叠。 AnatomyNet 在小体积解剖结构上表现良好。

Visualizations on independent samples

为了检查训练模型的泛化能力，我们还在图5和图6中的一个小的内部数据集上可视化训练模型的分割结果。视觉检查表明训练模型在这个独立的测试集上表现良好。通常，较大解剖结构的性能要好于较小的解剖结构 (例如视交叉)，这可以归因于手动注释的不一致性和分割这些小区域的算法挑战。

Fig.5 前四个保留 CT 图像上前四个解剖结构的可视化。下颌骨和下颌下腺没有ground truth。因为这是来自 MICCAI 2015 的不同来源，所以脑干和视交叉的注释与 MICCAI 2015 的注释不一致。AnatomyNet 很好地概括了保持测试集。

Fig.6 在前四张CT图像上对其余五个解剖结构进行可视化。

Discussion

Impacts of training datasets

我们收集的训练数据集来自不同的来源，由不同的医生群体根据不同的指导标准进行注释。目前尚不清楚不同的数据集如何影响模型性能。为此，我们进行了一项实验，以测试使用两个不同数据集训练的模型性能：a）仅使用 2015 年 MICCAI 头颈部分割挑战赛中提供的训练数据（Dataset1, 38 个样本），b）结合包含 216 个样本的训练数据（Dataset1-3 组合）。在注释方面，第一个数据集与测试数据集更加一致，因此不太可能遭受注释不一致的影响。然而，另一方面，数据集的规模要小得多，对训练深度学习模型提出了挑战。

表 VII 显示了在应用相同的最小化 Dice 损失的训练过程后，使用上述两个数据集训练的 3D Res U-Net 模型的测试性能。我们注意到一些观察结果。首先，总体而言，使用较大数据集（DATATSET 1-3）训练的模型实现了更好的性能，比较小的数据集提高了 2.5%，这表明较大的样本量确实会带来更好的性能。其次，虽然较大的数据集平均提高了性能，但在一些 OAR 上，较小的数据集实际上做得更好，最明显的是下颌神经和视神经。这表明不同数据集之间确实存在显著的数据注释不一致，其对模型性能的影响不容忽视。第三，为了进一步检查仅使用 DATASET 1 训练的模型的泛化能力，我们检查了它在 DATASETS 2-3 上的性能，发现它的性能普遍较差。总之，这表明注释质量和数据大小对于训练深度学习模型都很重要。如何解决现有数据集中的不一致问题是未来需要解决的一个有趣的悬而未决的问题。

Table7. 用不同的数据集训练的模型的性能比较。

Limitations

AnatomyNet的当前实现存在一些限制。首先，AnatomyNet在损失函数和网络结构上平等对待体素。结果，它无法对形状先验和连接模式有效地进行建模。卷积的平移和旋转不变性对于学习外观特征非常有用，但会导致空间信息的丢失。例如，AnatomyNet有时将小背景区域误分类成OAR(图3,4)。如果还可以了解整体形状信息，错误分类会导致部分解剖结构被轻松地排除。具有来自不同级别的解码器的多分辨率输出的网络，或具有较大局部感受野的更深层的网络，应有助于缓解此问题。

其次，我们对分割性能的评估主要基于 Dice 系数。尽管它是图像分割中使用的常用指标，但它可能不是临床应用中最相关的指标。与在该领域执业的医生协商确定一个新的指标将是该方法真正临床应用的重要下一步。沿着这个方向，我们通过计算平均 95% Hausdorff 距离（单位：mm，[4] 中的详细公式）来定量评估几何表面距离（表 VIII）。我们应该注意到，与在局部patch上运行的其他方法（例如 Ren 等人 [28] 的方法）相比，该指标对 AnatomyNet 提出了更多挑战，因为 AnatomyNet 在整个体积切片和超出正常范围的小异常值预测上运行 OAR 会导致 Hausdorff 距离大大增加。尽管如此，AnatomyNet 在 9 个解剖结构中的 6 个 [4] 上大致处于 MICCAI 2015 最佳挑战结果的范围内。如上所述 [43, 44]，通过将表面和形状先验考虑到模型中，可以提高其在该度量上的性能。

Table8. 平均第 95 个百分位 Hausdorff 距离（单位：mm）与最先进方法的比较。

Conclusion

总之，我们提出了一种端到端的无图谱和全自动深度学习模型，用于从头颈部 CT 图像进行解剖分割。我们提出了许多技术来提高模型性能并促进模型训练。为了缓解小体积器官分割的高度不平衡挑战，使用具有类级损失（Dice损失）和Focal损失（迫使模型更好地学习预测不好的体素）的混合损失来训练网络，并且一个单一的编码器中使用了下采样层。为了处理丢失的注释，实现了掩码和加权损失，以实现准确和平衡的权重更新。3D SE 块是在 U-Net 中设计的，用于学习有效的特征。我们的实验表明，我们的模型在头颈部 OAR 分割方面提供了最新结果，比以前的模型高出 3.3%。它的速度明显更快，只需几分之一秒即可从头颈部 CT 分割九个解剖结构。此外，该模型能够一次处理全体积 CT 并描绘所有 OAR。总之，我们的工作表明深度学习为从 CT 图像中描绘 OAR 提供了一个灵活而有效的框架。通过额外的训练数据和改进的注释，可以进一步提高自动分割的质量，使其更接近真实的临床实践。