Organ at Risk Segmentation for Head and Neck Cancer using Stratiﬁed Learning and Neural Architecture

Organ at Risk Segmentation for Head and Neck Cancer using Stratiﬁed Learning and Neural Architecture Search
使用分层学习和神经架构搜索对头颈部癌症进行风险器官分割

来源：CVPR
时间：2020年
原文链接：https://openaccess.thecvf.com/content_CVPR_2020/papers/Guo_Organ_at_Risk_Segmentation_for_Head_and_Neck_Cancer_Using_CVPR_2020_paper.pdf

Abstract

风险器官 (OAR) 分割是头颈 (H&N) 癌症放射治疗的关键步骤，放射肿瘤学家之间的不一致和高昂的劳动力成本促使自动化方法的发展。但是，使用标准全卷积网络的领先方法会在器官数变得很大时受到挑战，例如器官数大于40时。对于此类情况，可以从手动临床OAR描绘中看到的分层方法中获得见解。这是我们工作的目标，在这里我们引入分层的风险器官分割 (SOARS)，一种将器官分层成为anchor、mid-level和小且难（S&H）的类别的方法。SOARS在两个维度上分层。第一个维度是每个OAR类别都使用不同的处理框架。特别是，受临床实践的启发，anchor OARs被用来指导mid-level和S&H类别。**第二个维度是使用不同的网络体系结构来管理不同器官之间的显著对比度，大小和解剖结构变化。**我们使用微分神经架构搜索 (NAS)，允许网络在2D、3D或Pseudo-3D卷积中进行选择。对142例H&N癌症患者进行了广义的4折交叉验证，其中有42个手动标记的器官，这是迄今为止最全面的OAR数据集，证明了框架和NAS分层都显著改善了最新技术的定量性能 (从绝对dice得分的70.44% 到75.14%)。因此，SOARS提供了一种强大而有原则的手段来管理oar的高度复杂的细分空间。

Introduction

头颈癌是全世界最常见的癌症之一[17]。高精度放射治疗，例如调强放射治疗，由于其具有高度适形剂量传递的能力，已被广泛用于H&N癌症的治疗。在此过程中，应控制对正常解剖结构，即危险器官（OAR）的辐射剂量，以尽量减少治疗后并发症[11]。这需要在放射治疗计算机断层扫描（RTCT）图像中精确描绘肿瘤和卵巢[2,18,19,22,27,38]。在临床上，OAR 分割主要由放射肿瘤学家手动进行。手动描绘不仅耗时，例如分割9 个 OARs需要 > 2 小时，但也存在较大的从业者间变异性 [11]。不出所料，随着更多的 OAR 被纳入，时间需求显着增加，限制了可能接受及时放疗的患者数量 [26]。这些问题促使人们努力在 H&N 癌症中进行自动 OAR 分割 [29]。尽管取得了这些进展，但性能差距仍然存在，需要更好地针对这一独特且具有挑战性的问题量身定制的方法。这是我们工作的目标。

就其性质而言，H&N OAR 是 1) 解剖形状复杂，2) 空间分布密集，3) 尺寸变化大，以及 4) RT、CT 图像对比度低。目前，深度卷积神经网络 (CNN) 是一种主要方法 [1, 9, 15, 27, 38–40, 42, 47]。然而，现有的方法要么执行整个体积分割 [27, 47]，要么执行检测分割 [9, 38]。然而，随着需要分割更多的 OAR，模型优化变得越来越困难。利用临床实践的见解可以帮助缓解相应的困难。
在诊所内，放射肿瘤学家在描述较难的 OAR 时通常会参考简单的 OAR，例如眼睛、脑干和下颌骨，作为分割困难OAR 的anchor，例如不同类型的软组织 H&N 腺体 [37]。图 1 直观地说明了这种分层。因此，该过程表明自动化解决方案也可以从 OAR 分层中受益，既可以创建anchor，也可以为每个分层创建量身定制的分析工作流程。 事实上，高等人 [9] 表明，利用两个分支进行 OAR 分割可以提高整体性能。然而，在这项工作中，大型 OAR 并没有作为小型 OAR 的支持。 此外，网络架构是跨 OAR 分层手动制作和修复的。然而，鉴于它们高度不同的性质，不同的 OAR 可能需要不同的网络架构才能获得最佳性能。很难看出常规 CNN 如何满足这些需求。

Fig.1 42 个 OAR 的 3D 插图，展示了它们在 RTCT 中的各种对比、大小和形状。

我们的工作通过引入分层风险器官细分 (SOARS) 来填补这一空白，这是一种新颖的分层学习框架来细分OAR。SOARS将器官分为三个级别，即anchor，mid-level和小且困难的(S&H)。模拟临床实践，每一个都使用量身定制的工作流程进行处理。anchor OAR的强度对比度高，扫描仪间和扫描仪内的可变性低。因此，可以首先对这些进行细分，以提供对较难类别的信息参考。mid-level OAR 的对比度较低，但并不是非常小。我们提供anchor级预测作为mid-level分割的额外输入，作为指导和基于参考的基础。 S&H OAR 的对比度非常差，而且非常小。与中级 OAR 类似，我们使用锚 OAR 来指导 S&H 分割。但是，我们使用检测后跟分割策略 [9]，以更好地管理整个体积中极其不平衡的类分布。虽然这项工作为每个OAR类别提供了专门的框架，但数据处理甚至可以更好地定制，因为不太可能相同的网络体系结构平等地适合每个层次。因此，我们部署了一个额外的分层维度，使用神经架构搜索（NAS）自动搜索每个类别的最佳架构。具体来说，我们将结构学习描述为可微NAS[23,24,48]，允许在每个卷积块上自动选择2D、3D或伪3D（P3D）卷积，核大小为3或5。

使用四重交叉验证，我们在 142 个 RTCT 图像和 42 个带注释的 OAR 上评估 SOARS，这是迄今为止最全面的 H&N OAR 数据集。我们证明了我们分层的两个维度，即类别特定处理和 NAS，对性能有显着影响。我们的平均 Dice 得分 (DSC) 和 Hausdorff 距离 (HD) 分别为 75.14% 和 6.98 mm，这对应于在非分层基线上分别提高了 7.51% 和 2.41 mm。与最先进的基于 3D Mask R-CNN 的 UaNet 方法 [38] 相比，我们在 DSC 和 HD 中分别产生了 4.70% 和 2.22mm 的改进。在公共数据集上的验证（MICCAI 2015 OAR Challenge [29]）进一步证实了这些引人注目的性能改进。综上所述，本文的贡献和新颖之处在于三个方面：
（1）分割一套全面的器官对于头颈癌的放射治疗计划至关重要。与以前的最先进的工作相比，我们研究了临床上最完整，最理想的42个器官。
（2）我们的主要方法论贡献是提出了将不同器官分层为不同类别的 OAR 的整体框架，这些 OAR 分别由定制的分割器处理（由 NAS 实现）。我们的方法是一个经过良好校准的框架，将器官分层、多阶段分割和 NAS 协同集成。
（3）我们将 42 个 OAR 分为三个级别的想法来自于模拟肿瘤学家手动描绘 OAR 轮廓知识和 OAR 的大小分布的结合。据我们所知，以前的工作还没有研究过这种简单而有效的器官分层方案，用于像我们这样复杂的分割和解析任务。

Related Works

OAR Segmentation
有大量关于 OAR 分割的工作。基于图谱的方法 [10, 16, 34–36, 41] 享有显赫的历史 [20, 29]。它们的主要缺点是依赖于准确和有效的图像配准 [47]，这受到形状变化、正常组织切除、异常组织生长和图像采集差异的挑战 [45]。配准通常也需要几分钟甚至几小时才能完成。另一种常见的方法是统计形状或外观模型 [5, 6, 33]。这些已经显示出前景，但一个突出的问题是它们可以限制为统计模型描述的特定形状，这使得它们在 OAR 的数量很大时不太灵活[8]。值得注意的是Tong 等人[40]，他们使用层次分层应用了基于强度和纹理的模糊模型。
最近，基于深度 CNN 的方法已被证明能够提供更好的性能。除了早期的成果 [15]，全卷积网络 (FCNs) 已迅速成为主流方法 [18,27，39,47]。为了解决面对S&H OAR时的数据不平衡问题，FocusNet [9] 和UaNet [38] 采用逐个检测的策略，以实现更好的分割精度。但是，这两种方法都不会对器官进行分层，因此不能使用更简单的器官作为对更困难的器官的支持。此外，当器官的数量很大时，例如大于40时，优化变得更加困难。最后，他们的网络体系结构仍然是手动固定的，对于不同的器官类别而言，优化程度较低。

Stratified Learning
分层是将复杂的任务分解为更容易的子任务的有效策略。计算机视觉使用这种策略已有很长的历史。在条件随机场框架 [21] 中，已经使用了几种上下文学习模型来辅助一般对象检测 [14,28]。实例学习，即实例定位、分割和分类，通常将问题分层为多个子任务 [3,7，13]。在医学成像中，分层统计学习也被用来识别候选结节是否与任何其他主要肺解剖结构相关 [44]。然而，在医学成像中，尤其是在深度学习时代，将分层学习用于语义分割的研究仍然相对不足。在OAR分割中，Tong等人 [40] 应用了分层，但这使用了非深度模糊连通性模型。我们是第一个为深度器官分割执行分层学习的人。
Neural Architecture Search
这是自动发现更好的网络架构的过程。许多NAS方法利用强化学习 [49] 或进化算法 [30]。然而，这两种策略的计算要求都很高。可区分的NAS [23,24，48] 在优化过程中同时实现所有候选架构，从而限制了允许或可行的搜索空间。尽管如此，这些方法是定制架构的高度实用的手段。在这项工作中，我们遵循可区分的NAS公式 [24,48] 来搜索三个OAR分层中的每一个的架构。我们探索了最佳内核大小以及2D，3D和P3D配置的组合。因此，我们是第一个将NAS应用于OAR分割的。

Methods

图 2 描述了 SOARS 框架，它使用三个处理分支来分层anchor、mid-level和 S&H OAR 分割。第一个分层维度是不同的处理框架。 SOARS 首先分割anchor OAR。然后，在预测anchor的帮助下，mid-level和 S&H OAR 被分割。对于最困难的 S&H 类别，我们首先检测中心位置，然后放大以分割小 OAR。深度监督的 3D P-HNN [12] 被用作所有三个分支的主干，它使用深度监督利用无参数路径将较低级别的特征逐步传播到较高级别的特征。我们选择这个主干是因为它在其他 RTCT 工作中的良好报告性能 [18, 19]。分层的第二维使用可微分 NAS 为每个 OAR 类别搜索不同的 P-HNN 卷积块。

图 2. (a) SOARS 在两个维度上对 OAR 分割进行分层：不同的处理框架和不同的架构。我们使用可微分 NAS 执行后者。 (b) 描绘了带有 NAS 的骨干网络 (P-HNN)，它允许跨 2D、3D、P3D 卷积进行自动选择。 © 演示 NAS 搜索空间设置。

Processing Stratification

如前所述，SOARS 使用三个不同的框架分割 OAR，其中 OAR 根据临床医生的建议进行划分（我们的 42 OAR 数据集的详细信息在第 4.1 节中报告）。我们将 N 个数据实例的训练数据表示为 S={Xn, Y^An, Y^Mn , Y^Sn}^Nn-1其中 Xn, Y^An , Y^Mn 和 Y^Sn分别表示输入 RTCT 和anchor、mid-level和 S&H OARs的ground truth masks。在这里，为了清楚起见，我们在适当的时候删除了 n。在整个过程中，我们将使用矩阵/向量表示法，使用粗体表示向量值体积，并使用向量拼接作为跨所有体素位置的操作。
Anchor branch：
假设我们有C类，SOARS首先使用anchor分支为每个体素位置j和每个输出类C生成OAR预测图：

其中p^A()和Y_{hat}^Ac分别表示CNN函数和输出分割图。在这里，预测是矢量值的3D掩码，因为它们为每个类提供了伪概率。W(·) 表示对应的CNN参数。
Anchor OARs与周围组织相比具有高对比度或位于易于定位的区域；因此，基于纯外观和上下文特征直接和稳健地分割它们相对容易。因此，它们是支持其他 OAR 分割的理想候选者。
Mid-level branch:
大多数mid-level OARs主要是软组织，对比度低，很容易与强度和形状相似的其他结构混淆。直接分割会导致假阳性或过度/欠分割。这可以通过使用处理分层来直接将anchor预测合并到mid-level学习中来解决，因为anchor预测是健壮的，并且提供了高度信息性的位置和基于语义的提示。如图2所示，我们将锚预测与RTCT结合起来，创建一个多通道输入: [X, Y_{hat}^A]:

通过这种方式，mid-level分支利用计算机断层扫描 (CT) 强度以及anchor OAR 引导，这对于管理具有其他类似 CT 外观的区域特别有用。像（2）一样，我们可以将mid-level预测收集到向量值实体 Y_{hat}^M 中。
Small & hard branch
在这个分支中，我们进一步将分割分解为检测，然后是分割过程。在考虑整个体积时，由于对比度差以及前景和背景分布极不平衡，直接从 CT 中分割出 S&H OAR 的精细边界非常具有挑战性。相比之下，S&H OARs 中心区域的检测要容易得多，因为 H&N 区域具有相对稳定的解剖空间分布。这意味着可以从 CT 上下文中自信地推断出 S&H OAR 的大致位置。一旦检测到中心位置，就可以裁剪出局部区域，以便专注于以放大方式分割精细边界。这与 Gao 等人[9]的分割小器官的方法有相似之处。

为了检测 S&H OAR 中心，我们采用了一种简单而有效的热图回归方法 [43、46]，其中使用 3D 高斯核在每个器官中心创建热图标签。与mid-level分支类似，为了提高检测鲁棒性和准确性，我们还将anchor分支预测与 RTCT 作为检测输入通道相结合：

其中Hˆ表示每个S&H OAR的预测热图。与分割网络一样，我们对f（·）使用相同的P-HNN主干。给定得到的回归热图，我们选择对应于最高值的像素位置，并使用三倍于最大感兴趣区域大小的范围来裁剪感兴趣的体积（VOI）。随着VOI的裁剪，SOARS可以分割S&H桨的精细边界。如图2所示，我们将等式（4）的输出与裁剪的RTCT图像连接起来，作为S&HOAR分割网络的输入：

此处可以理解为(5) 仅在裁剪区域上运行。

Architectural Stratification

虽然将OAR分为不同的处理框架，具有不同的输入和理念是提高性能的关键，但可以做更多的工作。也就是说，考虑到OAR外观、形状和大小的显著变化，每种OAR类型都可能受益于根据其需求定制的细分分支架构。为此，SOARS会自动搜索每个分支的网络架构，为分层添加额外的维度。自始至终，我们使用P-HNN[12]作为基本主干。整个网络结构如图2所示，其中架构是以可微的方式学习的[24]。
设φ（·；ωx×y×z）表示以下连续操作的复合函数：批量归一化、校正线性单元和具有x×y×z维核的卷积。如果内核的一个维度设置为1，它将减少为2D内核。如等式（6）所示，我们搜索一组可能的架构，包括：2D卷积、3D卷积或伪3D卷积，内核大小为3或5：

其中 Φ 表示可能架构的搜索空间。为简单起见，我们不使用逐层架构搜索，而是仅使用一种类型的卷积核来构建每个 P-HNN 卷积块(不使用逐层架构搜索，只使用一种类型得卷积核，什么意思？)。
与 [24, 48] 类似，我们通过将特定操作的分类选择放宽到所有 6 种可能操作的 softmax 来使搜索空间连续。更正式地说，如果我们用 k 索引 (6) 中的每个可能性，那么我们可以为每个可能性定义一组 6 个可学习的 logits，记为 ak。然后可以使用 softmax 将所有可能的架构聚合到一个组合输出中，φ’(这一部分没有明白):

为了方便起见，我们放弃了对输入图像的依赖。正如Zhu等人所证明的 [48]，这种类型的NAS方案可以在医学图像分割中产生显著的增益。这创建了一种超级网络，包括 (6) 的所有可能表现形式。这个超级网络可以以与标准网络相同的方式进行优化。在NAS的末尾，可以通过选择与最大 α k值相对应的 φ 来确定每个块的所选网络体系结构^〜φ。如果将该最大值的索引表示为^〜k，则^〜φ=φ ^〜k。如果我们有b个块，那么基于 (8)，搜索到的网络可以表示为
其中 (~·) 表示搜索到的网络体系结构。为了保持一致性，我们使用相同的策略来搜索SOARS的每个分支的网络体系结构。

Experiments

Datasets and Preprocessing

为了评估性能，我们在H&N癌症患者中收集了142个匿名的非对比RTCT图像，其中在放射治疗的目标轮廓过程中描绘了42个器官(以下称为H&N42数据集)。在H&N42数据集上针对患者水平上进行的划分进行了广义的4折交叉验证来报告结果。我们与其他最先进的方法进行了比较，包括P-HNN [12] 、UNet [4] 和UaNet [38]。为了评估SOARS的有效性，我们使用1折数据集进行了两项消融研究。此外，我们使用公共MICCAI 2015头部和颈部自动分割挑战数据1 (以下简称MICCAI2015) 检查了我们的表现。此外部测试集包含15个测试用例，每个测试用例包括9个器官。
Evaluation metrics
我们报告了使用DSC (百分比) 、HD和ASD (毫米) 的分割性能。请注意，我们使用HD度量标准，而不是以前的一些作品中报告的HD95。
H&N 42 OARs dataset
每个 CT 扫描都带有 42 个 OAR 3D mask，并由经验丰富的肿瘤学家进行注释。 CT平均尺寸为512×512×360体素，平均分辨率为0.95×0.95×1.9 mm。具体OARs分层如下。Anchor OARs： 脑干、小脑、眼 (左右) 、下颌骨 (左右) 、脊髓和颞下颌关节 (左右) Mid-level OARs： 臂丛神经 (左右)，基底节 (左右)，收缩肌 (下，中，上)，会厌，食道，海马 (左右)，喉核心，口腔，腮腺 (左右)，颌下腺 (左右)，颞叶 (左右)，甲状腺 (左右)
S&H OARs： 耳蜗（左侧和右侧）、下丘脑、内耳（左侧和右侧）、泪腺（左侧和右侧）、视神经（左侧和右侧）、视交叉、松果腺和垂体。
MICCAI2015 dataset：
该数据集已被研究人员广泛用于评估基于地图集和基于深度学习的H&N OAR分割。它包含44个训练用例和15个带有9个器官注释的测试用例。9个器官包括脑干，下颌骨，视交叉，视神经 (左右)，腮腺 (左右) 和下颌下腺 (左右)。
Image preprocessing：
我们对覆盖目标OARs强度范围的每一次CT扫描应用**[500,1000]HU的窗口化，从中提取128×128×64** VOI作为anchor和mid-level分支以及S&H分支中的检测模块的训练样本。检测模块中的热图标签为3D高斯分布，均方差为8mm。训练 VOI 以两种方式进行采样：（1）我们随机提取以每个 OAR 为中心的 VOI，以确保有足够的正样本。 (2) 我们从整个体积中随机抽取额外的 15 个 VOI，以获得足够的负样本。这导致每次 CT 扫描平均有 70 个 VOI。我们通过在 0.8 - 1.2 之间应用随机缩放来进一步扩充训练数据。在测试中，使用了 3D 滑动窗口，子体积为 128×128×64，步长为 96×96×32 体素。聚合子体积的概率图以获得整个体积预测，使用单个 GPU 处理一个输入体积平均需要 20 秒。

Implementation Details

我们在 PyTorch中实现了 SOARS，并在 NVIDIA Quadro RTX 8000 上对其进行了训练。RAdam 求解器 [25] 用于优化所有模型，动量为 0.9，权重衰减为 0.005。 DSC 损失用于分割任务训练。 S&H 检测分支使用 L2 损失进行训练，学习率为 0.01。
我们利用 NAS 来搜索每个分支的最佳网络架构。对于 NAS 参数 αk，我们首先将 αk 固定 20 个 epoch。然后我们更新 αk 和额外 30 个 epoch 的网络权重。 NAS 训练的批量大小设置为 2。请注意，我们仅使用验证集进行 α 更新。训练集和验证集的比例为 2:1。anchor和mid-level分支的初始学习率设置为 0.005，S&H 分支的初始学习率设置为 0.001。

==NAS完成后，我们从头开始重新训练搜索到的网络，批量大小为12。初始学习率对于anchor和mid-level分支设置为0.01，对于S&H分支设置为0.005。详细的训练策略描述如下: 1) 我们训练anchor分支50个epoch; 2) 我们固定anchor分支的参数，并将其输出连接到原始RTCT，然后进一步训练mid-level和S&H分支50个epoch；3) 最后，我们以端到端的方式对整个框架进行微调，以达到1 0个epoch。

Processing Stratification

我们首先评估 SOARS 处理分层的有效性。分割anchor、mid-level和 S&H OAR 的消融结果如表 1 所示。基线比较是在所有 42 个 OAR 上一起训练的 3D P-HNN 模型。当anchor OARs被分层以仅对自己进行训练时，与基线模型相比有轻微的改进，这与anchor OARs通常具有良好的对比度并且易于优化的观察结果一致。然而，当专注于mid-level OAR 时，仅对mid-level OAR 进行训练而不是对所有 OAR 进行训练时，DSC 得分有显着提高 (3.63%)。这表明在不考虑它们的差异的情况下将大量器官分割在一起是很困难的。当进一步添加anchor OAR 预测作为支持时，DSC 分数和 ASD 都经历了很大的改进，即 DSC 从 67.31% 到 70.73%，在 ASD 中从 3.97 到 1.67mm。这些显著的误差减少表明anchor OAR 可作为有效参考，以更好地描绘mid-level器官（大多数是软组织）难以辨别的边界。图 3 描述了分割mid-level OAR 的定性示例。可以看出，我们的方法实现了更好的视觉效果。

Table 1. 使用 1 折数据集对所提出方法的消融研究的定量结果。基线网络是一个 3D P-HNN。对于 S&H OAR，除基线之外的所有方法都在预测的 VOI 上进行分割。性能通过DSC（单位：%）、HD（单位：mm）和ASD（单位：mm）来衡量。

Fig.3 使用不同设置的mid-level OAR定性分割。七列是 RTCT 图像中的七个代表性轴向切片。为了更好地比较，我们使用红色箭头表示改进。第一行是放射肿瘤学家的带有 OAR 轮廓的 RTCT 图像。第 3 行显示了使用anchor OAR 的影响，这有助于软组织mid-level OAR 的分割。第 4 项展示了 NAS 的影响，表明有必要针对不同的 OAR 调整网络架构。

对于 S&H 分支，我们首先使用检测分割网络报告回归中心点的准确性。如表 2 所示，S&H OAR 的中心点可以以高鲁棒性被检测到。此外，当使用anchor OARs作为支持时，回归中心点和真实中心点之间的距离误差进一步减小。在我们的实验中，我们的检测分割策略没有遗漏任何 S&H OAR，这证明了我们方法的稳健性。现在关注Table 1的分割结果，通过使用检测模块裁剪VOI，S&H OAR的分割有了显著的改进，与直接从CT分割相比，DSC从62.09%提高到71.75%。这进一步证明了我们基于处理的分层方法的价值，该方法为具有不同特征的OAR类别提供了最佳治疗。如图4所示，S&H OAR的处理分层的好处在视交叉、下丘脑和松果腺中清楚地显示出来，当仅使用RTCT进行预测时，这些部位的分割不够/缺失。

Table 2. S&H OAR 检测结果，测量回归中心点和真实中心点之间的平均距离。

Fig.4 使用不同设置的S&H OAR分割示例。为了可视化的目的，将虚线矩形放大以突出显示改进。如使用红色箭头所示，所提出的方法可在视觉上实现更好的视交叉，下丘脑和松果体分割。

Architectural Stratification

Table 1还概述了NAS提供的性能改进。可以看出，与使用基线3D p-hnn网络训练的分支相比，使用NAS训练的所有三个分支始终产生更准确的分割结果。这验证了NAS在复杂的分割任务中的有效性。对于三个分支，anchor和mid-level分支在DSC得分上分别从84.14% 到85.73% 和70.73% 到72.55% 都有相当大的性能改善，而S&H分支则提供了边界改善 (DSC得分0.82%)。对于分割 S&H OAR，检测到的热图的强先验可能已经使分割任务变得更加容易。尽管如此，考虑到 4.3节中的分层方法已经提供的显着改进。NAS 能够提高性能的事实进一步证明了它的好处。一些证明 NAS 有效性的定性示例如图 3 和图 4 所示。

对于四个卷积块，anchor 分支的搜索网络架构是 2D-kernel3、2D-kernel5、2D-kernel3 和 3Dkernel5，而对于mid-level分支，它们是 2D-kernel3、2.5D-kernel5、2D-kernel3 和 2.5D -kernel5（这里的2.5D应该就是伪3D）。这是一个有趣的结果，因为它表明 3D 内核可能并不总是以合理的大小作为分割对象的最佳选择，因为混合的 2D 或 P3D 内核在这两个分支中占主导地位。因此，通过使用适当设计的 2D 或 P3D 架构，可以避免用于 3D 网络的大量计算和内存。对于 S&H 分支，四个卷积块的搜索架构是 2D-kernel3、3D-kernel5、2D-kernel3 和 3D-kernel5。可以看出，使用了更多的 3D 内核，这与具有低对比度的小对象更多地依赖 3D 空间信息以获得更好的分割的直觉一致。

直觉上，让网络在OAR级别上搜索会很有趣。然而，由于仅自动分层anchor OAR的复杂性比C⁹42×更昂贵，因此NAS在计算上变得难以负担。

Comparison to State-of-the-art

Table 3 使用 H&N 42 OARs 数据集上的 4 折交叉验证比较了 SOARS 与 3 种最先进的 (SOTA) OAR 分割方法，即 UNet [4]、PHNN [12] 和 UaNet [38]。我们还测试了 anatomyNet [47]，但它始终遗漏了非常小的器官，因此我们不报告其结果。尽管 P-HNN [12] 在anchor和 S&H OARs 分割上与 UaNet [38] 取得了相当的性能，但它降低了mid-level OARs 的性能。 UaNet 是 3D Mask R-CNN [13] 的修改版本，它在检测到的框中进行对象分割。因此，它将整个复杂的任务分解为检测和分割，这可能是与 PHNN [12] 相比mid-level OAR 有更好的分割精度的原因。尽管如此，尽管 PHNN 简单得多，但仍然能够在 S&HOARs 上匹配或击败 UaNet，证明其作为 SOARS 的基线和骨干方法的有效性。在考虑 SOARS 时，与所有竞争对手相比，可以观察到所有指标的一致改进，与 UaNet [38] 相比，绝对 DSC 增加 4.70%，HD 误差减少 2.22mm。

Table3 使用4折交叉验证分割42个H&N OAR的不同方法的定量结果。我们提出的SOARS在所有指标中实现了最佳性能 (以粗体表示)。

MICCAI2015 Challenge

我们使用 MICCAI2015 数据集作为外部数据集来进一步证明 SOARS 的泛化性。与其他比较方法类似，我们使用 MICCAI2015 训练集从头开始训练我们的框架。我们得到的平均 DSC 为 82.4%，与 [38] 相比提高了 1.2%，或者比 [9] 提高了 2.1%。与竞争对手的方法相比，我们在所有 9 个 OAR 上实现了 7 次最优性能和 2 次次优性能，尤其是最困难的视交叉，与 UaNet [38] 之前取得的最佳结果相比，我们在 DSC 上取得了 3.4% 的改进。 MICCAI2015 数据集上的这些结果进一步验证了我们方法的有效性和一致性，增强了其价值。

Conclusion

这项工作提出了 SOARS，这是一种将 H&N OAR 分割分层为两个维度的新颖框架。受临床实践启发，我们将 OAR 分为anchor、mid-level和 S&H 三类，并为每类提供定制的处理框架。重要的是，mid-level和 S&H 分支建立在anchor分支更可靠的预测之上。此外，我们对网络架构进行分层，为每个架构执行有效的 NAS。我们测试了迄今为止最全面的 H&N 数据集，其中包含 42 个不同的 OAR。与 SOTA 方法相比，mid-level和 S&H OAR 的改进最为显著。有了这个，我们证明了我们提出的 SOARS 可以在 DSC 中以高达 4.70% 的利率超过所有最先进的基线网络，包括最近的代表性工作 UaNet [38]。因此，我们的工作代表了朝着可靠和自动化的 H&N OAR 分割迈出的重要一步。

Suplementary Material
Performance of OAR segmentation
在Table 5 中，我们报告了提议的 SOARS 针对 UNet [32]、P-HNN [12] 和 UaNet [38] 的逐类 DSC。在表 6 中，我们报告了针对 UNet、P-HNN 和 UaNet 提出的 SOARS 的逐类 HD。对于这两个指标，SOARS 在 42 个 OAR 的最佳表现中取得了 30 个。就 DSC 而言，SOARS 在颞叶和颞下颌关节分割上的表现略逊于 UaNet。然而，DSC 差异相对较小。我们在图 5 中展示了与 UaNet 的一些定性比较结果，其中使用红色箭头表示改进。

Table5. H&N 42 OAR数据集上的Dice得分比较 (单位: %): Lt为left的缩写，Rt为right的缩写。Const是收缩肌的缩写，SMG是下颌下腺的缩写，而TMjoint是颞下颌关节的缩写。拟议的SOARS在42个器官中达到30个 (粗体) 的最佳性能。

Table6. H&N 42 OAR 数据集上的平均 Hausdorff 距离比较（单位：mm）：Lt 是 left 的缩写，Rt 是 right 的缩写。常量。缩肌的缩写，SMG 下颌下腺的缩写，TMjoint 颞下颌关节的缩写。提议的 SOARS 在 42 个 OAR 中的 30 个（粗体）中取得了最佳性能。

Fig.5 使用 UaNet 和提议的 SOARS 的mid-level（左侧）和 S&H（右侧）OAR 分割的定性图示。七列是 RTCT 图像中的七个代表性轴向切片。第 1 列显示来自放射肿瘤学家的 OAR 标签，而第 2 列和第 3 列分别是 UaNet 和建议的 SOARS 的预测分割结果。为了更好地比较，我们使用红色箭头表示改进。出于可视化目的，虚线矩形被放大以突出 S&H OAR 分割的改进。
Performance of S&H OAR detection
在Table 7 中，我们使用检测分割网络报告了回归中心点的分类检测精度。此外，我们通过保留前 1000 个最大强度体素来对回归热图和真实热图进行二元化，并报告它们的 HD。请注意，由于耳蜗在空间上被内耳包围，我们使用单个热图，即耳朵，用于两个 OAR 检测。如表 7 所示，与仅使用 RTCT 图像的检测相比，我们实现了 13.7 mm 的平均 HD 减少（从 18.9 mm 到 6.2 mm）。所有 OAR 的 HD 均降低，尤其是泪腺、视交叉和松果体。这些显着的 HD 降低表明锚 OAR 可作为有效参考来更好地检测 S&H OAR 位置。

Table7. 测量回归和真实中心点之间的平均距离以及二值化回归和二值化真实热图之间的 Hausdorff 距离的详细 S&H 检测结果。 Lt 是 left 的缩写，Rt 是 right 的缩写。最佳性能以粗体突出显示。