More accurate and efficient segmentation of organs-at-risk in radiotherapy with Convolutional Neural

More accurate and efficient segmentation of organs-at-risk in
radiotherapy with Convolutional Neural Networks Cascades
发表期刊：Medical Physics(医学三区)
发表时间：2019年

Abstract

Purpose: 放射治疗中危险器官 (OAR) 的手动描绘既耗时又主观。自动化和更准确的分割在临床应用中至关重要。本研究的目的是通过一种名为卷积神经网络 (CNN) 级联的新型网络进一步提高分割精度和效率。
Methods: CNN Cascades 是一种两步从粗到细的方法，由简单区域检测器 (SRD) 和精细分割单元 (FSU) 组成。 SRD首先使用相对浅的网络来定义器官所在的感兴趣区域（ROI），然后FSU将较小的ROI作为输入，并采用深度网络进行精细分割。本研究使用了 100 名具有分割的头颈部患者的成像数据（14,651 个切片）。将性能与最先进的单个 CNN 在准确性方面与 Dice 相似系数 (DSC) 和 Hausdorff 距离 (HD) 值的度量进行了比较。
Results: 所提出的 CNN Cascades 在每个 OAR 的准确性上都优于单个 CNN。同样，对于所有 OAR 的平均值，它也是最好的，平均 DSC 为 0.90（SRD：0.86，FSU：0.87，U-Net：0.85），平均 HD 为 3.0 毫米（SRD：4.0，FSU：3.6 , 和 U-Net: 4.4)。同时，CNN Cascades 将每位患者的平均分割时间分别减少了 48% (FSU) 和 5% (U-Net)。
Conclusions: 所提出的两步网络通过减少输入区域展示了卓越的性能。这可能是一种有效的分割方法，可提供准确和一致的描绘，减少临床医生对临床应用的干预，以及多中心临床试验的质量保证。
Keywords: automated segmentation; radiotherapy; deep learning; CNN cascades

Introduction

现代放射治疗技术，如调强放射治疗 (IMRT)、体积调制放射治疗 (VMAT) 和 TOMO 治疗，能够为肿瘤靶点创建高度适形的剂量分布，因此可以更好地保护个体风险器官 (OAR)以减少辐射引起的毒性。放射治疗计划的精度不断提高，需要在计算机断层扫描 (CT) 图像中准确定义 OAR，以充分实现这些技术进步所带来的好处。然而，该程序通常由医生手动执行，不仅耗时，而且由于显著的解剖结构变化（例如肿瘤反应），在治疗过程中可能需要重复多次。描绘的准确性还取决于医生的经验，在包括头颈癌 (H&N) 在内的多个疾病部位，观察者间和观察者内 OAR 的描绘存在相当大的差异 [1-3]。

用于放射治疗的完全自动化的 OAR 描绘方法有助于使医生从这个苛刻的过程中解脱出来，并提高准确性和一致性。人工智能 (AI)，尤其是卷积神经网络 (CNN) [4-7] 是解决这一问题的潜在工具。人工智能有可能改变医学物理研究和实践的格局[8-10]，CNN 在分割中的效用是大势所趋。 CNN 由几个卷积层和池化层组成。提取多级视觉特征并自动进行预测。人们越来越关注将 CNN 应用于放射治疗 [11-15]。该小组（Ibragimov 和 Xing）率先将 CNN 引入放射治疗轮廓 [11]，与最先进的算法相比，在 H&N 部位取得了更好或相似的结果。很快，一些品种网络模型 [12, 13] 在其他解剖部位取得了成功，并有资格用于临床 [14, 15]。这些方法在一定程度上提高了轮廓一致性并节省了医生的时间。然而，提高准确性和效率对于广泛采用是非常可取的。

CNN 的主要缺点之一是其可扩展性差，输入图像尺寸大，这在医学图像中很常见。在对孤立器官进行分割时，背景通常是不相关的，并且会分散主要任务的注意力。因此，CNN 承受着相对较大的背景数据集的负担，这会影响分割性能，尤其是对于较小的器官。我们的工作受到医生执行器官分割任务的方法的启发。对于大图像中的单个器官（例如脊髓），他们通常首先关注相对较小的感兴趣区域（ROI）（例如脊柱），然后在 ROI 内描绘单个器官。在这里，我们提出了 CNN Cascades 以类似的方式分割 OAR。它应用了两个级联网络，其中第一个用于定位，第二个用于精确分割。通过滤除大图像中的干扰物，所提出的方法可以将处理能力集中在器官的特定识别特征上，同时减少分割所需的时间。许多计算机视觉任务 [16, 17] 都有类似的机制，称为“注意模型”，最近 He 等人 [18] 提出了一个 Mask R-CNN，它添加了一个分支，用于与现有分支并行预测对象掩码边界框识别检测。与现有方法相比，本研究具有三个主要的新贡献。首先，所提出的方法不需要实例分割方法（例如Mask R-CNN）所需的大量额外的边界框手动注释。它的好处是它采用了自注意力机制来关注 ROI，并且只需要轮廓的ground truth。这将大大降低训练数据准备的复杂性。其次，我们分别训练了两个深度 CNN，即 SRD 预测分割掩码以缩小输入区域和 FSU 以实现精细分割。它允许在流程的每个组件中使用任何现有方法，并且可以对每个模型进行微调以实现更准确的最终分割。最后，所提出的方法可以以矩形框的形式快速定位 OAR 区域，其中包含 OAR 周围的有用信息。只使用小区域进行精细分割，大大提高了效率。

Methods and materials

Data and Pre-processing

本研究使用的影像数据集可通过癌症影像档案 (TCIA) [19] 公开获得。它由 100 个头颈部鳞状细胞癌 (HNSCC) 患者的图像和 DICOM RT 数据组成 [20, 21]。患者仰卧位进行模拟 CT 扫描。重建CT图像，矩阵大小为512×512，层厚为2.5或3.0 mm。总共有 14,651 个二维 (2D) CT 切片。像素大小为 0.88-1.27 mm，中值为 1.07 mm。放射治疗轮廓由放射肿瘤专家直接在 CT 上绘制，然后用于治疗计划 [20]。本研究中研究的相关 OAR 是脑干、脊髓、左眼、右眼、左腮腺、右腮腺和下颌骨。

图像数据在 MATLAB R2017b（MathWorks，Inc.，Natick，Massachusetts，United States）中进行了预处理。从 Dicom 图像读取的原始 CT 数据是 16 位的。使用函数“mat2gray”将其转换为 0 到 1 范围内的强度图像，然后乘以 255 以创建 8 位数据。遵循对比度限制的自适应直方图均衡 (CLAHE) 算法 [22] 来增强对比度。用于 CNN 的最终数据是 2D CT 切片和相应的轮廓标签。这些过程是完全自动化的。

CNN Cascades for Segmentation

在这项研究中，我们介绍了一种使用基于感兴趣区域的串行连接 CNN 进行 OAR 描绘的自动分割方法。图 1 描述了 CNN 级联的流程图。这是一个端到端的分割框架，可以预测 CT 图像中的像素类标签。与当前单一的 CNN 方法不同，我们使用两个级联网络来提高准确性和效率，包括一个简单区域检测器 (SRD) 和一个精细分割单元 (FSU)。 SRD 和 FSU 分别使用深度扩张卷积神经网络 (DDCNN) [12] 和非常深扩张残差网络 (DD-ResNet) [13]。两者都是使用 CNN 将图像中对象的每个像素分类到给定类别的分割网络。 SRD 使用相对较浅的网络来识别器官所在的 ROI，然后 FSU 使用 ROI 图像通过非常深的网络对器官进行精细分割。

Fig.1 CNN Cascades 的整体框架。

具体来说，SRD的输入是2D CT图像（CT尺寸：M×M），输出是一个OAR的类别分割（尺寸：M×M）。然后计算分割 OAR 的中心 © 并将其定位在每个 CT 切片中。以 C 点为中心，在 CT 图像中选择一个包围 OAR 的正方形 ROI，尺寸为 M/n × M/n（大器官 n = 2，小器官 n = 4）。接下来，将 ROI 放大 n 倍至原始大小 M×M 渲染一个放大的 CT 图像（CTROI），该图像用作 FSU 的输入进行精细分割。最终结果是从原始图像中 FSU 的输出中恢复的。 SRD 可能产生了假阴性或假阳性 ROI。包含假阳性 ROI 的切片会将更多图像引入到精细分割的第二步，不影响最终性能；但是，包含假阴性 ROI 的切片将丢失。根据我们的经验，我们粗分割可能忽略的边界处的最大切片数为 3。为了避免丢失这些信息，我们在上边界和下边界分别考虑了 5 个切片。在这些 CT 切片中，用线性外推法估计分割 OAR 的中心。通过 ROI 选择和精细分割操作，CNN Cascades 可以学习将处理和区分能力集中在与特定器官相关的图像部分上。

Experiments

CNN Cascades 的性能通过 5 折交叉验证进行评估。数据集被随机分成 5 个大小相等的子集。对于每个验证循环，将 80% 的数据作为训练集来“调整”分割模型的参数，其余 20% 的案例作为测试集来评估模型的性能。

对于数据增强，我们采用了一些最流行和有效的方法，例如在 0.5 和 1.5 之间随机调整大小（缩放因子：0.5、0.75、1、1.25 和 1.5）、随机裁剪（裁剪大小：417×417）和随机训练数据集的旋转（-10 到 10 度之间）。这种综合方案极大地扩大了现有的训练数据集，使网络能够抵抗过拟合。

SRD 和 FSU 这两个网络是独立训练的，并且仅在推理阶段进行组合。每个网络的模型参数使用在 ImageNet 上训练的相应模型的权重进行初始化，然后使用训练数据进行“微调”。由于内存限制，我们对具有浅层网络的 SRD 使用了 12 的批量大小，对具有深度网络的 FSU 使用了 1 个批量大小。输入图像及其相应的分割标签用于使用 Caffe [23] 的随机梯度下降实现来训练网络。我们使用“poly”学习率策略，初始学习率为 0.0001，学习率衰减因子为 0.0005，动量为 0.9。 SRD 和 FSU 模型都针对 80K 迭代进行了微调。

Quantitative Evaluation

交叉验证集用于评估模型的性能。验证集的所有 2D CT 切片都被一一分割。输入是 2D CT 图像，最终输出是像素分类（1 表示分割目标，0 表示背景）。分割目标的边界被提取为轮廓。由经验丰富的医生生成的手动分割 (MS) 被定义为参考分割。分割精度使用两个指标进行量化：Dice相似系数 (DSC) [24] 和 Hausdorff 距离 (HD) [25]。它们都测量了自动分割 (A) 和手动分割 (B) 之间的不匹配程度。 DSC 使用真阳性 (TP)、假阳性 (FP) 和假阴性 (FN) 的定义计算为 DSC = 2TP/(2TP+FP+FN)。它的范围从 0（表示两个分割之间没有空间重叠）到 1（表示完全重叠）。 HD是从A中的一点到B中最近点的所有距离中最大的。较小的值通常代表更好的分割精度。

此外，我们将我们的 CNN Cascades 的性能与医学分割中最先进的 CNN 方法（U-Net [7] 和 FSU）进行了比较。我们还评估了 SRD 粗分割的准确性。分析和比较了四种方法对每个 OAR 的 DSC 和 HD 值。所有值均表示为平均值 ± SD。首先通过单因素方差分析 (ANOVA) 检验进行均值的多组比较。如果显著，则通过最小显著性差异 (LSD) 检验进行事后检验，以检测所提出的方法与其他每种方法之间是否存在显着差异。所有分析均使用设置为 <0.05 的 p 值进行。

Results

Accuracy

详细结果如表 1 和表 2 所示。从定量评估指标可以看出，与其他方法相比，所提出的 CNN Cascades 方法给出了最好的准确度。所有 OAR 都比 U-Net 和 SRD 具有显着优势（p<0.05）。尽管 LSD 测试显示 CNN Cascades 和 FSU 之间的某些指标（左眼和下颌骨的 DSC，以及左眼、右眼和左腮腺的 HD）并不那么显着，但 CNN Cascades 的平均 DSC 值最高，最低每个 OAR 的平均 HD 值。

评估了使用不同方法的所有 OAR 的评估指标的平均值。 CNN Cascades 也是最好的，平均 DSC 为 0.90（SRD：0.86，FSU：0.87，U-Net：0.85），平均 HD 为 3.0 mm（SRD：4.0，FSU：3.6，U-Net：4.4） .

图 2 显示了轴向横截面的可视化器官分割。所有方法的自动分割轮廓与参考轮廓非常一致。然而，单个 CNN（U-Net 和 FSU）错过了下颌骨和腮腺的一些轮廓，尤其是在上下边界和小区域。同时，U-Net 为下颌骨产生了一些错误的散点。

Fig.2 CNN Cascades 的分割结果。

Time cost

使用 FSU、U-Net 和 CNN Cascades 进行自动分割的平均时间分别为每位患者约 10.6 (SD +/-0.8) 分钟、5.8 (SD +/-0.4) 分钟和 5.5 (SD +/-0.3) 分钟，使用带有 NVIDIA K80 GPU 的 Amazon Elastic Compute Cloud。所提出的 CNN Cascades 将平均分割时间分别显着减少了 48% (FSU, p<0.05) 和 5% (U-Net, p<0.05)。

Discussion

本研究提出了一种两步 CNN Cascades 模型，以提高 OAR 在放射治疗中的分割精度。对于所有 OAR，CNN Cascades 表现良好，与临床专家手动绘制的轮廓非常吻合。从表 1 可以看出，CNN Cascades 的性能明显优于当前最先进的网络（U-Net 和 ResNet）。所提出的方法性能更好的原因可以解释如下：使用CNN的分割基于从具有一组卷积滤波器的图像中提取的特征实现了像素级预测。放疗CT图像，图像较大，部分切片没有器官可分割。 CNN 需要使用所有切片的许多不同特征将像素分为两个区域（器官和背景）。某些特征可能与图像中的器官更相关，而其他特征可能与背景更相关。每个过滤器提取不同的特征；但是，滤波器的数量在某个 CNN 中是固定的。我们方法中的第一个网络可以预测分割掩码以缩小输入区域。通过这种方式，它可以忽略大背景，专注于优化用于分割的过滤器的参数。这意味着使用更多的参数来解决简化的问题，这势必会提高准确性。

我们将文献中报道的最常见评估指标 DSC 值与其他研究（表 3）进行了比较，发现我们的结果具有相似或更高的准确性。我们的分割是在 CT 图像上完成的；然而，磁共振成像 (MRI) 可能被推荐用于更好地描绘低对比度区域 [36]，因为与某些器官的 CT 相比，它的软组织可视化效果更好。 CT与MRI相结合的进一步研究可以进一步提高分割精度。

我们定量评估了所提出的两步框架的时间效率。所提出的方法在该过程中比单个 CNN 多一步；但是，分割时间更短。原因可能是第一个网络非常浅，可以相当快地定义 OAR 所在的区域，而第二个深度网络仅使用缩减的 CT 图像进行精细预测，节省了 2D CNN 的推理时间。

这项研究的一个限制是缺乏独立的测试集。原因是可用数据有限，分离一个独立的测试集将大大减少用于训练稳健模型的样本数量。医学研究中解决此限制的一般方法是称为 k 折交叉验证的程序。数据集被分成 k 个更小的集合。使用 k-1 个折叠作为训练数据来训练模型，并在数据的剩余部分上进行测试。重复此步骤，直到训练 k 个模型。然后将平均性能用作所研究方法的评估指标。这种方法的计算成本可能很高，但它充分利用了整个数据集，尤其是在样本数量非常少的情况下。这种方法还可以展示训练后的模型如何推广到看不见的数据，以避免故意选择具有优异结果的数据进行测试。

与用于自动轮廓的放射治疗领域中使用的最先进的网络相比，所提出的方法以相对较小的输入区域实现了更准确的分割。放射治疗分割非常需要效率和准确性。与需要对边界框进行注释的网络不同，我们的方法具有自注意力机制，仅通过标记轮廓来关注 ROI。而且，前面的两步网络通常需要一起训练；因此，独立微调这两个网络更加困难。相比之下，我们能够分别微调两个网络并优化每个网络。由于所提出的模型灵活、有效和高效，我们希望它是进一步改进放射治疗中自动轮廓绘制的有前途的解决方案。

Conclusions

所提出的具有感兴趣区域识别和精细分割的 CNN Cascades 具有来自减少的图像区域的非常深的网络，在准确性和效率方面表现出卓越的性能。它有可能应用于放射治疗临床工作流程以及多中心临床试验的质量保证需求。