基于深度学习的检测和阶段分级优化糖尿病视网膜病变的诊断

Deep learning‐based detection and stage grading for optimising diagnosis of diabetic retinopathy

Abstract

**Aims:**建立一种自动化方法，使用基于深度学习的病变检测和分期，识别可参考的糖尿病视网膜病变（DR），定义为中度非增殖性DR及以上。

Materials and Methods:一组12252张符合条件的糖尿病患者眼底图像由45名持证眼科医生手动注释，并随机分为培训、验证和内部测试集（比例为7:1:2）。另一组565张符合条件的连续临床眼底图像被建立为外部测试集。对于自动可参考的DR识别，基于是否包括两个因素，编程了四个深度学习模型：DR相关病变和DR分期。报告可参考DR识别的灵敏度、特异性和受试者工作特征曲线下面积（AUC），报告病变检测的精确度和召回率。

Results: 将病变信息添加到五阶段分级模型中，可以提高模型在内部测试集中识别可参考DR的AUC（0.943对0.938）、敏感性（90.6%对90.5%）和特异性（80.7%对78.5%）。将分期信息添加到基于病变的模型中可增加AUC（0.943 vs.0.936）和用于在内部测试集中识别可参考DR的模型的灵敏度（90.6%对76.7%）。在外部测试集中也可以看到类似的趋势。高精度结果的DR病变类型包括视网膜前出血、硬渗出物、玻璃体出血、新生血管、棉絮斑和纤维增生。

**Conclusions:**本文所述的自动化模型利用DR病变和分期信息来识别可参考的DR，并显示出比没有此信息构建的模型更好的诊断价值。

**关键词：**深度学习、糖尿病视网膜病变、病变检测、筛查、阶段分级

1 | INTRODUCTION

糖尿病视网膜病变（DR）是糖尿病的主要并发症，已成为全世界视力下降的主要原因。1-3中国的情况同样严重，中国有1亿多糖尿病患者，DR患病率约为30%。4基于彩色眼底图像的DR早期筛查被公认为预防失明的有效措施。5,6建议无视网膜病变或轻度非增殖性DR（NPDR）患者每年进行筛查，而中度至重度NPDR和增殖性DR（PDR）患者需要咨询视网膜专家进行进一步评估、更密切的随访或治疗。7延迟诊断DR可能会导致可转诊DR的比率升高，在筛查延迟3年或以上的患者中，发生增殖性视网膜病变的风险高出四倍。8,9鉴于对大规模DR筛查的高需求，眼科医生的缺乏已成为及时进行DR筛查的瓶颈，尤其是在发展中国家。10-12因此，一项高度优先的任务是在糖尿病患者中识别那些需要转诊给眼科医生的视网膜病变患者。13

在过去几年中，使用基于卷积神经网络（CNN）的深度学习技术自动识别DR越来越受到关注。14-17 CNN模型在一定程度上模拟了人脑的分层信息处理机制。给定一幅输入图像，CNN模型从处理原始像素开始，学习逐层执行信息抽象，最终生成高级语义，如图像中呈现的对象和场景。现有的基于CNN的DR识别方法遵循上述程序，并进行二元预测18,19；彩色眼底图像分为可参考或不可参考的DR.7

在一个典型的临床场景中，眼科医生对可转诊DR的诊断基于特定病变的存在，这也转化为特定DR阶段。对于眼科医生的诊断，每张眼底照片主要关注与DR相关的病变。20基于这些病变，根据国际临床DR分类系统将图像分为DR分期。中度或重度NPDR患者将被转诊至视网膜专家进行进一步评估。但对于机器的诊断，最先进的方法，如Gulshan等人18 Gargeya等人21和Ting等人15，能够在不考虑病变信息的情况下识别可参考的DR识别。22因此，他们的预测缺乏临床解释，尽管其准确性很高。与之前的模型不同，在本研究中，我们开发了一个基于CNN的模型，该模型明确地从给定的眼底图像检测病变，并随后分析检测到的病变进行五阶段DR分级。病变检测不仅改善了可参考的DR识别，而且还为决策解释提供了一种手段。

2 | MATERIALS AND METHODS

2.1 | Data source

这项研究遵循了**《赫尔辛基宣言》**的原则。本研究中使用的彩色眼底图像是回顾性获取和识别的。道德审查和机构审查委员会获得豁免。我们的研究数据集包括22948张糖尿病患者的眼底图像。在这些图像中，10678张高度可疑的DR图像（可能包含DR病变）是从公开的Kaggle DR数据集23中选择的，而其余的图像是从北京协和医院数据库和天津医科大学眼科医院糖尿病视网膜病变筛查项目数据库中随机选择的，其中包含高度可疑的DR图像。此外，我们还从2016年1月1日至2018年1月1日期间在北京协和医学院医院检查室接受眼底摄影的糖尿病患者中收集了750张连续图像，这与上述数据库不同。每只眼睛都被各种型号的相机捕捉为以黄斑为中心的35–45°视野的图像，包括佳能CR1/DGi/CR2、Topcon NW和Optovue iCam相机。眼底图像中的激光疤痕提示有激光光凝治疗史。因此，国际临床DR分类系统不再适用。因此，进行手动检查，从所有数据集中排除带有激光疤痕的图像。

2.2 | Data annotation

我们的注释团队由45名中国执业眼科医生组成（包括论文的五位作者）。所有这些人都接受了由视网膜专家小组设计的课程的培训，并在由50幅标准DR图像组成的DR分级测试中达到了85%的一致性。数据集中的每幅图像都由至少三名眼科医生独立评分和注释。此外，分级和病变标签的一致性检查由经过培训的质量控制视网膜专家进行。有问题的图像被提交给至少五名眼科医生组成的审查小组进行进一步讨论；多数票被用来达成最终决定。在以前的研究中，可参考的糖尿病性黄斑水肿被定义为黄斑中心一个椎间盘直径（1.5 mm）内的任何硬渗出物（HE），18在本研究中，我们没有考虑糖尿病性黄斑水肿的存在，因为单凭一张二维眼底图像不足以确定黄斑水肿的存在。24

为了便于手动分级和注释，我们开发了一个基于网络的注释系统，并提供原始图像的自适应增强（高对比度）版本以供参考（图1A、B）。根据2003年国际临床DR分类系统的规定，每幅图像被分为五个DR级别之一，即无DR、轻度NPDR、中度NPDR、重度NPDR和PDR。如果所有DR病变都是可分级的（见图S1A），25个图像质量也被归类为“优秀”好“如果1-2个图像质量因子（焦点、照明、伪影或不包括整个视神经头和黄斑）存在问题（见图S1B）；”“如果3-4个图像质量因子存在问题，但所有DR病变都是可分级的（见图S1C）；”如果一个或多个DR病变无法分级，则不足以完全解释（见图S1D）；“不足以进行任何解释”（见图S1E）。

眼科医生对不同颜色和任意形状病变边界的可参考DR相关病变进行了注释，包括视网膜前出血、HE、玻璃体出血（VH）、新生血管（NV）、棉絮斑（CWS）、纤维增生、视网膜内出血、视网膜内微血管异常（IRMA）、静脉串珠和微动脉瘤（MA）（图1C）。

2.3 | Lesion‐based DR classification models

我们的病变检测器基于CNN，名为病变网络。拟定的病变网络有两个分支（图2A）。上分支采用了公认的Inception-v3模型18,26的卷积层，该模型最初设计用于可参考/不可参考的DR分类。15,18,27在下分支中，我们使用完全卷积网络（FCN-32s）进行像素级病变分割预测。通常情况下，所有病变的阈值都设置为0.5。从验证集中学习阈值可能有助于提高性能，但这不是本文的重点。请注意，对于正常图像，预测的病变评分不会全部为零，更多细节见支持信息材料。

使用卷积块将病变分割预测转换为权重，然后通过元素乘法将权重添加到上分支中获得的特征图中。在这种架构下，模型利用了预测的病变。对于DR评分，输出分数的形状为5×15\times 15×1，即DR0-DR4的概率（五阶段模型，其中DR0对应“无DR”，DR1对应“轻度NPDR”，DR2对应“中度NPDR”，DR3对应“重度NPDR”，DR4对应“PDR”）。对于可引用/不可引用的DR分类，形状应为2×12\times 12×1，这是可参考DR和不可参考DR的概率（两类模型）。

为了使小病灶更清晰可见，我们使用高分辨率图像作为输入，其大小为3×896×8963\times896\times8963×896×896像素（带有RGB通道）。尽管特征尺寸将降低到2048×28×282048\times28\times 282048×28×28在小病灶的表现可能不可见的卷积中，但病灶特征仍然存在。调整病变特征的大小时，特征图的像素不再是RGB像素，而是高维向量。这些向量保留了病变特征，可以通过上采样恢复到与原始图像分辨率相同的分割图像。

对于网络训练，我们采用了权重衰减为0.0001、动量为0.95的随机梯度下降法进行优化。批量大小设置为4。每1000批进行一次验证。如果连续四次验证后验证性能没有改善，则学习率除以10。如果连续10次验证后验证性能没有改善，则停止培训。

2.4 | Controlled models

我们还建立了不考虑任何病变信息的对照模型（图2B）。我们为DR阶段（DR0–DR4）培训了一个五阶段模型，为可参考/不可重复DR培训了一个两级模型

2.5 | Statistical analysis

对于可参考/不可参考的DR分类，我们报告了受试者操作特征（ROC）曲线下面积和曲线下面积（AUC）、敏感性、特异性、参考kappa和F1评分，以评估测试集中的模型性能。27-29灵敏度计算为正确预测的阳性例数除以阳性例总数。特异性计算为正确预测的阴性例数除以阴性例总数。

推荐kappa用于评估两个注释者之间的推荐一致性。F1评分计算为敏感性和特异性的调和平均值。我们将DR0和DR1视为不可逆DR，将DR2、DR3和DR4视为可参考DR。因此，我们还报告了从五阶段模型转换为可参考/不可逆DR预测的DR阶段的敏感性、特异性和转诊kappa。

为了评估我们的病变检测模型的有效性，我们根据预测的相关成分和基本事实计算了精确度和召回率。30,31对于病变的每个预测连接组件，如果超过50%的像素被ground truth覆盖，则认为预测病变是正确的。精度计算为正确预测的连接部件数除以预测的连接部件总数。类似地，对于ground truth中病变的每个连接组件，如果超过50%的像素也被预测覆盖，则ground truth病变被认为是成功检测到的。召回率的计算方法是成功检测到的连接组件数除以地面真实值中连接组件的总数。只有具有可接受精确度（>0.5）和召回率（>0.1）值的病变被纳入病变网络模型。经过初步实验，我们发现模型很难在单色眼底图像中检测到静脉串珠和IRMA。静脉串珠F1评分为0，IRMA评分为0.06。因此，病变检测模型包括八种病变（视网膜前出血、HE、VH、NV、CWS、纤维增生、视网膜内出血和MA）。对于每个大小为3×896×8963\times 896\times 8963×896×896的输入图像，FCN-32s输出八个896×896896\times 896896×896个病变预测，对应八种病变。由于多个病变在实践中可能存在重叠，因此允许预测单个像素。

3 | RESULTS

3.1 | Data analytics of DR grading and lesion annotation

在排除低质量（如图S1D、e）、不一致的注释图像（如图S1F，可注释为DR2或DR3）和带有激光斑点的眼底照片（如图S1G）后，12252张图像符合纳入内部数据集的条件（见图S2）。注释后，在训练和验证集中，1018张图像（10.39%）被评定为无DR，1384张图像（14.12%）被评定为轻度NPDR，5497张图像（56.08%）被评定为中度NPDR，896张图像（9.14%）被评定为重度NPDR和1007张图像（10.27%）被分级为PDR（见表1）。因此，7400张图像（75.49%）被分级为可参考DR，2402张图像（24.51%）被分级为不可参考DR。在这些图像中，确定了8种独特的病变类型和234946种注释。表1显示了这些病变的分布。最常见的病变类型是视网膜内出血，其次是MA和HE，分别有110100、84348和28612条注释。

对于内部测试集，DR分级的分布与培训和验证集大致相同（见表1）。在外部测试集中，565张图像在注释后符合纳入条件，61张图像（10.80%）被评定为无DR，36张图像（6.47%）被评定为轻度NPDR，323张图像（57.16%）被评定为中度NPDR，97张图像（17.17%）被评定为重度NPDR，48张图像（8.50%）被评定为PDR。因此，468张图像（82.83%）被评为可参考DR，97张图像（17.17%）被评为不可参考DR。

3.2 | Performances of DR classification models

Inception-v3和我们提出的损伤网络的性能如表2所示。这些模型的ROC曲线如图3所示。

关于向模型中添加病变信息是否能提高诊断价值，对于五阶段模型，病变网络可以增加内部测试集中的AUC（0.943对0.938）、敏感性（90.6%对90.5%）和特异性（80.7%对78.5%）、转诊kappa（0.696对0.677）和F1评分（0.854对0.841）。在外部测试集中，我们发现两种模型的诊断价值趋势相同，不包括AUC（0.982对0.982）。对于可参考/不可恢复DR的二元模型，与仅基于眼底图像的模型相比，病变网增加了两个测试集的AUC（内部测试集为0.936对0.928，外部测试集为0.977对0.964）。

为了确定分期信息是否影响模型的诊断价值，在病变网络模型中，我们将DR分期转换为可参考/不可重复的DR，并增加AUC（0.943 vs.0.936，0.982 vs.0.977），敏感性（90.6 vs.76.7%，95.7 vs.95.1%），在五阶段模型的内部和外部测试集中，与可参考/不可参考DR模型中的测试集相比，分别获得了参考kappa（0.696对0.677，0.815对0.812）和F1评分（0.854对0.844，0.948对0.929）。类似地，在眼底图像的Inception-v3模型中，五阶段模型的AUC、敏感性和转诊kappa也有所增加。

3.3 | Precision and recall values for lesions in the lesion detection model

表S1总结了病变检测模型中病变的精确度和召回结果。病变检测模型中DR分级的准确度结果如下：视网膜前出血，0.909；他，0.874；VH，0.846；内华达州，0.837；CWS，0.801；纤维增生，0.780；视网膜内出血，0.577；马，0.498。病变检测模型中DR分级病变的召回结果如下：视网膜前出血，0.607；他，0.495；VH，0.283；内华达州，0.363；CWS，0.573；纤维增生，0.687；视网膜内出血，0.798；马，0.164。这些病变在DR分级中是独特的。

4 | DISCUSSION

我们的研究表明，深度学习网络可用于训练基于病变的模型，以获得具有可接受AUC、敏感性和特异性值的可参考DR。在最先进的CNN模型Inception-v3中添加病变信息，在识别可参考DR的敏感性和特异性方面提高了诊断的一致性，表明病变信息改进了自动可参考DR识别。将五阶段模型预测的DR阶段转换为可参考/不可参考的DR，比两类模型获得更好的AUC，这表明从详细的阶段信息中学习改进了自动可参考DR识别。

深度学习在很大程度上依赖于输入和输出信息来构建隐藏层中的复杂神经网络。31,32因此，我们推测，通过提供详细信息，例如病变信息或DR分期信息，计算机可以“了解”更多信息，从而更好地执行可参考的DR识别。

虽然一些主要的参考DR识别模型，如Gulshan等人、18 Ting等人15和Li等人提出的方法等，27例获得了可接受的敏感性（87%–100%）、特异性（73%–99%）和AUC（0.89–0.99）结果，这些模型仅基于彩色眼底图像进行训练。这些模型的局限性在于它们缺乏可解释性，因为它们不能提供可参考DR的诊断依据。此外，这些模型不能提供病变注释的精确结果，甚至不能提供DR的等级，为临床医生识别可参考DR提供了有限的参考。

可参考的DR原则基于DR分期，DR分期取决于DR相关病变。对于基于病变的自动或半自动DR评估，之前的研究在使用低水平图像处理技术检测少数病变（主要是MA、视网膜内出血和HE）方面取得了巨大进展。例如，Fleming等人33和Pires等人34开展了利用病变检测结果改善DR筛查性能的研究。然而，由于这种病变检测方法基于低水平的图像处理，因此需要根据病变仔细设计特殊检测器，并使用精心设计的图像特征。例如，Niemeijer等人35使用69维特征向量进行红色病变检测，而另一个83维F I G U R E 3使用不同模型的ROC曲线。（A）在内部测试集中转换为可参考/不可参考DR的五阶段模型曲线，（B）在内部测试集中识别可参考/不可参考DR的模型曲线。（C）在外部测试集中转换为可参考/不可参考DR的五阶段模型曲线，（D）在外部测试集中识别可参考/不可参考DR的模型曲线。糖尿病视网膜病变；ROC，接收器操作特征WANG等人——10个特征向量中的第7个用于明亮病变检测。这些传统的基于计算机的技术在很大程度上依赖于手工制作的功能和特殊规则，因此不容易推广到检测其他类型的病变。

最近，**一些作者使用CNN可视化技术，并使用特征重要性热图（红色、绿色和蓝色）显示眼底图像中的异常区域。**21根据2003年DR分类指南，25对于中度或重度NPDR，模型需要专门识别中度NPDR病变（视网膜内出血、HE、CWS等）和PDR病变（视网膜前出血、VH、NV和纤维增生）。在临床实践中，重要的是不仅要做出准确的诊断，还要了解决策背后的原则。我们的病变网络模型同时容纳了八种常见的DR病变类型，为可参考的DR提供了良好的诊断解释。我们的病变检测模型可以提醒医生仔细检查与DR相关的病变，并帮助他们做出更准确的诊断。

然而，在我们的模型中，某些病变的精确性和召回率还不够高。对于我们在初步实验中发现识别能力较低的IRMA和静脉串珠病变，眼科医生的注释中也存在争议性病变。IRMA的外观通常很微妙，并被邻近的糖尿病病理学所掩盖，可能很难通过临床检查进行诊断。36 Li等人27的研究也出现了同样的问题，因为他们发现，在深度学习DR模型中，未检测到的IRMA占所有假阴性病例的77.3%。另一方面，如Chen等人37所述，在DR中表现为静脉扩张的静脉串珠在DR中的患病率较低（重度NPDR，2.1%）≥2个象限；PDR，27.1%≥2个象限）。由于静脉扭曲和图像模糊，此类病变的精确度和召回率受到限制。微小的视网膜内出血病变在模糊图像中难以识别，并且可以与其他病变融合，这可能会增加机器学习方法识别的难度。对于某些DR病变的有限回忆结果，我们发现我们的模型偶尔会在相同颜色的特征图中错误地将drusen识别为HE，将视网膜下出血识别为VH。对于MA，我们模型的敏感性和特异性也有限，这可能是由于图像模糊或多个病变融合被视为小出血，如Abramoff等人7所述。然而，在筛查项目中，MA仅对无DR和轻度NPDR起决定性作用，这两种药物都属于不可逆DR，因此对确定可转诊DR的影响很小。

我们的研究有一些局限性。首先，由于外部测试集中从连续的临床DR患者中收集的样本数量有限，因此外部测试集中可参考的DR比例较高。这可能是因为三级医院的可转诊DR比筛查项目更常见，这可能会影响我们模型的诊断价值。第二，在我们的研究中，我们上面提到的某些类型的病变的精确性和召回结果是有限的。应收集这些病变的更多训练数据，以提高我们模型的性能。第三，在我们的训练数据中，相对较低的IRMA、静脉串珠、视网膜前出血和NV（椎间盘NV/NV其他部位）的发生率可能为病变检测提供有限的信息，因为它们被认为是严重NPDR和PDR的确凿证据。第四，我们的研究图像是从高度可疑的DR数据库中收集的，这可能会影响现实世界中DR转诊的结果。

总之，建立了一个自动化的、可解释的、可参考的DR筛查模型。我们的模型可以更好地执行可参考的DR识别，并提供病变和分期信息，医生可以在其中“双重检查”他们的发现，因为这些在临床实践中很重要。我们的工作非常重要，因为它通过提供临床可解释性，推进了基于深度学习的DR识别，并为糖尿病患者提供了更容易获得可参考DR的精确筛查和监测的可能性。