Deep Anatomical Context Feature Learning for Cephalometric Landmark Detection

深度解剖上下文特征学习的头测量地标检测

来源：10.1109/JBHI.2020.3002582

作者：

附：百度学术 | MICCAI论文摘要2019 |

摘要

近十年来，解剖背景特征已被广泛应用于头位测量标志的检测，目前仍有较大进展。然而，大多数现有的方法依赖于手工制作的图形模型，而不是在训练过程中结合解剖上下文，导致性能不佳。在本研究中，我们提出了一个新的框架，允许卷积神经网络(CNN)在训练过程中学习更丰富的解剖上下文特征。我们的关键思想包括局部特征扰动(LFP)和解剖上下文丢失(AC丢失)。当训练CNN时，LFP扰动基于先前解剖分布的头影测量图像，迫使CNN更全面地注视相关特征。然后AC loss帮助CNN根据地标之间的空间关系来了解解剖上下文。实验结果表明，该框架使CNN学习到更丰富的解剖表示，从而提高了性能。在性能比较中，该方案优于ISBI 2015头影x射线图像分析挑战中最先进的方法。

关键词：头影标记检测，上下文特征学习，全卷积网络。

1、介绍

在正畸和正颌外科的治疗计划中，标记侧头位影像的解剖标志是一项重要的任务。Rokasiet al.[1]提出了90个标志，矫正医师广泛接受其中19个用于各种临床目的。医生手工打标是一项费时费力、易出错的工作。据报道，一位有经验的医生花了大约20分钟来记录19个地标[2]。另一个困难来自主观判断，即人与人之间的高度差异[3]。

认识到自动地标检测的重要性，在2014年和2015年举行的IEEE国际生物医学成像研讨会上提出了巨大的挑战，与会者解决了从侧位颅脑图中自动检测19个地标的问题。在挑战中，提出了各种方案中基于机器学习的地标检测系统，并根据其检测精度进行排序。关于这两个挑战的摘要报告，我们推荐读者到[4]，[5]。

近年来，深度学习方法[6]-[9]检测标志物的性能优于其他经典机器学习方法[10]-[17]，而基于全卷积网络[18]的热图回归方法[7]、[8]取得了显著的成功。

大多数以前的方法通常遵循两个连续的阶段。在第一阶段，在产生区域建议后，他们通过调查局部的头颅图模式来找到标志性的候选区域。在第二阶段，手工制作的图形模型通过考虑解剖上下文的先验知识来微调地标位置，以提高准确性。

这种方法需要额外的手工功能设计，因此与端到端学习相距甚远;结果在很大程度上依赖于初始局部特征分析的质量。此外，由于每个区域提议都需要独立地向前执行，因此非常耗时。虽然现有的方法取得了显著的进展，但在训练过程中缺乏联合学习解剖上下文特征仍然存在局限性，导致结果不理想。

图1所示。定性说明提出的DACFL概念。绿色和蓝色的圆圈代表19个地标。利用各标志之间的几何关系预测扰动区域上的绿色标志。

我们假设在网络训练过程中同时考虑局部特征和解剖背景，深度学习能产生更好的泛化效果。本文提出了一种名为“深度解剖上下文特征学习”(DACFL)的新框架，用于在训练过程中同时学习局部和解剖上下文特征。

我们的框架是使用两个主要组件完成的，局部特征扰动(LFP)和解剖上下文丢失(AC丢失)。其关键思想是，LFP在训练过程中根据先前的解剖分布来扰动脑图图像的局部特征。因此，即使周围特征受到干扰，AC损失也考虑了所有地标之间的几何关系，从而使地标的位置在一定程度上可以预测。为了检测受干扰图像中附近像素信息不可用的地标，该网络需要对大空间范围进行更深入的语义理解。同时，AC损耗通过考虑各个路标之间的几何上下文来帮助网络确定路标的位置。通过执行DACFL的任务，网络可以实现合成丰富的上下文和局部表示的能力。说明DACFL的概念。在临床实践中，解剖类型的分类是主要目标，因此地标只是这一目标的中间表示。尽管其意义重大，但在大多数现有方法中都缺乏改进分类成绩本身的尝试。在本研究中，我们通过提出损失函数来仔细考虑这一问题。在实验结果中，我们表明所提出的DACFL在一个有效的计算时间在ISBI基准上具有最先进的性能。DACFL的主要贡献如下:

我们提出了一个新的框架DACFL，强制FCN理解更深层次的脑图语义表示，从而提高性能。我们在ISBI 2015测试数据集[5]上报告了关于里程碑式本地化的最新结果。
由于其模块化设计，所提出的模型可以很容易地适用于任何类型的FCN。
我们的DACFL模型不仅有助于减少泛化误差，而且对于局部模式变得微妙的低分辨率头颅图处理也具有鲁棒性。
我们考虑了所提出的损失函数中地标之间的几何关系，在ISBI2015测试数据集的解剖类型分类方面取得了更好的准确性。

2、相关工作

2.1 颅脑标记检测

在过去的十年中，利用机器学习技术进行颅脑标记检测取得了显著的进展。在本节中，我们根据几个标准来描述和比较它们。

对于经典的机器学习，基于随机森林(RFs)的方法[11]-[14]，[19]已被证明是有效的地标检测。其主要机制是利用回归投票方案估计地标位置，然后利用图形形状模型优化区域提案的总票数。请注意，ISBI 2015挑战赛的获胜者[10]基于RFs建立了他们的方法。

近年来，基于深度学习的脑标记方法[6]、[7]、[8]、[9]、[20]、[21]有了显著的改进。与经典机器学习不同，深度学习能够自动学习原始数据的重要表示，从而获得最优结果。它们可以大致分为以下三种范式:区域建议分类[6]-[21]、[22]、热图回归[7]、[8]、[23]、[24]和回归坐标[20]-[25]。第一个范式构建了基于CNN的框架，学习解剖地标[6]-[21]上的区域提案特征，然后将区域提案分类到地标类别;综合区域建议对地标进行定位。第二个范例是回归地标坐标[20]-[25]。他们分析了当地的模式，并直接使用多个基于cnn的回归模型预测了所有地标的x和y坐标，这些回归模型对应于地区提案的数量。在上述范例中，需要具有许多网络参数的密集层来模拟高度非线性，这可能导致过拟合问题[8]。

第三种范式不是回归坐标或图像patch分类，而是基于回归热图的图像到图像映射。他们使用FCN生成了每个地标的伪显著性地图，而没有稠密层。从而降低了计算复杂度。这样，通常将高斯分布视为热图形状，高响应分布在目标地标的质心上，同时抑制其对非地标区域的响应。在这三种范式中，热图回归范式取得了显著的进展。然而，大多数[6]、[7]-[20]方法依赖于区域建议而不是使用完全输入。此外，他们仍然使用图形形状模型作为后处理方法，以纳入解剖上下文特征[24]。这是由于[6]数据的缺乏，[8]-[26]的一些研究已经解决并讨论了这种级联过程的缺点。为了克服这一缺点，[8]提出了一种联合训练地标空间信息的空间构型网络。本研究显示了在端到端学习中达到最佳表现的潜力。然而，由于多流网络的使用，增加了网络的计算复杂度，需要对网络结构进行修改。因此，它没有可扩展性，而且很难控制它的超参数。

最近，Chenet al.[9]提出了一种基于自我注意模块的方法来提取语义增强融合特征，并优于目前最先进的方法。然而，由于该方法严重依赖于预先训练的网络(由ImageNet训练)，难以应用于3D扫描图像任务[27]。相比之下，我们的方法是从零开始训练，并且没有如上所述的限制。

2.2 丰富的表示学习

最近，人们对使用各种任务设计[28]-[33]进行丰富表示学习产生了浓厚的兴趣。作为基本的特征学习方案，去噪卷积自编码器[33]进行去噪任务，已被广泛地用于从图像中提取丰富的表示。为了理解整个图像的内容，最近的一些研究[28]，[32]，[34]-[36]设计了基于自我或非监督表示学习的各种任务。Malisiewiczet al.[36]提出了一个任务，通过分析预测目标和其他目标之间的关系来分类一个对象类别。修复基于任务的学习策略[28]-[32]随机消除一些图像补丁，然后最小化隐藏区域的像素级重建误差，以便cnn学习图像的上下文特征。针对丰富表示学习，提出了基于图像补丁的[34]匹配和[35]重组任务。Doerschet al.[34]利用模式匹配任务训练图像间的视觉相似性，模式匹配任务预测输入图像补丁相对于目标图像补丁的位置。摘要在[35]中提出了一个拼图游戏重组任务。通过解决拼图游戏，CNN学习将每个图像patch识别为一个物体部件，以及部件如何组装在一个物体中。针对弱监督目标定位的[29]-[31]研究提出了cnn倾向于关注最具鉴别性的部分的缺点，并提出了一种新的范式，通过在训练时隐藏重要的图像补丁，迫使网络寻找其他相关的部分。

通过合理设计更困难或更有意义的任务，这些范例迫使网络在需要时学习丰富的表示形式。它们已经显示出了显著的成功，无需复杂的网络修改或额外的后处理。基于此，提出的框架旨在迫使网络学习丰富和更深层次的解剖上下文特征表示。由于资料缺乏是医学影像领域的一个普遍问题，因此需要仔细考虑一些领域知识，例如解剖学背景特征。

3、研究方法

图中概述了用于地标定位的拟议DACFL的概述。并在本节中全面呈现。我们的模型是基于fcn的拉普拉斯热图回归。其主要机制是通过LFP和AC损耗两种主要方案来实现的。

首先，LFP可以看作是一种先验的基于解剖知识的数据扩充方法。它扰乱了脑图的局部模式，迫使网络在全局范围内寻找相关特征。其次，当路标的预测解剖结构与地面真实结构不同时，交流损失会导致巨大的成本。解剖结构考虑所有地标之间的角度和距离。由于所提出的系统遵循端到端学习方式，在测试阶段只需要一次前馈执行就可以定位所有地标。

图2所示。提出的DACFL框架

3.1 拉普拉斯热图回归

由于唯一的标签信息是每个地标的2D点，所以FCN的输出图设计应该小心处理。在本研究中，我们设计了一个拉普拉斯分布，其中心对应于地标位置，表明它比现有研究中使用的高斯分布[7]，[8]更适合。每个地标由一个单独的拉普拉斯热图表示，该热图是一个范围为[0 1]的归一化灰度图像。注意，在计算热图之后，我们执行了归一化过程，在[0 1]范围内进行转换。我们定义一个imageI∈RH×W，一个标志坐标集esl∈Rk×2，和一个heatmapH(x;Li， σ)∈RH×W，其中是标志的总数。定义为拉普拉斯函数:

其中σ为拉普拉斯分布的标准差，热图像素 x 在 Li 周围产生最高响应，但随着远离 Li 呈指数下降。拉普拉斯热图代表的地标比高斯热图更清晰，从而实现准确定位。

3.2 局部特征扰动器

LFP 的目的是通过使用来自原始图像 I 的扰动图像 I∈RH×W，迫使网络学习更丰富的表示。在网络训练过程中，LFP根据先前的解剖分布，随机扰动头部图的局部特征。通过干扰局部线索，我们期望网络学习到与解剖背景相关的更丰富的表示，而不是只关注局部线索。在第二部分。B，我们展示了几个相关的作品以及我们从这些作品中得到的启发。此外，该过程可以看作是一种反映解剖领域知识的数据增强，因为在每个时代，神经网络输入的是不同的被摄动的图像。在LFP过程中，利用训练数据集构造每个地标坐标上的正态分布sn (x;μi，Σi)。多元正态分布可以写成:

WhereμiandΣiare，分别为第i个地标点的均值和协方差矩阵。我们从第i个训练地标的正态分布中进行随机采样，以获得区域建议的中心坐标esci={xc,yc}。然后，我们定义了以atcia为中心的区域方案，其参数集可以写成λi={hi,wi, ci}。区域建议补丁的高度和宽度在尺度区间[minRP,maxRP]内随机和独立定义。域proposalI[λi]∈Rhi×wiare的两个对角坐标定义为:

对于特征扰动，生成的区域建议是平滑的平均过滤器b (m= 1 5)，其中的过滤器大小。Eq.(4)解释了所选区域提案的模糊操作。这个过程会破坏细节图案，比如边缘和纹理。

示例如图所示。3(白色矩形框)。具有k-number标志的LFP过程由算法i的代码描述。注意，该算法仅应用于训练阶段。在测试阶段，不使用LFP。

图3所示。基于先前解剖分布的扰动头图的视觉例子。LFP迫使网络解决更困难和有意义的问题，导致丰富的代表倾向。白色矩形代表扰动区域。左图:左后鼻脊柱及软组织棘孔、棘下受到干扰。右图:Porion、下切口、鼻下受扰。

3.3 解剖上下文丢失

对于端到端网络训练，考虑到头图标记之间的空间关系，设计了解剖上下文丢失。我们使用L2距离作为损失函数:

L2损耗负责测量网络输出(x;w)和地面真值热图sh (x;L， σ)之间的整体像素相似度，其中它代表网络权重和偏差。两个热图都由二维矩阵组成，其中19个通道对应于地标的数量。lethcandoc表示热图中各通道的全局最大值，因此由19个二维坐标组成。解剖上下文重量术语ωacis的定义是:

当解剖背景特征与参考地真实不同时，ωacweight增加了总体损失。LetAdenotes使用每个热图的全局最大值来计算所有地标之间的角度矩阵。注意，我们考虑弧度来测量角度。类似地，函数考虑所有地标之间的欧氏距离。

图4所示。用于计算角度和距离的混淆矩阵的管道。

图4显示用于计算角度和距离矩阵的管道。每个函数a，分别给出了角度矩阵和距离矩阵，它们反映了所有标志之间的空间关系，因此ω表示这些矩阵之间的相似性。当局部特征被LFP扰动时，AC loss通过考虑其他检测到的地标来帮助CNN找到一个粗略的地标位置。最后，提出的交流损耗函数lacis基本建立在加权L2损耗的基础上:

我们将AC损耗作为一个加权项而不是一个独立项的原因如下:首先，由于热图回归是至关重要的，我们希望AC损耗有助于微调其地标位置;其次，由于AC和回归损耗之间的平衡需要使用权重值，所以在使用L1、L2、交叉熵等不同的回归损耗时，我们需要将平衡权作为一个新的超参数进行调整;综上所述，我们因此将AC损耗视为一个加权项，因此它不需要控制其规模，这很容易适用于不同的回归损耗，而不需要额外的超参数控制。

3.4 实现细节

我们定量和定性地评价了这部分的地标定位和解剖类型分类性能。实验是在Intel Core i7-7800X上进行的，CPU为3.50，内存为32gb, GPU为GTX 1080。网络的训练和测试是在Pytorch中完成的。将输入的x光头片和输出的热图按固定的长宽比进行重新缩放，与原始比例相对应。

数据增强过程大致由几何变换和强度变换组成:首先，输入图像随机旋转[−25,25]并缩放[0.9,1.2];其次，我们通过随机调整亮度、对比度、饱和度和色调。在机器学习领域中，增强程序是在训练过程中提高网络正则化能力的一种非常流行的工具。对于提出的局部特征摄动器(LFP)，我们经验地设置区域建议范围[minRP= 2 0,maxRP= 6 0，被摄动的地标数k=3，区域建议的模糊滤波大小em= 1 5。我们还以1/10的概率跳过数据增强和LFP程序，以便深度学习能够学习到原始图像上的表示。由于我们的目标是预测点，我们将热图参数σ设置为5，以便拉普拉斯分布的形状变得更清晰。对于交流损耗中角度和距离矩阵的构造，我们采用了矩阵并行的方法，在网络训练时大大提高了计算效率。

就像U-Net[37]，[38]一样，我们的架构由两个重复的3×3卷积(填充)模块组成，每个模块后跟LeakyRELU和2×2最大池(用于编码层)或上采样(用于解码层)。LeakyRELU激活函数有一个负斜率，导致训练速度提高。编码层特征映射数量从64、128、256逐渐增加到512，解码层特征映射数量分别从512、256、128减少到64。跳跃连接用于连接编码器和解码器堆栈之间相同比例的输出映射。我们使用注意门(AGs)[38]来过滤通过跳过连接传播的特征映射。我们用一千五百新纪元训练网络。在训练阶段，我们使用Adam优化器最小化代价函数，最小批量为1，β_1=0.9，β_2=0.9，初始学习率为1e-4。学习速率通过余弦学习率衰减[37]降低。

4、实验和结果

4.1 数据集

实验中使用的数据是在2015年IEEE国际生物医学成像研讨会(ISBI2015)[5]的牙科x射线图像分析大挑战中提供的。收集了400例年龄在6岁到60岁之间的患者的头颅测量x线片。由两名经验丰富的医学牙医手工标记和审查19个路标，平均点被视为地面真相。为了与之前的研究进行定量比较，根据基准研究[5]中描述的评估方案，数据集被分为150次训练、150次test1(验证)和100次test2(现场竞赛)。原始图像分辨率为2400×1935像素(像素大小:0.1 mm×0.1 mm)。我们使用了尺寸为800×640的缩小后的图像，这使我们能够减少计算时间而不造成显著的信息损失。由于ground truth是一个像素坐标，在测试阶段，我们使用阈值T>0.9从预测的热图生成二值blobs，然后我们使用最大的blob的质心作为地标定位点。

4.2 评估指标

地标定位方法的性能可以通过基准研究[4]，[5]中描述的以下三个标准来评估:平均径向误差(MRE)计算径向误差R=?Δx2+ Δy2,其中Δx2andΔy2分别为预测地标与参考地标在x轴和y轴上的绝对距离。MRE和相关标准差(SD)定义如下，其中N为样本数:

错误检出率(EDR)是指在式(9)中，当被检测地标与参考地标之间的绝对差大于z mm时，将错误检出率计算在内。3.0 mm和4.0 mm的z通常用于计算EDR, 2 mm的范围是已知的临床公认参考[4]。EDR的公式如下:

其中eld (j)和lr (j)分别表示第j个landmark的预测真值和地面真值;它是2.0 mm、2.5 mm、3.0 mm和4.0 mm的四个参考范围之一。N代表集合大小，在Eq.(10)中计算错误检测的地标。

4.3 定量性能比较

根据ISBI2015基准数据对我们的DACFL进行了评估，并将我们的性能与其他先进方法进行了比较。为了进行定量比较，我们根据被引用次数和业绩的近期情况选择了相关的竞争模型。从表一可以看出，我们的DACFL和Chenet al.[9]取得了比现有研究明显更好的性能。在临床可接受范围为2 mm时，DACFL在test1+test2、test1和test2测试数据集的EDR分别达到17.92%、13.80%和24.11%。考虑到用于验证的test1数据，Chenet al.[9]优于其他方法。然而，我们的DACFL在测试2数据上表现出色，这是一个现场竞赛。此外，由于该方法是在训练的基础上从零开始建立网络模型，因此该方法简单、可扩展，适用于三维医学成像任务。然而，Chen等人[9]严重依赖于预先训练的网络模型(来自ImageNet)进行特征提取;因此，对于没有强大的预训练网络的3D医学成像任务，它仍然是一个限制。

图5所示。ISBI试验数据平均径向误差的累积分布。

图5为试验数据的MREs累积分布曲线。表i19个标志物个体的成功检出率(SDR)、MRE和SD。从表中可以看出，test1和test2图像的错误率偏差较大的是在landmarks 3 (Orbitale)，6(颏上)，13(上唇)和16(软组织伤口)。注意在常规研究[20]中也观察到同样的现象。对于速度分析，我们的网络模型每800×640头图图像只需要0.15s的执行时间。虽然由于硬件设置不同，无法进行直接的运行时比较，但很明显，我们的方法比基于区域提议的现有方法快得多(大约5 - 60秒)。众所周知，基于cnn的方法可以做到当鼓励端到端学习程序[16]时，产生的结果比其他手工方法快一个数量级。

表1：我不能量化使用错误检测方法(edr)，包括四个标准范围和平均辐射误差(mre)在isbi2015 da T集上的测量方法。从上到下:150个图像(test1)， 100个图像(test2)和250个图像(test1 + test2)

4.4 消融实验比较

在这一部分，我们描述了使用不同组合的建议模块和超参数的消融实验。

图6所示。MRE曲线根据所提出的模块组合

图7所示。MRE曲线根据不同的网络，即FCN, UNet和U-Net带注意模块。

图6显示了所提出的LFP、AC损耗和拉普拉斯注释模块组合的性能。同时使用LFP、AC损耗和拉普拉斯注释的性能最佳。实验表明，本文提出的拉普拉斯标注比高斯标注更适合于地标点的检测。这一结果很容易解释为拉普拉斯分布的最大值点附近的强度比高斯分布的更尖锐。同时, 在图7中，我们可以看到，在使用DACFL时，无论网络类型如何，性能都得到了改善。

表3：根据LFP的参数，可以对性能进行比较。它们-轴对称表示froi的随机缩放范围[min, max];轴代表随机选择的地标的数量

根据LFP的两个主要参数的性能描述在表III中，我们可以看到当ROI范围[minRP= 2 0,maxRP= 60]和兴趣地标数k=3一起工作时，误差最小。当主要参数超过这些最优值时，它往往会显示出负面影响。因此，我们不建议在LFP过程中有一个非常大的扰动。

图8所示。MRE曲线根据提出的模块组合，根据提出的模块组合。

图8为测试头图数据集在训练阶段MRE曲线的演化情况。一个相当大的性能增加观察到在1到100个时代，它似乎几乎饱和接近200个时代。然而，我们通过实验证实，在200 - 1500个epoch之间，mre从13.63逐渐提高到12.87。考虑到MRE的趋势，我们的模型在早期训练阶段快速学习到近似的地标位置，然后在剩余阶段微调其位置以实现精确定位。

图9所示。可视化结果在训练阶段。从上到下:地标定位结果(绿色=ground truth，蓝色= predicted)和地标“Sella”的热图;从左到右:纪元50、100、200、1000和1500。

从图9的可视化结果可以看出，随着时代数量的增加，地标定位有所改善的趋势。特别是“Sella”在最后一个时代的热图中心明显比之前的热图中心尖锐，导致了EDR的改进以2毫米计。为了测量我们的DACFL在缺乏局部模式的情况下的鲁棒性，我们使用多级降尺度合成的低分辨率头颅图对提出的模型进行了测试。结果如图所示。10、11。随着降尺度因子的增加，脑图的局部特征在视觉上变得不清晰。实验表明，所提出的DACFL算法在每个降尺度下都能获得较好的泛化效果。对于没有DACFL的模型，如果降尺度大于图中的1/10，地标似乎很难被发现。11 (b)。

另一方面，在我们的DACFL中，在小于1/10的小尺度条件下，地标在一定程度上是结构化的。

图10所示。降低1/20、1/15、1/10和1/5的低分辨率颅脑成像的MRE曲线比较

图11所示。可视化结果是低分辨率的头像图图像缩小1/20、1/15、1/10和1/5(绿色=ground truth，蓝色=predicted)。(a)有DACFL的结果(b)没有DACFL的结果。

图12所示。当特定区域被消除时的可视化结果(绿色=ground truth，蓝色=predicted)。从左至右:肌腱、蝶鞍、后鼻棘、鼻鼻根。

图13所示。消除特定区域时的可视化结果。从左到右:分别使用DACFL和w/o DACFL的结果(绿色=ground truth，蓝色=predicted)。

结果在图12,13清楚地表明，提出的DACFL能够在一定程度上定位其对应注释周围的三个地标，即使消除了Sella、Articulare和Porion周围的局部模式。从这些实验中，我们表明DACFL不仅能够调查局部模式，而且能够近似全局显著模式，从而在表I中获得更好的泛化性能。

4.5 解剖类型分类

根据检测到的标志，下一阶段在每次临床测量中将头颅摄影图像分为几个解剖类型。在正畸治疗领域，检测头象标志的主要原因是为了解剖类型的分类，是最终目的[5]。我们考虑了8项临床测量，分别是ANB (a点，Nasion, b点)，SNB (Sella, Nasion, b点)，SNA (Sella, Nasion, a点)，覆咬合深度指标(ODI)，前后位发育不良指标(ADPI)，面部高度指数(FHI)，法兰克福下颌角(FMA)和改进的智商评估(MW)。在每次临床测量中，使用不同的几何标准(如角度或特定地标之间的距离)，头像图可以分为三种解剖类型。

表4：八种临床测量方法用于分离型的分类。(1) anb: l5, l216之间的夹角。(2) snb: l1, l216之间的夹角。(3) sna: l1, l2l5之间的夹角。(4) odi:从5到6和从8到l10之间的夹角以及从3到4和从17到18之间的夹角之和。(5) apdi:第3和第4和第2和第7之间的夹角，第2和第5和第6之间的夹角，第3和第17和第18之间的夹角的和。(6) fhi:大鼠I o f t h后边角高度(ancefroml1tol10)与前边角高度(ancefroml2 tol8)。(7) fma:从直线1到直线2和直线10到直线9的夹角。(8) l12和l11之间的dist anceof modify-wits (mw) [19]

表5：定量分析了不同方法对分类精度的影响。基于垂直的双线，theleftistest1，和右iststest2

对于解剖类型的分类，表4描述了八种临床测量。更详细的描述可以在基准研究[5]中找到。表V, the提出的DACFL在测试1和测试2中分别报告了80.81和83.94%的最佳分类性能。特别是，尽管DACFL和Chenet al.[9]之间的地标检测性能具有竞争力，但我们的DACFL在分类性能方面实现了更好的准确性。由于所有的分类类型都是通过特定地标之间的角度和距离来测量的，我们可以预期，提出的同时考虑角度和距离的交流损耗对分类精度有积极的影响。同时，这也告诉我们DACFL成功地学习了地标之间的几何知识。

5、讨论与结论

在本节中，我们广泛地讨论了所提议的研究的方法方面和临床意义。

5.1 方法论方面

这项研究的优势在于，它提出了一个新的模块化框架，称为“深层解剖上下文特征学习(DACFL)”，该框架迫使网络学习更深层的脑图语义特征。所提出的DACFL由局部模式摄动因子(LFP)和解剖上下文丢失(AC丢失)组成，这有助于通过考虑先前的头颅图解剖知识来学习更丰富的表示。实验结果表明，该方法在ISBI 2015基准测试中表现优于其他先进方法。特别是，我们的DACFL在2.5 mm至4 mm的edr中非常稳定。

然而，观察现有方法的edr，似乎它们受到了异常值的影响。这可能是由于依赖手工制作的图形模型和裁剪过程。请注意，4毫米以内的edr表示该方法如何很好地构造了近似地标位置。如果路标被成功地结构化，4mm内的edr应该很低。在DACFL中，我们假设在提出的端到端学习方案中成功学习了解剖结构的先验知识，从而避免了极端的异常值，这与那些现有的方法不同。这也可以从我们的DACFL实现了9.36的SD，相对低于Linder[7]的11.84和Park[8]的22.36。这表明DACFL检测到的标志物分布在参考点周围的密度比其他已有的工作更密集。在低分辨率图像中的实验表明，我们的DACFL提取的特征更丰富，而不是使用局部特征;此外，我们甚至看到我们的DACFL检测，在这种情况下，局部模式被完全消除。

通过对参考地标的可视化，我们发现测试2的地标16 (Soft tissue pogonion)标注与实践中training和test1的标注有较大差异。在这方面，我们认为测试2的注释比其他的更加准确。因此，它们可以在将来通过精确的注释过程得到改进。

在解剖类型的分类结果中，我们的DACFL始终优于其他方法。由于建议的交流损耗与分类任务有很强的相关性，所以这个结果很容易被接受。特别是，虽然本文方法在测试1数据集上的定位结果低于Chenet al.，[9]，但我们观察到我们的DACFL在分类精度方面优于它。一般来说，分类精度随着定位结果的增加而增加。但在所有情况下，角度和距离都是用两到三点来测量的。根据地标的精度，每个角度和距离都有不同的值。因此，即使在landmark检测中存在细微的数值差异，在某些情况下，分类性能可能会更好。

我们的实验表明，基于fcn的热图回归策略在性能方面明显优于基于区域提议的方法。这种策略在计算效率、简单性和鼓励端到端学习方面也很有优势。由于我们的方法不使用预先训练的骨干网，这可以很容易地扩展到三维颅脑图地标检测问题[27]。在未来的工作中，我们计划将所提出的方法应用于三维颅脑成像任务。

5.2 临床意义

使用头像图测量解剖标志点的目的是为了准确分类面部类型，以诊断为基础的治疗计划。本研究的结果显示了在分类和MRE检测方面的先进表现。这似乎是由于局部特征扰动(LFP)和解剖上下文丢失(AC丢失)训练的模型的特征。利用人工智能自动检测解剖标志的优点是可以减少观察者之间和观察者内部的差异。即使是有经验的研究人员在进行大量分析时也难以保持准确性和一致性。特别是在颅脑成像分析中应用人工智能进行治疗前后对比，将提高实验分析方法的客观性和可靠性。

在侧位片的情况下，拍摄时间相对较短，所以图像不太可能模糊或扭曲。然而，即使在短成像时间内，幼儿和残疾患者也有很高的运动概率。特别是，当拍摄时间较长时，如MRI或CT，在特定的横断面图像中，图像失真是常见的。后校正技术，或在拍摄时校正图像的技术已经被研究过了。在本研究中，即使特定区域的图像发生畸变，也能相对准确地找到解剖地标点。这与之前试图在良好环境中提高准确性的研究不同。我们还进行了实验，看看在低质量图像中如何精确地找到一个解剖地标点。结果表明，即使在低质量的情况下，也具有很高的准确性。

6、参考文献

【翻译】Deep Anatomical Context Feature Learning for Cephalometric Landmark Detection相关推荐

点云网络的论文理解（四）-点云网络的优化 PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space
目录 0.Abstract 0.1逐句翻译 0.2总结 1.Introduction 1.1逐句翻译 1.2总结 2.Problem Statement 2.1翻译 2.2总结 3.Method 3. ...
[论文翻译] Deep Learning
[论文翻译] Deep Learning 论文题目:Deep Learning 论文来源:Deep learning Nature 2015 翻译人:BDML@CQUT实验室 Deep learnin ...
[论文翻译]Deep Learning 翻译及阅读笔记
论文题目:Deep Learning 论文来源:Deep Learning_2015_Nature 翻译人:BDML@CQUT实验室 Deep Learning Yann LeCun∗ Yoshua ...
[论文翻译]Deep learning
[论文翻译]Deep learning 论文题目:Deep Learning 论文来源:Deep Learning_2015_Nature 翻译人:BDML@CQUT实验室 Deep learning ...
无监督特征学习——Unsupervised feature learning and deep learning
无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优 ...
Multi-Task GANs for View-Specific Feature Learning in Gait Recognition论文翻译以及理解
Multi-Task GANs for View-Specific Feature Learning in Gait Recognition论文翻译以及理解今天想尝试一下翻译一篇自己读的论文.写的不 ...
Discriminative Feature Learning for Unsupervised Video Summarization（论文翻译）
Discriminative Feature Learning for Unsupervised Video Summarization Abstract 在本文中,我们解决了无监督视频摘要的问题,该 ...
Simultaneous Feature Learning and Hash Coding with Deep Neural Networks
Simultaneous Feature Learning and Hash Coding with Deep Neural Networks 论文下载地址自从2014年中山大学潘炎老师讲deep ...
PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space
基本简介论文下载地址:https://arxiv.org/pdf/1706.02413.pdf 代码开源地址:https://github.com/charlesq34/pointnet2 作者以及 ...

【翻译】Deep Anatomical Context Feature Learning for Cephalometric Landmark Detection