神经网络 mse一直不变_使用深度卷积神经网络的儿科骨龄评估

此篇文章内容源自 Pediatric Bone Age Assessment Using Deep Convolutional Neural Networks，若侵犯版权，请告知本人删帖。

此篇文章是论文 Pediatric Bone Age Assessment Using Deep Convolutional Neural Networks 的阅读笔记。

原论文下载地址：

Pediatric Bone Age Assessment Using Deep Convolutional Neural Networksarxiv.org

摘要

骨龄评估是诊断儿童发育过程中内分泌和代谢性疾病的常用临床手段。在本文中，作者描述了一个评估骨龄的全自动深度学习方法，使用了2017年北美放射学会组织的儿童骨龄挑战赛的数据。该数据集由12600幅放射影像组成。数据集中的每幅放射影像都是检查者的左手，标记了骨龄和性别。作者的方法使用了多个可以端到端训练的深度神经网络结构。作者使用包含完整的手，以及手的特定部分的影像进行训练和预测。该方法可以测定特定手骨在自动骨龄分析中的重要性。作者在骨骼发育阶段进一步评估了所提出方法的性能。作者提出的方法优于其他常用的骨龄评估方法。

预处理

预处理流程中第一步的目的是从图像中提取兴趣区域(一个手部掩码)，并去除所有无关物体。数据集中的图像来自于不同医院，简单的背景去除方法无法达到令人满意的结果。因此，迫切需要一种可靠的手部分割技术。然而，这类算法通常需要庞大的人工标记数据集。为了降低标记成本，作者使用了一种称为正向挖掘的技术。实际上，正向挖掘是一项迭代过程，手动贴标与自动处理相结合。该方法可以快速地获取训练集中所有图像的准确掩码。

预处理方法包含两部分：首先是二值图相分割，其次是针对经过后处理的分割结果进行联通区域分析。关于图像分割，作者使用了U-Net深度网络结构^[1]。U-Net能够从一个相对小的训练集中进行学习，因此是一个与正向挖掘相结合的很好的结构。实际上，U-Net结构由一个获取上下文的收缩路径和一个对称的能够实现精确定位的扩张路径构成。收缩路径遵循由卷积和池化操作组成的典型卷积网络结构，逐步获取下采样特征图。扩张路径中的每一步都由一个特征图上采样和紧随其后的卷积组成。因此，扩张路径增加了输出的分辨率。为了定位，扩张路径中的上采样特征与收缩路径中的高分辨率特征通过 skip-combine 相连接。该结构已经被证明在数量有限的数据上能够有效地解决分割问题^[2]。作者还使用了BN技术来提升训练过程中的收敛性^[3]。

作者提出的方法中，使用了广义损失函数：

—— (1)

其中，

是二元交叉熵，定义如下：

—— (2)

是对应像素

的二元值(

是像素的预测值)。在公式(1)的第二部分，

是一个Jaccard指数的可微泛化：

—— (3)

更多细节参见文档^[2]。

在本文的工作中，作者首先使用在线标记服务 Supervisely^[4] 标记了100个掩码，每幅图像大概需要花费 2 分钟。这些掩码用于训练U-Net模型，训练完毕后用该模型在余下的训练集上进行手部分割。因为每幅图像仅包含一只手，因此仅保留了每个预测中最大的联通区域，并进行标准的空洞填充处理。这种处理方式可以在未标记的训练集上预测手部掩码，然而，目视检查发现预测掩码的质量存在不一致性，需要进一步提升。因此，作者目视地检查所有预测的掩码，只保留那些质量可接受的掩码，而丢弃其余的掩码。这一人工过程每秒大约可以处理3-5幅图像。使用新获取的高质量掩码扩充初始训练集，增加了用于分割和提升分割结果的标记图像数量。为了在整体训练集上达到一个可接受的质量，作者重复了6次该过程。最后，作者手动标记了约 100 U-Net 无法很好分割的极端样例。完整的迭代过程如图 3 所示。

原始的GP和TW2方法侧重于特定的手骨，包括指骨、掌骨和腕骨。因此，作者针对各特定区域的高分辨率图像训练了多个模型，并在后续验证了其性能。为了正确地定位这些区域，需要将所有图像变换为统一尺寸和位置，如将这些图像转换至同一个坐标空间。因此，作者的模型包含两个子模型：图像配准和特定区域的骨龄评估。

图 3 用于图像分割的使用U-Net结构的正向挖掘迭代过程：(A) 原是输入数据；(B) 使用Supervisely手动标记的掩码；(C) 新数据；(D) 原始预测；(E) 后处理过的预测；(F) 掩码处理后的原始数据，用于目视检查

关键点检测

作者的目的之一是验证手部特定区域在自动骨龄评估中的重要性。这为在具有更高分辨率的更小的图像裁剪块上执行模型提供了难得的机会，这可能会降低处理时间、提升准确率。为了裁剪一个特定区域，必须将手部图像配准，换言之，在同一个坐标空间中将所有图像对其。为此，首先，检测手部各特定关键点的坐标。其次，计算放射变换参数(缩放，旋转，平移，镜像)，将图像调整至规定位置(图 4)。

图 4 图像配准。(左) 关键点：中指尖 (黄点)，头状骨中心 (红点)，拇指尖 (蓝点)。配准位置：中指尖、头状骨中心 (白色点)。(右) 找到关键点、并进行放射变换和缩放后的配准图像。

在图像中选择了三个特征点：第三指远节指骨尖、拇指远节指骨尖、头状骨中心。所有图像均缩放值相同的分辨率：

个像素，必要时进行0填充。为了构建关键点模型的训练集合，作者手动标记了800幅图像。关键点模型是一个回归模型，关键点的像素坐标作为训练目标。配准过程如图4所示。关键点模型是一个具有回归输出的深度卷积神经网络，该模型的想法是受到了流行的VGG系列模型启发。网络结构如图5所示。VGG 模块具有两个使用ELU激活函数的卷积层、BN层、最大池化层。输入图像经过三个顺序堆叠的 VGG 块，其后是三个全连接层。三个 VGG 块分别包含64，128，256 个卷积层。对于更好的泛化，在各 VGG 块之间增加了 dropout。模型通过 Adam 优化，使用了 MSE 损失。

—— (4)

为了降低计算开销，将输入图像缩小至

像素。同时，关键点的目标坐标从

缩放至均匀方阵

。在模型检测到关键点之后的推理阶段，将其坐标投影回原始图像大小，如

。为了提升模型泛化性，将数据进行了增强：旋转、平移、缩放。模型输出包含6个坐标，每个关键点2个坐标。

下一步，计算所有图像的放射变换(缩放、旋转、平移)。目的是保留图像的比例，并将其调整至统一的位置，使每幅图像：1) 中指尖水平对齐；2) 头状骨水平对其，并且位于图像底部边缘上方约480像素的位置。按照惯例，骨龄评估使用左手放射图像，但是数据集中的某些图像是镜像的。为了检测镜像图像并将其进行调整，使用了拇指关键点。图 6 的第四行给出了分割、归一化和配准的结果。

图 5 VGG-风格神经网络结构。回归(顶部)，分类(底部)。

图 6 处理流程：(第一行) 原始图像；(第二行) 二值手部掩码，用于去除原始图像的背景；(第三行) 经过掩码和归一化处理的图像；(第四行) 配准后的图像。

骨龄评估模型

尽管CNNs普遍用于分类任务，但是骨龄评估本质上是一个回归任务。为了了解分类和回归的性能，作者比较了两类CNNs：回归和分类。两类模型有相似的结构和训练方法，仅在最后两层不同。

骨龄评估模型-回归模型

第一个模型是具有回归输出的 VGG-风格 CNN^[5]。这个网络由 6 个顺序堆叠的卷积块组成(分别具有 32，64，128，128，256，384 个卷积核)，其后是两个分别具有 2048 个神经元的全连接层，以及一个单独输出，如图5。输入图像尺寸因图像的关注区域不同而不同，如图 7。为了更好的泛化，在全连接层之前使用了 dropout 层。为了达到回归目的，将骨龄缩放至

。网络通过 Adam 优化器最小化平均绝对误差(MAE)训练，如公式 (5)。初始学习速率为

，逐渐降低到

。由于数据集大小的限制，使用了缩放、旋转、平移进行增强，避免过拟合。

—— (5)

骨龄评估模型-分类模型

分类模型(图5)与回归模型类似，仅有最后两层不同。首先，为每个骨龄分配一个类。骨龄以月为单位，因此，假设共有240个月。倒数第二层是一个具有 240 个输出的 softmax 层。该层输出一个包含 240 个类别的概率的向量。每个类的概率的值域为

。在最后一层，softmax 层乘以在 240 个整数上均匀分布的不同骨龄的向量，即

。至此，模型输出了对应骨龄期望值的单一值。作者使用与回归模型一致的方法进行训练。

骨龄评估模型-区域特定模型

根据骨骼发育阶段的目标特征^[6]^[7]^[8]，作者从配准后的图像(

像素)中裁剪了三个特定区域，如图7所示：

完整的手部 (

像素)
腕骨 (
像素)
掌骨和近节指骨 (
像素)

图 7 配准后图像上的三个特定区域：(A) 完整的手部；(B) 腕骨；(C) 掌骨和近节指骨。

骨龄评估模型-实验设置

作者将标记图像按照性别比例分为两个集合。训练集包含 11600 幅图像，验证集包含 1000 幅图像。创建了多个模型，并按以下方式细分：

类型 (回归，分类)
性别 (男性，女性，混合)
区域 (A，B，C)

基于上述条件，作者生成了 18 个基础模型 (

)。更进一步，构建了多个元模型作为区域模型的线性平均值，最后是不同模型的平均值。

参考

^Ronneberger, O., Fischer, P., Brox, T.: U-net: Convolutional networks for biomedical image segmentation. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. pp. 234-241. Springer (2015)
^^a^bIglovikov, V., Mushinskiy, S., Osin, V.: Satellite imagery feature detection using deep convolutional neural network: A kaggle competition. arXiv preprint arXiv:1706.06169 (2017)
^Ioffe, S., Szegedy, C.: Batch normalization: Accelerating deep network training by reducing internal covariate shift. In: International Conference on Machine Learning. pp. 448-456 (2015)
^https://supervise.ly/
^Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014)
^Gilsanz, V., Ratib, O.: Hand bone age: a digital atlas of skeletal maturity. Springer Science & Business Media (2005)
^Greulich, W.W., Pyle, S.I.: Radiographic atlas of skeletal development of the hand and wrist. The American Journal of the Medical Sciences 238(3), 393 (1959)
^Tanner, J., Whitehouse, R., Cameron, N., Marshall, W., Healy, M., Goldstein, H.: Assessment of skeletal maturity and prediction of adult height (TW2 method). Academic Press, London (1983)