用于医学图像分割的形状和边界感知联合多任务深度网络

论文地址：https://arxiv.org/pdf/1902.04099.pdf

( 类似于U-Net网络encoder和decoder结构，其中decoder部分是由三个并行的decoder组成。包括mask prediction、contour prediction和distance map estimation，一个解码器学习分割掩模预测和其他两个解码器学习的辅助任务地图轮廓检测和距离估计。)

摘要（Abstract）

图像分割是医学领域的一个重要课题。近年来，许多由U-Net衍生的深度网络被广泛应用于各种医学图像分割任务中。然而，在大多数情况下，类似于U-net的网络会产生大量不连续的粗而不光滑的分段。为了提高和改进类似U-Net网络的性能，我们提出使用并行解码器，在进行掩模预测的同时，还可以进行轮廓预测和距离图估计。轮廓和距离地帮助确保平滑的分割预测。为了促进三个任务的联合训练，我们提出一种新颖的由单个编码器和三个平行解码器的结构，命名为Psi-Net（因此有一个Ψ的形状），一个解码器学习分割掩模预测，另外两个解码器学习轮廓检测和距离图估计的辅助任务。这些辅助任务的学习有助于获取形状和边界信息。我们还提出了一个新的联合损失函数的架构。损失函数由负对数似然和均方误差损失的加权组合而成。
我们使用了两个公开的数据集:
1）针对Origa数据集的任务进行视神经杯和视神经盘的分割；
2）Endovis段数据集的任务，polyp分割评估我们的模型。
我们使用我们的网络进行了广泛的实验，证明我们的模型在分割、边界和形状指标方面有更好的结果。

介绍（Introduction）

图像分割是从图像中描绘出重要结构的过程。在医学图像中识别这些结构在许多医学程序中都有应用。
以下是其中一些要点:
1）眼底视杯和视盘的分割在青光眼筛查中具有重要意义；
2）结肠镜图像中息肉的分割有助于肿瘤的诊断；
3）器官、骨骼的分割有利于手术规划；
4）肺结节的分割在胸部计算机断层扫描帮助医生区分恶性病变和良性病变。
近年来，深度学习网络[1]在医学图像分割中得到了广泛的应用，其中最常用的深度学习网络是UNet[2]。
UNet[2]是一种以图像为输入，以交叉熵为损失函数输出像素级分类概率分值的编解码型网络。该网络为不同的医学图像分割任务提供了最新成果。但是这种架构类型和使用的损失函数都有一些缺点。例如，网络的编码器块通过最大池化层对输入进行欠采样，导致空间信息丢失。类似地，将像素分类单独作为损失函数会产生不均匀的掩模边界和异常值。除此之外，损失函数没有考虑形状信息，而形状信息可以帮助改善性能。同时，利用交叉熵作为损失函数引入了医学图像中常见的背景主导感兴趣对象的类不平衡问题。为了克服上述问题，文献[1]中报道了多部著作。因此，[3]和[4]之后的架构和损失功能是我们感兴趣的。这两种工作都使用类似的架构，有一个编码器和两个并行解码器。在[3]中，解码器用于掩码和轮廓预测，而在[4]中，解码器用于估计掩码和距离图。轮廓和距离图估计作为正则化器来预测掩码。形状信息通过[3]和[4]中的轮廓和距离图来实现。==在[4]中，通过联合分类和回归方法，类不平衡问题得到了缓解，而在[3]中，由于两个解码器都作为分类器，所以类不平衡问题仍然存在。==使用[4]获得的边界是平滑的，相比于[2]和[3]，分割已经减少了离群值。但在多实例对象分割的情况下，较小的对象可能被视为离群值，导致分割效果不理想。以上讨论的总结见表一。

本文的主要贡献如下:
1）我们提出一种基于单个编码器和三个解码器的新颖多任务网络Psi-Net(形状Ψ架构)。解码器是用来学习三种不同的并行任务。掩膜预测是主要任务，轮廓检测和距离图估计是辅助任务。这些额外的任务用于规则掩模预测路径，以产生具有光滑边界的精细掩模。
2）我们提出了一个新的联合损失函数来处理这三种不同的任务。联合损失函数由掩模的负对数似然(NLL)、轮廓的负对数似然(NLL)和距离的均方误差(MSE)组成。
3）我们将我们的结果与[2]、[3]和[4]进行定性比较。以下评价指标用于进行定量比较:
——分割度量：Jaccard和Dice系数
——形状相似度度量：Hausdorff距离
——边界度量：分割评估边界使用三映射方法
对比研究表明，我们的网络在所有的评价指标上都优于其他网络，产生了更好的边界平滑的掩模。

方法学（Methodology）

A. 结构（Architecture）

Psi-Net的体系结构是一个类似U-Net的编解码器网络，左侧有一个压缩编码器路径，右侧有三个结构相似的可扩展解码器路径。结构形状类似于数学Ψ象征。编码器路径由重复的下采样操作组成，每一阶段都将特征图的大小减半。每个向下采样操作都在前面通过kernel size为3x3和stride为1的卷积运算，然后激活整线性单元(ReLU)。每个解码器块与编码器对称，并且在每个解码器层上，将来自相应编码器层的特征连接起来，有助于保留多尺度特征。编码器的最后卷积层通过4倍上采样，并作为解码块的输入。每个解码器块训练不同的任务掩码分割，轮廓提取和距离图估计。前两个是像素分类任务，后一个是回归任务。直到最后一层，模块的结构都是相同的，使用3x3卷积，在距离解码器块中输出通道数为1，与其他两个块的输入类数相等。所提网络的轮廓如图1所示。

B. 损失函数（loss function）

损耗函数由三部分组成——掩模和轮廓解码器块的负对数似然(NLL)损耗损失和距离解码器块的均方误差(MSE)损失。掩模预测采用轮廓图和距离图预测进行规则化。
总损失为：
各自的损失列于下表：

Lmask表示像素级分类误差。x是在图像Ω的像素位置。pmask(x;lmask)表示真实标签lmask经过softmax激活函数的预测概率。

Lcontour表示像素级分类误差。pcontour(x;lcontour)表示真实标签lcontour经过softmax激活函数后的预测概率。

Ldistance表示像素级均方误差。ˆD (x)是经过sigmoid激活函数后的估计距离图，D (x)是真实距离图。

实验和结果（experiments and results）

A. 数据集和预处理（Dataset and Pre-processing）

数据集描述：我们在以下两个应用中验证了我们提出的分割方法:
1）视神经杯和视神经盘分割（Optic cup and disc segmentation）：我们使用ORIGA数据集[5]进行视盘和杯的分割。该数据集包括视盘和视杯ground truth分割的650幅彩色眼底图像。彩色眼底图像尺寸为256×256。输出分割掩模采用椭圆拟合。
2）息肉分割（Polyp segmentation）：我们还使用了来自MICCAI 2018胃肠道图像分析(GIANA)[6]的息肉分割数据集。数据集由912个带有ground truth masks的图像组成。数据集被分成70%用于训练，30%用于测试。图像经过中心裁剪，大小risize为256×256。
预处理（preprocessing）：数据集只包含分段掩码。但是对于模型的训练，我们需要ground truth轮廓线和距离图。通过估计连通分量的边界，得到各连通分量的轮廓图。这些边界随后被一个半径为5的圆盘过滤器扩张。通过对掩模进行欧氏距离变换得到距离图。最终的距离映射将在掩模区域包含0，其余的像素表示该像素到掩模边界的最短距离。

B. 实现细节（Implementation Details）

所有的模型都是使用PyTorch实现的。使用Adam优化器对模型进行了150个epoch的训练，学习率为1e-4，批处理大小为4。在NVIDIA GeForce GTX 1060 GPU 6GB RAM上进行了实验。

C.评价指标（Evaluation metrics）

在本节中，A对应方法的输出，B对应实际ground truth。
1）分割评价：Jaccard index和Dice similarity score是分割最常用的评价指标。Jaccard index(也称为交并比，IoU)，定义为交集的大小除以样本集的并集的大小，计算方法如下:

2）形状相似度：利用分割后的物体形状与ground truth物体形状之间的Hausdorff距离来度量形状相似度，定义为：

D. 结果和讨论（Results and Discussion）

本节将使用的缩写包括编码器(Enc)、解码器(Dec)、掩码(M)、轮廓(C）和距离(D)。本文将提出的网络(1Enc 3Dec MCD)的结果与以下网络进行比较。

一种网络(1Enc 1Dec M)[2]，其中有一个编码器和一个解码器，负对数似然（NLL）作为掩码预测的损失函数。
一种网络(1Enc 2Dec MC)[3]，其中一个编码器和两个解码器，NLL作为掩模和轮廓估计的损失函数。
一种网络(1Enc 2Dec MD)[4]，带有一个编码器和两个解码器，NLL作为掩码的损失函数，MSE作为距离图估计的损失函数。
1）标准的评估（Standard Evaluation）：由表II可以看出，网络1Enc 3Dec MCD在Dice和Jaccard上的性能优于网络1Enc 1Dec M、网络1Enc 2Dec MC和网络1Enc 2Dec MD。这种性能的提高可以归因于使用了两种辅助的正则化器，即轮廓检测和距离图估计，而不是单一的规则化1Enc 2Dec MC和1Enc 2Dec MD。网络1Enc 2Dec MC和1Enc 2Dec MD都使用形状信息进行掩码细化。虽然与1Enc 2Dec MC相比，1Enc 2Dec MD提供了平滑的边界，但它在处理多个对象实例方面有一个缺点，而1Enc 2Dec MC没有这个问题。由于这两种网络是互补的，因此结合这些模型可以得到最好的结果。由于息肉的大小和形状变化较大，其分割相对于视杯和视盘分割较为困难。从表二中可以看出，我们的网络对于息肉分割的性能相比于视神经杯和视神经盘分割有了很大的提高。

2）形状相似性（Shape Similarity）：随着更好的分割，网络还应该产生分割映射，类似于关于形状[3]的ground truth掩模。这种形状相似性是通过Hausdorff距离得到的。从表II可以明显看出，与其他网络相比，我们的网络在捕捉形状信息方面做得很好。此外，对Hausdorff距离进行排序有助于得出以下推论:
- 附加辅助任务确实有助于保持形状
- 距离图估计的辅助任务比轮廓提取更好地捕捉形状
  3）边界分割（Segmentation around boundaries）：在上面的段落中，我们已经提到我们的网络可以产生边界平滑的分割掩模。平滑的边界表明边界周围有更好的分割。我们使用[7]中采用的方法来评估边界附近的分割精度。具体来说，我们计算从精确的ground truth图像中获得的实际目标边界周围的窄带(trimap)内误分类像素的相对数量。从图2中可以看出，我们的方法对于不同宽度的trimaps误差较小。
4）定性的比较（Qualitative comparison）：我们的网络1Enc 3Dec MCD与1Enc 1Dec M、1Enc 2Dec MC、1Enc 2Dec MD的定性比较如图3所示。为了更好地理解我们模型的改进，我们只展示了polyp数据集的输出。与1Enc 1Dec M和1Enc 2Dec MC网络预测的掩模相比，我们的网络和1Enc 2Dec MD预测的掩模平滑且没有异常值，如图的前两行所示。在图的第三行，我们可以看到网络1Enc 1Dec MD在多实例对象分割时失败，而我们的网络和1Enc 2Dec MC表现的很好。第四行显示了我们的网络优于其他网络的情况。

总结（Conclusion）

本文介绍了一种具有单编码器和三个并行解码器的Psi-Net网络。三种解码器分别用于掩模预测、轮廓提取和距离图估计。我们还引入了一个联合损失函数来优化所提出的网络。实验结果表明，该结构保持了良好的形状，具有较好的边界输出，提高了分割性能。

Psi-Net: Shape and boundary aware joint multi-task deep network for medical image segmentation（论文翻译）相关推荐

【医学+深度论文：F14】2018 Joint Optic Disc and Cup Segmentation Based on Multi Label Deep Network
14 2018 T-MI (IEEE Transactions on Medical Imaging ) Joint Optic Disc and Cup Segmentation Based on ...
【论文】医学影像 | Elastic Boundary Projection for 3D Medical Image Segmentation 论文汇报 (CVPR 2019)
医学影像 | Elastic Boundary Projection for 3D Medical Image Segmentation 论文汇报 (CVPR 2019) 原创联系邮箱:xiangc ...
Joint Pose and Expression Modeling for Facial Expression Recognition 论文翻译
Joint Pose and Expression Modeling for Facial Expression Recognition Abstract 面部表情识别是一项具有挑战性的任务,因为在任 ...
Joint Discriminative and Generative Learning for Person Re-identiﬁcation 论文翻译
Joint Discriminative and Generative Learning for Person Re-identiﬁcation 概要介绍相关工作方法生成模块自我身份生成(s ...
Gated-SCNN: Gated Shape CNNs for Semantic Segmentation论文笔记
论文介绍作者认为之前的semantic segmentation的工作将所有信息都放入到了CNN的网络之中(这其中包含了颜色.边界.纹理等信息),这不太理想,所以作者在regular stream的 ...
Multi task learning多任务学习背景简介
2020-06-16 23:22:33 本篇文章将介绍在机器学习中效果比较好的一种模式,多任务学习(Multi task Learning,MTL).已经有一篇机器之心翻译的很好的博文介绍多任务学习了 ...
multi task训练torch_采用single task模型蒸馏到Multi-Task Networks
论文地址. 这篇论文主要研究利用各个single task model来分别作为teacher model,用knowledge distillation的方法指导一个multi task model ...
多智能体强化学习Multi agent，多任务强化学习Multi task以及多智能体多任务强化学习Multi agent Multi task概述
概述在我之前的工作中,我自己总结了一些多智能体强化学习的算法和通俗的理解. 首先,关于题目中提到的这三个家伙,大家首先想到的就是强化学习的五件套: 状态:s 奖励:r 动作值:Q 状态值:V 策略: ...
[论文阅读] ICCV2015 Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition
Joint Fine-Tuning in Deep Neural Networks for Facial Expression Recognition 论文链接:https://ieeexplore. ...

Psi-Net: Shape and boundary aware joint multi-task deep network for medical image segmentation（论文翻译）