A Volumetric Transformer for Accurate 3D Tumor Segmentation
用于精确三维肿瘤分割的体积Transformer

Published: 2021
Pattern Recognition on November 01, 2021
论文:https://arxiv.org/abs/2111.13300
代码:https://github.com/himashi92/VT-UNet

摘要:
  提出了一种用于3D医学图像分割的Transformer架构。为体积分割设计计算效率高的Transformer架构是一项具有挑战性的任务。它需要在对局部和全局空间线索进行编码时保持复杂的平衡,并沿着体积数据的所有轴保存信息。所提出的体积Transformer具有U形编码器-解码器设计,该设计整体处理输入体素。编码器具有两个连续的自注意力层,用于同时编码局部和全局线索,解码器具有新颖的基于并行移位窗口的自注意力块和交叉注意力块,用于通过包含傅立叶位置编码来捕捉边界细化的精细细节。提出的设计选择产生了一个计算效率高的架构,在2021年脑瘤分割(BraTS)和用于肿瘤分割的医学分割十项全能(胰腺和肝脏)数据集上展示了有希望的结果。进一步表明,通过模型学习到的表示能够更好地跨数据集传输,并且能够抵抗数据损坏。

问题动机:
  在本文中,提出了一种基于Transformer的编码器-解码器架构,该架构可以直接处理三维体积数据(而不是将其划分为2D切片),用于体积语义分割任务。基于Transformer的架构最近在计算机视觉任务中取得了越来越大的成功。与cnn的同类模型相比,基于Transformer架构的模型不仅获得了更好的经验性能,已证明对数据讹误和遮挡具有更好的鲁棒性、高频图像噪声和对抗性扰动。此外,有人认为,Transformer是跨不同数据模式和任务的统一架构的有前途的候选。
  受到基于Transformer的视觉任务模型的强大经验结果的启发,包括图像分类物体检测;视频识别和语义分割等,推广和鲁棒性特征及其对长程相互作用建模的灵活性,提出了一种体积Transformer架构,用于分割3D医学图像形态(例如,磁共振成像、计算机断层扫描),称为VT-UNet。早期为3D医学图像开发基于Transformer的分割模型的努力,已被证明优于CNN。然而,这些方法选择将3D体积切片成图像,并将图像作为输入进行处理。因此,对于封装切片间相关性至关重要的大量且潜在关键的体积信息丢失了。而一些混合方法(使用卷积块和Transformer层)保持3D体积数据完整,基于Transformer的架构设计,能够在输入时保持完整的体积数据,是尚未探索的领域。作者的工作朝着这个方向迈出了第一步,并提出了一个模型,该模型不仅实现了更好的分割性能,而且对数据伪影表现出了更好的鲁棒性。此外,模型在参数和FLOPS的数量方面是有效的(见图1),并且其预先训练的特征在其他数据集上更好地推广。
  基于Transformer的体积分割模型的设计建立在开创性的基于编码器-解码器的UNet架构之上,该架构不仅对分割任务具有显著的吸引力,还在重建,去噪,超分辨率有很好的效果。
  虽然Transformer模型具有高度动态和灵活的感受野,并且在捕捉远程交互方面做得很好,但是为体积分割设计基于Transformer的UNet架构是一项具有挑战性的任务。这是因为:
  (1)封装体素信息和捕捉体积序列中任意位置之间的联系并不简单。与基于Transformer的图像分割方法相比,一些方法是将体积的每个切片中的数据连接到三个视图,但丢弃其中任何一个视图都是有害的。
  (2)保存体积数据中的空间信息是一项艰巨的任务。即使对于图像,在将图像分割成小块并将小块投影到token中时,如Vision Transformer (ViT)中所介绍的,局部结构线索可能会丢失,如token-to-token ViT所示。因此,对局部线索进行有效编码,同时沿着体积数据的多个轴捕获全局交互是一项具有挑战性的任务。
  (3)由于自注意力的二次复杂性和大尺寸的3D体积张量输入,设计基于Transformer的分割模型需要仔细的设计考虑,该模型计算效率高。

  提出的VT-UNet模型通过提出多个模块有效地解决了上述设计挑战。在基于UNet的架构中,开发了两种类型的Transformer块。首先,编码器中的块直接在3D体上工作,以分层的方式联合捕获局部和全局信息,这类似于Swin Transformer块。其次,对于解码器,在扩展路径中引入了并行交叉注意和自我注意,这在来自解码器的查询和来自编码器的键和值之间建立了桥梁。通过交叉注意和自我注意的这种并行化,目标是在解码过程中保持几乎全部的全局上下文,这对于分割任务是重要的。然后,并行化与傅立叶特征位置编码的正弦版本相结合,以进一步提高最终网络的学习能力。由于VT-UNet没有卷积,并且在解码过程中结合了两个模块的注意力输出,因此序列的顺序对于获得准确的预测非常重要。因此,除了在计算每个Transformer块中的注意力时应用相对位置编码,还增加了解码过程,并注入了从序列中标记的傅立叶特征位置提取的互补信息。

总之,主要贡献是:
  (1)从序列到序列的角度重构了体积肿瘤分割,并提出了一种用于多模态医学图像分割的UNet形状的体积Transformer。
  (2)设计了一个具有两个连续的自注意层的编码器块来联合捕获局部和全局上下文线索。此外,设计了一个解码器模块,它能够实现基于并行(移位)窗口的自我和交叉注意力。这种并行化使用查询的一个共享投影,并独立计算交叉和自我关注。为了进一步增强解码中的特征,我们提出了一种凸组合方法和傅立叶位置编码。
  (3)结合提出的设计选择,大幅限制了模型参数,同时与现有方法相比保持了较低的FLOPs。
  (4)进行了广泛的评估,结果表明,设计始终如一地实现了最先进的体积分割结果,同时增强了对数据假象的鲁棒性,并对预处理特征进行了更好的跨数据集概括。

思路来源:
  基于CNN的方法:最近大多数基于深度CNN的图像分割方法都建立在开创性的U-Net的架构上,这是一个完全卷积的编码器-解码器结构。例如U-Net++、h-density-unet、Res-UNet、Attention-UNet和U-Net3+。这些方法在分割和其他任务上都取得了成功。UNet体系结构首次扩展到处理3D图像,将3D卷积融合到3D UNet。随后,V-Net提出了一种多分辨率、不同阶段的体积卷积神经网络。V-Net在每个阶段都采用可学习残差函数来提高网络的计算复杂度。3D UNet和V-Net都可以直接处理3D医学图像,并凭借其跨多视图、多切片的强大特征表示学习能力,在医疗AI领域取得了巨大的成功。
  基于Transformer的方法:《Vision Transformer》对不同的计算机视觉任务显示了有前景的实证结果;一些人认为,与cnn相比,Transformer对纹理的偏向程度更小,表现出更好的泛化和鲁棒性。Transformer最近也被研究用于图像分割。体积Transformer网络(VTN),是一种神经模型,用于预测信道方向的扭曲场,并利用视觉系统中的注意机制自动定位识别对象,这是一项有趣的研究。  TransUNet是第一种基于Transformer的医学图像分割方法。它采用了UNet结构,用ViT 替换了瓶颈层,在CNN编码器生成的特征地图上应用补丁嵌入(其中输入是3D体积的2D切片)。 提出了TransUNet的不同变体,其中卷积块作为变Transformer的主要特征提取器。不像这些混合方法(同时使用卷积和自注意)。Swin-UNet,一种纯粹基于Transformer的医学图像分割网络。它继承了旋转Transformer模块,并比TransUNet有了显著改进。DSTransUNet通过在解码器中使用双Swin Transformer块扩展了swin-unet。
  最近在扩展基于Transformer的3D医学图像分割模型方面做出了一些努力。TransUnet的3D版本,称为TransBTS采用CNN编码器-解码器设计,并将Transformer作为瓶颈层。提出了用3D Swin Transformer块作为编码器和解码器的nnFormer,该编码器和解码器具有卷积的交织干。提出了一个采用Transformer作为编码器并通过跳过连接将中间编码器输出直接连接到解码器的模型。利用变形SA机制,引入了CNN Transformer与变形  Transformer (DeTrans)的混合模型。虽然这些基于Transformer的3D医学图像分割方法已经显示出了它们的前景,但它们通过将其分解为2D切片来处理体积数据,因此未能封装完整的体素信息,从而实现了比CNN的同类方法更好的性能。另一方面,作者提出的模型对体积数据进行整体处理,从而充分编码片之间的交互。提出的模型建立在变压器上,并在编码器-解码器设计中引入横向连接来执行CA和SA。这些设计元素有助于实现更好的分割性能,同时增强了鲁棒性和模型学到的特征的泛化。

实验:

  表1:BraTS 2021数据分割结果

  图4:BraTS 2021数据定性结果第1行:黄、红、白分别为瘤周水肿(ED)、增强瘤(ET)、无增强瘤/坏死瘤(NET/NCR)。第二行:分割边界。第三行:每种方法预测的体积肿瘤。

实验设置:
  使用来自多模态脑肿瘤分割挑战(BraTS) 2021,形状240×240×155的1251次MRI扫描。将1251次扫描分为834次、208次、209次,分别用于训练、验证和测试。选择BraTS作为主要数据集,因为它反映了真实世界的场景,并且在不同的机构使用不同的设备和协议获得的MRI扫描中表现出多样性。BraTS数据集包含四个不同的肿瘤子区域:(1)增强肿瘤(ET),(2)无增强瘤(NET),(3)坏死瘤(NCR),(4)瘤周水肿(ED)。这些几乎均匀的子区域可以聚在一起组成三个语义上有意义的肿瘤类别:(1)增强肿瘤(ET),(2)肿瘤核心(TC)区域(ET, NET和NCR的添加),(3)全肿瘤(WT)区域(ED和TC的添加)。

  其他数据集:还对来自医学分割Decathlon (MSD)的胰腺和肝脏数据集进行了评估;Simpson等人(2019)的肿瘤分割任务。胰腺数据集有281个CT卷,分为187个、47个、47个,分别用于训练、验证和测试。肝脏数据集有131个CT卷,分为87、22、22个CT,分别用于训练、验证和测试。此外,为了评估预训练特征的可移植性,使用MSD BraTS数据集,该数据集有484个MRI体积,分为322个、81个、81个,分别用于训练、验证和测试。
  实现细节:使用PyTorch,使用单个Nvidia RTX 3090 GPU。利用swin -t在ImageNet-1K上预训练的权值对模型进行初始化。对于训练,使用学习速率为1e−4的Adam优化器,使用余弦衰减学习速率调度程序和批量大小为1,进行300个epoch的学习。为了标准化所有的卷,执行最小-最大缩放,然后裁剪强度值,并通过删除不必要的背景将卷裁剪为128×128×128的固定大小。

  为了研究模型的泛化,作者在另外两个数据集(即MSD胰腺和MSD肝脏)上进一步评估了它。在表6中,将模型的性能与3D UNet C和nnFormer进行了比较。注意到,由于训练数据的规模较小,在这些数据集中,所有方法的总体性能都很低。然而,提出的VT-UNet在肿瘤分割这一最关键的分类上仍然优于其他比较方法。

  在这里,逐步将不同的组件集成到模型中,以研究它们对整体性能的单个贡献。表2中的实证结果揭示了在VT-Dec-Blks中引入并行CA、SA和FPE以及凸组合的重要性。可以注意到,所有这些组件都对模型的性能有贡献。还观察到,随着特征空间嵌入维度的增加(即模型的变体),分割性能有所改善。此外,从表5中可以看出,使用预先训练的重量是有帮助的,可以提高模型的性能。

总结:
  这篇文章提出了一种用于医学图像分割的体积互感器网络,该网络在处理大尺寸3D体时计算效率很高,并学习了更好地跨数据集传输的表示方式,并且对伪图像具有鲁棒性。结果表明,提出的模型实现了持续改进现有的最先进的方法在肿瘤的体积分割。相信工作可以帮助更好的临床诊断和治疗计划。注意到,在工作中考虑的公共领域数据集可能缺乏跨种族和种族的多样性。进一步注意到,目前的深度学习方法,包括作者的方法,在训练样本较少的数据集上显示出较低的结果。作者将有限样本的体积分割留给未来的研究。

[深度学习论文笔记]A Volumetric Transformer for Accurate 3D Tumor Segmentation相关推荐

  1. MICCAI2022|A Robust Volumetric Transformer for Accurate 3D Tumor Segmentation

    MICCAI2022|A Robust Volumetric Transformer for Accurate 3D Tumor Segmentation 用于精确 3D 肿瘤分割的鲁棒体积Trans ...

  2. 脑肿瘤分割学习(五):A Robust Volumetric Transformer for Accurate 3D Tumor Segmentation

    A Robust Volumetric Transformer for Accurate3D Tumor Segmentation 摘要Abstract 1.引言 Introduction 2 方法论 ...

  3. [深度学习论文笔记]Modality-aware Mutual Learning for Multi-modal Medical Image Segmentation

    Modality-aware Mutual Learning for Multi-modal Medical Image Segmentation 多模态医学图像分割中的模态感知互学习 Publish ...

  4. [深度学习论文笔记]医学图像分割U型网络大合集

    [深度学习论文笔记]医学图像分割U型网络大合集 2015 U-Net: Convolutional Networks for Biomedical Image Segmentation (MICCAI ...

  5. [深度学习论文笔记]Multi-phase Liver Tumor Segmentation with Spatial Aggregation

    Multi-phase Liver Tumor Segmentation with Spatial Aggregation and Uncertain Region Inpainting [深度学习论 ...

  6. [深度学习论文笔记]Pairwise Learning for Medical Image Segmentation

    [深度学习论文笔记]Pairwise Learning for Medical Image Segmentation 医学图像分割的成对学习 Published: October 2020 Publi ...

  7. [深度学习论文笔记]TransBTSV2: Wider Instead of Deeper Transformer for Medical Image Segmentation

    TransBTSV2: Wider Instead of Deeper Transformer for Medical Image Segmentation TransBTSV2:用于医学图像分割的宽 ...

  8. [深度学习论文笔记]UNETR: Transformers for 3D Medical Image Segmentation

    UNETR: Transformers for 3D Medical Image Segmentation UNETR:用于三维医学图像分割的Transformer Published: Oct 20 ...

  9. [深度学习论文笔记]Multimodal CNN Networks for Brain Tumor Segmentation in MRI

    Multimodal CNN Networks for Brain Tumor Segmentation in MRI: A BraTS 2022 Challenge Solution MRI中用于脑 ...

最新文章

  1. html 关闭js控件,javascript – 用JS关闭html5视频控件
  2. pandas object转float_数据分析篇 | Pandas基础用法6【完结篇】
  3. java.lang.Instrument 动态修改替换类代码
  4. Bitmap的一个简单实现
  5. linux shell后台运行
  6. 【java】将PDF转成字符串
  7. 《象与骑象人》总结一
  8. WCBuffer合并写
  9. FragmentTabHost切换Fragment时保存状态,避免切换Fragment走onCreateView和onDestroyView方法;...
  10. 线性方程组的5种描述方式
  11. 高一计算机word的试题,高一年级信息技术期末考试复习题
  12. 利用函数指针实现累加
  13. spring事件监听器系列一:应用
  14. 一个将汉字转换成拼音的npm包
  15. 卸载驱动、安装CUDA及CUDNN
  16. HHL论文第二弹(基本过程)
  17. Moonstarter IDO 一步一步的操作
  18. php 卡路里计算,那些每天计算卡路里的人,为什么永远也瘦不下来?
  19. 万网主机不支持php,万网等虚拟主机不能SMTP发信的解决方案
  20. Leetcode刷题100天—3. 无重复字符的最长子串(滑动窗口+集合+双指针)—day21

热门文章

  1. Centos 7升级内核到5.12有线网络连不上
  2. win10怎么设置锁定计算机,Win10怎么设置自动锁屏? win10自动锁屏的两种方法
  3. 小程序wx-charts的项目实用
  4. ​让饭圈女孩杀入币圈
  5. 苹果首款ARM Mac来了,浅谈ARM和Intel处理器!
  6. BES EQ调试讲解
  7. BeanCopier常用方法 - cglib.beans常用工具类
  8. python下编译py成pyc和pyo
  9. Java中Iterator用法
  10. html顶格怎么设置,Word标题顶格怎么设置