Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis
- 背景
- 贡献
- 方法
- - 总体框架
  - Learning appearance via non-linear transformation
  - Learning texture via local pixel shuffling
  - Learning context via out-painting and in-painting
- Properties
- Experiments
- 总结

Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis

论文下载地址：Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis
代码地址：代码-Github

背景

从自然图像到医学图像的迁移学习已经成为医学图像分析最实用的方法之一。最重要的成像模式（如CT和MRI）中的3D成像任务必须在2D中重新制定和解决，但是它会丢失丰富的3D解剖信息从而不可避免地影响性能。为了克服这一局限性，作者建立了一组模型，称为通用自动教学模型。因为它们是在无需手动标记的、通过自监督学习和通用（用作生成特定于应用程序的目标模型的源模型）。通用表征学习的好处在于，单个任务的数据量不大，难以训练一个好的模型。如果将所有任务放在一起，就会有更多的数据，进而更好地提升模型的性能。

贡献

设计了一个针对三维医学图像分析的预训练模型来解决以前只能使用在lmageNet二维数据的预训练模型的问题，并且得到更好的效果：在5个医学图像的分割和分类问题上取得领先的效果。这一性能归功于统一的自监督学习框架，该框架建立在一个简单但强大的观察之上：医学图像中复杂但反复出现的解剖结构可以作为深度模型的强大监督信号，通过自监督来自动学习常见的解剖表示。Models Genesis始终领先于任何2D方法，包括微调从ImageNet预先训练的模型，以及微调Models Genesis的2D版本，确认三维解剖信息的重要性以及我们的模型Genesis对三维医学成像的意义。另外，预训练的encoder可以单独做分类，encoder-decoder结构用来做下游任务的分割等。

方法

总体框架

论文提出的自监督学习框架由两个部分组成：image deformation和图像恢复，其中采用编码器-解码器架构的架构使Genesis通过从变换后的patch恢复原始patch来进行训练，目的是学习11种常见的视觉表示，这些视觉表示可以在疾病、器官和模式之间迁移和推广，从而产生高性能的目标模型。作者建立了3D U-Net架构和带有ResNet-18encoder的U-Net结构的2D模型。
注意：`模型中的image deformation（这里是指像素值的变化，blur、noise等）≠data augmentation（是指空间的变换来扩充样本，translation、rotation等）。``
另外，图中image deformation的种类可以不仅仅只是以下的几种，还可以自行删减有用的像素值变换而不是平移旋转等普通数据增强的方式。

Learning appearance via non-linear transformation

基本原理：医学图像中的绝对或相对强度值传达了有关成像结构和器官的重要信息。例如，CT扫描中的Hounsfield unit对应于人体的特定物质。因此，强度信息可以用作像素级监控的强大来源。为了保持解剖结构的外观可感知，所以保持非线性强度变换函数的单调性，保证为不同值的像素分配新的不同值。因此使用Bézier曲线，这是一种平滑单调的变换函数，它为每个像素值分配一个唯一的值，确保一对一的映射。通过非线性变换恢复扭曲的图像块主要关注学习器官的外观（形状和强度分布）。
预处理：先裁剪再进行归一化。裁剪值：hu值在-1000到1000的范围。CT图像上需要进行这样的预处理，而X射线图像直接归一化即可，无需强度剪裁。t是端点在某条边走的长度与整条边的长度之比，具体可看下面Bézier曲线的网址。

如果想进一步了解并手动调整Bézier曲线（拖动节点）可查看这里：Bézier曲线

Learning texture via local pixel shuffling

给定一个原始patch，局部像素洗牌包括从patch中随机采样一个窗口，然后洗牌包含的像素顺序，从而生成一个变换的patch。局部窗口的大小决定了任务的难度，但保证它小于模型的感受野，并且足够小，以防止更改图像的全局内容（这与Patch Shuffling完全不同，后者是一种正则化技术，用于避免过度拟合）。为了从局部像素打乱后恢复，模型Genesis必须记住局部边界和纹理。采用局部像素洗牌作为一种新的自监督学习训练方案，使模型能够学习器官的全局几何结构和空间布局，以及器官的局部形状和纹理。从patch中随机选择1000个窗口，然后依次洗牌每个窗口内的像素。
下图等式中右边的w是指选定的要打乱像素的窗口大小，P和P'分别是m×m、n×n大小的变换矩阵，通过以下计算得到该选定窗口大小内的像素打乱后的变换结果窗口。

另外，保持窗口的大小小于网络的感受野，这样网络就可以通过“重置”原始像素位置来学习更强大的视觉表现。另外，作者探索了不同窗口大小的局部洗牌变换，并将其与原始patch一起演示。窗口大小可以控制失真的程度。一定范围内的局部混洗保持了对象的可感知性，这将有助于深度神经网络通过恢复原始patch来学习不变的视觉表示。与去噪和painting不同，局部洗牌变换不打算用噪声替换像素值，因此保留了与原始patch相同的全局分布。

Learning context via out-painting and in-painting

通过生成任意数量的不同大小和宽高比的窗口，并将它们叠加在一起，形成一个形状复杂的窗口。然后为窗口外的所有像素分配一个随机值，同时保留窗口内像素的原始强度。至于在in-painting中，则保留窗口外的原始强度，并用恒定值替换内部像素的强度值，通过只恢复patch中心区域，将整个patch恢复到输出中，作为pretext task。Out-Painting迫使模型Genesis通过外推学习器官的整体几何结构和空间布局，而恢复则需要模型Genesis通过插值来学习器官的局部连续性。
注意：out-painting和in-painting是相互排斥的，如果对输入图像同时做这两种操作的话，那么一张图像内的像素信息经过这两种操作后就没有多少了。
下图是上述四种变换随机变换组合后的结果：

Properties

Genesis模型以自监督的方式使用大量未标记的图像数据集进行训练，无需专家标注。
从多个角度（外观、纹理、上下文等）训练模型，从而在所有目标任务中生成更健壮的模型。这种方法将多个任务合并到单个图像恢复任务中，使模型Genesis能够学习更全面的表示。
把自监督方案整合为一个单一的图像恢复任务，在训练期间共享相同的encoder和decoder。如果每个任务都需要自己的解码器，那么框架将无法容纳大量的自监督任务。通过将所有任务统一为单个图像恢复任务，任何有利的转换都可以轻松地修改到框架中，从而克服与多任务学习相关的可伸缩性问题。
模型Genesis学习一种通用的图像表示方法，可用于广泛的目标任务。具体而言，模型Genesis可用于为分类任务初始化encoder，并为分割任务初始化encoder-decoder，而现有的自监督方法主要侧重于仅提供encoder。

Experiments

简单地在3D中从头开始学习模型不一定比在2D中从ImageNet转移学习产生更好的性能，但Models Genesis始终领先于任何2D方法，包括从ImageNet微调，以及微调2D Models Genesis，证明了三维医学图像的解剖信息的重要性以及作者提出的Genesis模型对三维医学成像的意义。
3D Genesis模型优于从头开始训练的3D模型：

3D Genesis模型始终领先于任何2D方法：

2D Genesis模型提供与有监督预训练模型同等的性能：

使用统一框架训练的模型生成了一个具有更多底层结构的patch，这表明使用增强任务进行学习甚至可以提高每个单独任务的性能，每个单独的变换任务无法识别重建其他变换后的结果，但是统一的框架可以，如下图。这些观察结果表明，使用所提出的统一自监督学习框架训练的模型可以成功地学习一般的解剖结构，并在不同的目标任务上产生良好的可转移性。

总结

尽管模型Genesis的性能非常出色，但仍然需要一个用于医学图像分析的数据集（如ImageNet）。作者开发Genesis模型的目标之一就是帮助创建这样一个用于医学图像分析的大型标注数据集，因为基于一组小的专家标注好的数据集，从模型Genesis微调的模型将能够帮助快速生成未标记图像的初始粗略的标注，以供专家审查，从而减少标注工作并加速创建大型、强标注的医学图像数据集。综上所述，模型Genesis的设计目的并不是为了取代像ImageNet for cv这样的用于医学图像分析的大型强标注数据集，而是为了帮助创建一个数据集。

自监督医学图像Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis论文精读笔记相关推荐

Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis精读
数据集肺结节,PE肺栓塞,肝脏,PD肺部疾病 CIMT RoI: 脑肿瘤 LUNA16数据集是最大公用肺结节数据集LIDC-IDRI的子集,LIDC-IDRI它包括1018个低剂量的肺部CT影像.L ...
Paper--Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis
文章链接:https://arxiv.org/pdf/1908.06912.pdf Abstract 从自然图像到医学图像的转移学习已被确立为医学图像分析深度学习中最实用的范例之一.但是,要适应这种范 ...
Medical Diffusion - Denoising Diffusion Probabilistic Models for 3D Medical Image Generation
Medical Diffusion - Denoising Diffusion Probabilistic Models for 3D Medical Image Generation 论文链接:ht ...
用于三维医学图像检测的半监督学习——FocalMix: Semi-Supervised Learning for 3D Medical Image Detection
本文记录下阅读 CVPR2020论文其中的<FocalMix: Semi-Supervised Learning for 3D Medical Image Detection>,更新于2 ...
【研一小白论文精读】《Big Self-Supervised Models are Strong Semi-Supervised Learners》
[研一小白论文精读] 研一已经开学了,距离上一次自己写博客也有一段时间了,上一次写的博客我自己看简直又臭又长,这次是第二次,也不知道能不能做出一些改变.首先声明,我自己仍然是一个学术小白,理论基础极差 ...
CLIP 论文学习笔记《Learning Transferable Visual Models From Natural Language Supervision》
论文标题:Learning Transferable Visual Models From Natural Language Supervision 论文地址:https://arxiv.org/a ...
【Sentence Simplification via Large Language Models 论文精读】
Sentence Simplification via Large Language Models 论文精读 Information Abstract 1 Introduction 2 Related ...
【CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models 论文精读】
CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked Language Models 论文精读 Informat ...
【Auto-Debias: Debiasing Masked Language Models with Automated Biased Prompts 论文精读】
Auto-Debias: Debiasing Masked Language Models with Automated Biased Prompts 论文精读 Information Abstrac ...

自监督医学图像Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis论文精读笔记

目录