NeurlPS 2022 | 用于医学图像分割的类感知生成对抗Transformer
论文标题:
Class-Aware Generative Adversarial Transformers for Medical Image Segmentation
收录会议:
NeurlPS 2022
论文链接:
https://arxiv.org/abs/2201.10737
解决的问题
本论文关注的领域是医学图像分割。在分割领域,Transformer 变得越来越流行,这得益于 Transformer 可以在全局建立长范围联系(long-range dependencipes)。但目前而言其也有其缺点,下面首先介绍传统 Transformer 在分割领域表示出来的一些不足。
1.1 传统Transformer只有单尺度特征表示
传统 Transformer 使用 Self-Attention 来计算特征表示(feature representation),如 [2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(arxiv.org)[1] 论文所示,将图片块类比于句子中的单词,通过 embedding 进行注意力计算,最后得到的特征表示不具有多尺度概念。但在图像分割中多尺度特征对最后的结果也许会有很重要的提升。
1.2 传统Transformer采用的tokenization具有很大的盲目性
如 [2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(arxiv.org)[1] 所示,传统 Transformer 进行硬分割,将多少大小的像素点划为一个 patch,之后便送入 Transformer Encoder Module 中进行计算,这样固然可以连接全局联系,但在图像分割中我们总有需要关注的重点,例如本篇医学领域论文所需要重点关注器官、人体组织等局部部分,而其他背景区域则很可能对最终目标构成干扰。所以如何采取更具针对性的 tokenzation 方法也是十分重要的。
1.3 传统分割网络架构没能很好利用语义上下文
传统分割网络在得到特征表示后进行像素级别的分类,这个过程并不能完全利用好特征表示中的上下文特征。
解决问题的方法
2.1 使用CNN实现多尺度特征表示
如图所示,这里使用 ResNet 作为特征提取网络以得到多尺度特征图,并将多尺度特征图作为输入,以此来解决传统 Transformer 中单尺度的问题。这里共得到 4 个不同尺度的特征图,分别为:
2.2 使用Class-Aware Transformer Module实现针对性取样
上文分析过原 Transformer 使用硬分割选取 token 导致取样不具备针对性,在分割任务中也许会掺揉一些背景 token 导致准确率下降。这里受 [2108.01684] Vision Transformer with Progressive Sampling(arxiv.org)[2] 启发,采用迭代式方式逐步找到想要关注的局部信息。这里首先以原论文中的 tokenization 方法进行说明。
▲ 迭代式取样方法图解
看输入和输出,对于输入的特征图 我们最终希望可以得到具有关注度价值的取样 token,这里假设最终取样 个样本,对于 的情况下,最后输出便是 。
现在问题便是如何迭代取样。在迭代初始阶段,我们没有任何偏好,采用标准 ViT 中的均匀取样方法。值得注意的是,标准 ViT 中将取样的中心点和周围点一起构成一个 ,而这里仅仅采用中心点作为 。以上过程可以表示为如下公式:
这里 表示第一次迭代过程的第i个取样,由取样数最终为 ,可以理解 H、W 分别取样 n 个,类似 ViT 将原图划分为 个块,于是 、 分别表示每个块的边长,、 则分别表示每个块的一半长度,加上这部分便得到每个块的中心点,于是前面部分便是得到第几个块的长度,以下 GIF 为展示:
对于选取的点集合 在相应特征图 中通过双线性插值得到相应的 token ,之后如图所示进行下列计算
这里便得到了该阶段的 ,而整个过程是一个迭代过程,这里预测下一阶段取样点坐标通过公式
这里 通过一个 MLP 形式 得到的取样偏移矩阵,这样上一阶段取样坐标加上偏移坐标便得到这一次迭代的取样坐标。
本论文借鉴该思想,可以看到本论文中的模块示意图和 [2108.01684] Vision Transformer with Progressive Sampling(arxiv.org)[2] 中的模块示意图表示过程相同。
2.3 使用GAN训练策略更好利用上下文语义信息
如标题所示,使用 GAN 的训练策略来使网络更好地利用像素级上下文信息,通过分割图像和 GT 图像进行对抗性的零和游戏,使分割图像更好地对分割部位信息进行学习。在涉及 GAN 网络和图像分割同时处理时,这里将不同任务的损失函数取权重相加,构成这里的损失函数。
实验证明有效性
3.1 整体网络有效性
首先介绍四个评价标准,DSC 和 Jacard 倾向于分割内部的相似性,即分割部位重叠越多该得分越高;95HD 和 ASD 倾向于分割边缘的平均距离,即平均距离越小则边缘越重合。
可以发现在所有框架比较中,CATformer 和 CASTformer 都取得比其他网络框架更好的效果。这里有趣的是 CATformer 和 CASTformer 的比较,CATformer 的DSC 和 Jaccard效果比 CASTformer 好,但在 95HD 和 ASD 标准处却不如CASTformer。这里我猜测,相较于 CATformer,CASTformer 使用了 GAN 的训练方式,在损失函数处使用了 DICE Loss,该损失标准偏向于内部重叠而忽略了边缘部分,导致使用了 GAN 网络训练方式在内部重叠标准处取得了较好结果,但在边缘处反而效果有所下降。
3.2 实验结构有效性(消融实验)
A. 迁移学习的有效性:
可以看到在使用 pre-trained 的模块在各个衡量标准上都起到较好效果,尤其在 CASTformer 中对 G、D 的消融实验中可以看到仅对 D 进行预训练也可以提升准确率,这说明 D 部分对更好利用语义信息起到促进作用。
B. CAT 和 TEM 模块的有效性:
3.3 参数选择有效性
A. 迭代次数 N 和取样数 n 选择:
B. 损失函数权重参数
C. GAN网络损失函数选择
D. 分割损失函数选择
E. Decoder选择
这里 FPN 是指 Feature Pyramid Network。
F. 取样方法选择
3.4 可视化
这里箭头初始点是初始取样位置(p1),箭头的终端是最终取样点位置(p4)。通过可视化可以发现取样点的偏移方向倾向于高度语义相关的地区,这也证明了 CAT 模块的有效性。
这里是注意力分布概率的可视化结果。注意力分布概率表示是 query patch 和 key patch 点积的 Softmax 结果分布,这里可以表示其他 patch 与 Query patch 的联系关系。
从可视化结果可以看出,在 layer1 到 layer4 的第一组 layers 中,模型中与 Query patch 具有相关联系的 patch 只是在色彩或纹理上有一定相似性,表明这里模型并没有建立起类知晓性质(class−awarenessproperty)。
而在 layer5 到 layer6第二组中可以发现模型开始关注那些与 Query patch 类系统的 patch,这里表现为在 layer5-2 中开始取样相同类的 patch,在 layer5-3 和 layer5-6 中关注所在类的边界。
而在更深的 layer 中,可以看到模型的注意力开始集中,并且开始关注其他类,这表明模型已经建立起类意识。
参考文献
[1] https://arxiv.org/abs/2010.11929
[2] https://arxiv.org/abs/2108.01684
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
NeurlPS 2022 | 用于医学图像分割的类感知生成对抗Transformer相关推荐
- UTNet 用于医学图像分割的混合Transformer
点击上方"计算机视觉工坊",选择"星标" 干货第一时间送达 作者丨李响 来源丨 GiantPandaCV 文章目录 1 概述 2 浅析 Transformer ...
- (脑肿瘤阅读笔记:四十六)KIU-Net用于医学图像分割和体积分割的过完备卷积网络架构
目录 Title:KiU-Net: Overcomplete Convolutional Architectures for Biomedical Image and Volumetric Segme ...
- EEG- gan:用于脑电图(EEG)大脑信号的生成对抗网络2018
EEG-GAN: Generative adversarial networks for electroencephalograhic (EEG) brain signals Abstract 生成对 ...
- METD-Medical Transformer:用于医学图像分割的门控轴向注意力Transformer
目录 Title:Medical Transformer: Gated Axial-Attention for Medical Image Segmentation 摘要-Abstract 本文的提出 ...
- 【论文笔记】UNet++:一种用于医学图像分割的嵌套U-Net结构
本文是<UNet++: A Nested U-Net Architecture for Medical Image Segmentation>论文的阅读笔记.强烈建议大家去看下作者对这篇论 ...
- 生成对抗网络(GANs)的资料小结,另附:资源|17类对抗网络经典论文及开源代码(附源码)
1.GANs的一些资料链接 ************************************************** *********************************** ...
- 最新《医学图像分割》综述,详述六大类100多个算法
来源:专知 医学图像自动分割是医学领域的一个重要课题,也是计算机辅助诊断领域的一个重要分支.U-Net由于其灵活性.优化的模块化设计和在所有医学图像模式中的成功,是最广泛应用的图像分割体系结构.多年来 ...
- 【半监督医学图像分割 2021 TMI】SimCVD 论文翻译
文章目录 [半监督医学图像分割 2021 TMI]SimCVD 论文翻译 摘要 1. 介绍 2. 相关工作 3. 方法 3.1 总览 3.2 任务制定 3.3 基础体系结构 3.4 边缘对比蒸馏 4. ...
- 医学图像分割综述:U-Net系列
文章目录 Medical Image Segmentation Review:The Success of U-Net 摘要 引言 分类法 2D Unet 3D U-Net U-Ne的临床意义和疗效 ...
最新文章
- 十三、序列化和反序列化(部分转载)
- celery 停止任务_celery异步任务框架
- js插件类库组织与管理
- 数据科学的完整学习路径—Python版
- 2.14 文件和目录权限chmod
- python与数据思维基础笔记_Python小课笔记--Python基础:数据和函数(二)
- 利用HttpSessionListener实现网站在线人数统计功能
- Linux 中显示所有正在运行的进程
- Python机器学习:梯度下降法007使用scikit中的随机梯度下降法
- C++之继承探究(一):继承的概念
- android r 编译找不到头文件_嵌入式开发之交叉编译程序万能命令_以freetype为例...
- android调用完自己写的app之后如何返回原来的android应用_App逆向篇 神器之 Frida...
- 【ubuntu】配置zsh
- 高糊马赛克秒变高清,「脑补」面部细节,表情帝:这还是我吗?
- html布局源代码实例,网页实际案例-从设计到代码实现全过程(一)
- 【数据结构】图的存储结构—邻接矩阵
- 搜索引擎(二)网页排名算法(1)PageRank
- php eclipse aptana,Eclipse安装Aptana插件(注意对应版本问题)
- hp服务器改系统启动项,hp笔记本如何进入bios修改启动项
- Frodo and pillows CodeForces - 760B
热门文章
- Java currentTimeMillis() 对比 nanoTime()
- PowerShell中的破折号问题
- Android自定义AlertDialog的控件获取操作
- 综述科普:单细胞测序技术下的小鼠脑部DNA甲基化图谱
- pandas对dataframe的两列取交集并集
- 远程连接寝室linux,求救啊。。。一个寝室怎么连网打红警?。。急急啊!
- 深度学习高级,Keras多输入和混合数据实现回归模型
- vc++/mfc截图 保存和显示
- Flutter的菜鸟教程十七:动画-渲染动画
- 学习linux编程(一)