Channel Splitting Network for Single MR Image Super-Resolution医学图像超分阅读笔记

Channel Splitting Network for Single MR Image Super-Resolution

TIP2019
paper: https://arxiv.org/abs/1810.06453

文章目录

Channel Splitting Network for Single MR Image Super-Resolution
- 摘要
- 背景
- 方法
- 数据集
- 实验结果
- 总结

摘要

在许多临床应用中，渴望获得高分辨磁共振（MRI）图像，因为它有助于更精确的后续分析和早期临床诊断。单幅图像超分辨率(SISR)是提高磁共振图像空间分辨率的一种有效且经济的替代技术。在过去的几年里，基于深度学习技术的SISR方法，尤其是卷积神经网络，在自然图像上取得了最先进的性能。然而，随着网络越来越深，信息逐渐被削弱，训练变得越来越困难。这个问题对于医学图像来说更加严重，因为缺乏高质量和有效的训练样本使得深度模型容易出现欠拟合或过拟合。然而，现有的许多模型对不同通道上的层次特征进行了等价处理，这不利于模型对层次特征进行有区别、有针对性的处理。为此，我们提出了一种新的通道分离网络(CSN)来减轻深度模型的表示性负担。所提出的CSN模型将层次特征分为两个分支，即残差分支和密集分支，它们具有不同的信息传递。残差分支能够促进特征重利用，而密集分支有利于探索新特征。此外，我们还采用合并-运行映射来促进不同分支之间的信息集成。在包括PD、T1和T2图像在内的各种磁共振图像上的大量实验表明，所提出的CSN模型获得了优于其他最先进的SISR方法的性能。

背景

空间分辨率是磁共振成像的最重要成像参数之一。在许多的临床应用和研究工作中，高分辨率MRI图像通常是首选的，因为它可以用更小的体素尺寸提供更显著的结构和纹理细节，从而促进精确的后续分析和早期诊断。然而，它受到几个因素的限制，如硬件设备、成像时间、期望的信噪比和身体运动等，增加磁共振图像的空间分辨率通常会降低图像信噪比和/或增加成像时间。

在自然图像上的SR方法表现优异的性能，但是随着模型的深度或者宽度增加，通常在医学图像数据集上训练失败，如48000张PD加权的MRI二维图像。表现在如下两个方面：

针对医学图像，结构较浅、参数较少的模型容易训练，但性能较差。
结构较深、参数更深的模型性能较好，但难以用MRI图像进行训练。

解决方案：

作者发现EDSR的原始配置很难训练单通道的2D的MRI图像，通过将一个3D体积的所有96个切片组合成一个96通道的训练样本，以牺牲性能的代价可以成功训练。因此作者提出了通道分离网络（CSN）来解决深度网络单通道2D MRI图像难以训练的问题，该方案基于假设：层次特征具有一定的聚类特性，明确区分它们有利于减轻深度模型的表征负担。因此，作者将前一层的特征图分为两个分支：残差分支和密集分支，利用merge-and-run(MAR)映射用于促进不同分支的信息融合。

CSN具有以下两个特点：

通道分离有区别地将层次特征限定在不同簇，并通过减少内部连接来减少模型的表示型冗余。
MAR映射可以促进层次特征之间的信息共享和集成，有助于改善信息流向整个网络。

方法

网络架构

与SRCNN一样，CSN由三个部分组成：特征提取、非线性映射、图像重建。

特征提取：由Conv3+Conv1+Conv3组成，作者认为：不同通道上的特征也包含图像SR的上下文空间信息，使用1x1卷积有利于进一步提高提取特征的鲁棒性。

非线性映射：由n个通道分离块（CSB）堆叠而成，以学习不同属性的层次特征，最后进行Concat特征融合。

图像重建：将每个CSB的输出经过Concat融合（红色框部分，文中称为全局特征融合GFF）。

文章主要的就是CSB，下面进行介绍。

CSB的思想直接来源于CMSC网络的Stacked MSC：

上分支黄色的conv表示3x3卷积，下分支的蓝色的conc表示5x5卷积，可以看到每个小分支为一个残差结构，通过双流结构整合不同感受野的互补信息融合。CSB基于残差连接（利于特征重用）和密集连接（利于特征探索）改进如下：

Fig3.(b)为Stacked MSC结构，Fig3.( c)为本文所提结构，可以看到作者提出三点改进：1）将原始特征图沿通道方向分成两个部分；2）所有卷积均为3x3卷积；3）上分支为类残差结构，下分支为类密集连接结构。Fig3.( c)的流程可用公式表示：

Hi−1⊤\mathcal{H}_{i-1}^{\top}Hi−1⊤和Hi−1⊥\mathcal{H}_{i-1}^{\bot}Hi−1⊥分别表示上分支和下分支转换函数。由上式第二项可知Fig3.©中“M”操作为将输入的两者相加之后再除以1/2，或者说以0.5的权值进行相加。

数据集

选用两种退化方式：双三次下采样（bicubic downsampling, BD）、k空间截断（k-space truncation, TD）

数据集：IXI dataset: 581 T1 volumes, 578 T2 volumes and 578 PD volumes. 求三种的交集，每种576 3D volumes。每个3D volume被切片然后resize成尺寸为240×240×96(height×weight×depth)240 \times 240 \times 96 (height \times weight \times depth)240×240×96(height×weight×depth)，即96个240×240240 \times 240240×240的2D MR 切片。LR图像由两种退化方式产生。对于TD退化方式，首先通过离散傅里叶变换转化到k空间，然后沿高度和宽度方向进行截断。Fig.2中n=m=4n=m=4n=m=4，Fig.3中g=64g=64g=64

训练集：1-500 volumes（48000 2D slices）

测试集：501-570 volumes（6720 2D slices）

验证集：571-576 volumes（576 2D slices）

IXI dataset切片后数据集：https://pan.baidu.com/s/1Ak3GiJk5H1Pdn3igzElb7w (kn3d).。

实验结果

C1：单通道2D切片输入

C96：一个3D volume的96个切片作为一个2D样本（96个通道）输入

总结

作者所提的CSN架构与CMSC架构基本一致，其通过通道分离和两种连接方式（残差连接和密集连）将MSC块魔改成CSB块，参数量下降一半（x4倍参数为16M），同时引入多个短跳和长跳残差连接有助于信息传输和稳定训练。该文章于2018年10月放于Arxiv上，2019年被TIP录用，应该是较早做2D MRI图像超分的文章，并且性能还不错。笔者将作者BaiDuYun切好的2D数据集（int16 .npy格式）进行尝试，发现训练时在验证集上的PSNR结果比Bicubic方法都要低，尝试使用直接使用.npy或者归一化，或者转8位.png格式，都不行，不知道作者使用的是何种预处理方式。不知大家有什么建议，感谢留言或评论！！