Predicting Lymph Node Metastasis Using Histopathological Images Based on Multiple Instance Learning

基于深度图卷积的多实例学习——利用组织病理学图像预测淋巴结转移

论文标题

Predicting Lymph Node Metastasis Using Histopathological Images Based on Multiple Instance Learning with Deep Graph Convolution

论文来源

[CVPR 2020]
https://openaccess.thecvf.com/content_CVPR_2020/html/Zhao_Predicting_Lymph_Node_Metastasis_Using_Histopathological_Images_Based_on_Multiple_CVPR_2020_paper.html

背景梳理

淋巴结转移诊断具有重要的临床价值，本文采用了TCGA-COAD数据集用来测试方法的效果。但是此数据集有一个问题就是全视野数字切片(whole slide image, WSL)的尺寸非常大，为100,000×50,000100,000 \times 50,000100,000×50,000 像素，无法直接将WSL输入到网络中。在本文中，作者采用多实例学习的方法，将WSL划分为512×512512\times 512512×512分辨率的图片patch，将一个WSL视作多个patch的“包”。

多实例学习是一种弱监督学习的方法，通常用于目标检测、语义分割，场景分类，医疗诊断等任务中。在多实例学习中，训练数据集由包含多个实例的“包”组成，并且只有包级别的标注。多实例学习的目标是预测每个包的标签。并且包中的每个实例并不一定是相关的，有时某些实例不包含与包的类别有关的信息，或者它们与包的其他类别更加相关。

论文贡献

提出了一种基于深度多实例学习的方法，用来预测结肠直肠癌患者的组织病理学图像中是否发生淋巴结转移
设计了一种VAE-GAN模型来生成新的实例，利用VAE的encoder部分作为特征提取器，从而可以在不知道实例标签的情况下，使用自监督学习的方法训练
设计了一种特征选择方法来选择包的特征表示中有判别性的特征
将GCN用到从实例特征生成包的特征与包级别的分类任务上

方法

网络整体的框架如下图所示，由图像预处理、实例级别特征提取、特征选择、基于GCN的分类器四部分组成。

图像预处理
由医生手工标注了ROIs也就是肿瘤区域，然后这些ROIs被划分为不重叠的patch，每个patch大小为512×512512\times 512512×512像素。

VAE-GAN
模型架构如图下图所示

该模型为VAE与GAN的结合。在VAE中输入数据x经过encoder后变为潜在表示h，使用高斯分布N(0,1)N~(0,1)N (0,1)来约束潜在表示h。VAE部分的损失函数如下：
LVAE=LLLikepixel+LKL=−Eq(h∣x)[log⁡(p(x∣h))]+DKL(q(h∣x)∥p(h))\begin{aligned} \mathscr{L}_{V A E} &=\mathscr{L}_{L L i k e}^{p i x e l}+\mathscr{L}_{K L} \\ &=-E_{q(h \mid x)}[\log (p(x \mid h))]+D_{K L}(q(h \mid x) \| p(h)) \end{aligned}LVAE=LLLikepixel+LKL=−Eq(h∣x)[log(p(x∣h))]+DKL(q(h∣x)∥p(h))

然后加入一个判别网络D来辨别生成数据与真实数据，GAN的损失函数如下
LGAN=log⁡(D(x))+log⁡(1−D(G(h)))\mathscr{L}_{G A N}=\log (D(x))+\log (1-D(G(h)))LGAN=log(D(x))+log(1−D(G(h)))

本文对VAE做了一些修改，将重构损失LLLikepixel\mathscr{L}_{L L i k e}^{p i x e l}LLLikepixel更换为判别器某一层上feature的差别，而不是图片pixel之间的差别，作者认为这样更加具有语义意义。

具体来说，对于判别器第lll层的特征，假设它们是符合高斯分布的，有
p(Disl(x)∥h)=N(Disl(x)∣Dis⁡l(x~),I)p\left(D i s_{l}(x) \| h\right)=N\left(D i s_{l}(x) \mid \operatorname{Dis}_{l}(\tilde{x}), I\right)p(Disl(x)∥h)=N(Disl(x)∣Disl(x~),I)

其中Dis⁡l(x~)\operatorname{Dis}_{l}(\tilde{x})Disl(x~)是判别器第lll层特征Dis⁡l(x)\operatorname{Dis}_{l}(x)Disl(x)的均值，然后GAN判别器的重构误差可以写作
LLLikeDisl=−Eq(h∣x)[log⁡p(Disl(x)∣h)]\mathscr{L}_{L L i k e}^{D i s_{l}}=-E_{q(h \mid x)}\left[\log p\left(D i s_{l}(x) \mid h\right)\right]LLLikeDisl=−Eq(h∣x)[logp(Disl(x)∣h)]

最后VAE-GAN的总损失函数为
L=λDis∗LLLikeDisl+λKL∗LKL+λGAN∗LGAN\mathscr{L}=\lambda_{\text {Dis}} * \mathscr{L}_{L \text {Like}}^{\text {Dis}_{l}}+\lambda_{K L} * \mathscr{L}_{K L}+\lambda_{G A N} * \mathscr{L}_{G A N}L=λDis∗LLLikeDisl+λKL∗LKL+λGAN∗LGAN
在本文中VAE-GAN的主要作用是得到较好的encoder部分来作为实例级别的特征提取器。使用ResNet-18作为encoder；VAE的decoder和GAN的generator是同一网络，由五个上采样块构成，每个上采样块包含反卷积层、BN层和ReLU激活函数；GAN的判别器由五个下采样块构成，每个下采样块包含卷积层、BN层和LeaklyReLU激活函数。
由于没有实例级别的标注，作者采用了自监督学习的方法提取出每个patch的特征。

特征选择
在特征选择部分将多余或者无关的特征从提取的特征中移除。但是本任务由于缺少实例级别的标注，因此需要利用包级别的标注来做这部分的任务。本部分的流程如下图所示

直方图生成 统计某个特征在所有包中的所有实例的最大值与最小值如下
fkmax⁡=max⁡{xji[k]},(i=1,…,N,j=1,…,Ki)fkmin⁡=min⁡{xji[k]},(i=1,…,N,j=1,…,Ki)\begin{array}{l} f_{k}^{\max }=\max \left\{x_{j}^{i}[k]\right\},\left(i=1, \ldots, N, j=1, \ldots, K_{i}\right) \\ f_{k}^{\min }=\min \left\{x_{j}^{i}[k]\right\},\left(i=1, \ldots, N, j=1, \ldots, K_{i}\right) \end{array}fkmax=max{xji[k]},(i=1,…,N,j=1,…,Ki)fkmin=min{xji[k]},(i=1,…,N,j=1,…,Ki)

然后将[fkmin,fkmax][f_k^{min},f_k^{max}][fkmin,fkmax]分为NbN_bNb个块，每个块的宽度相同。将每个包XiX_iXi映射到直方图中Hki=(h1i,k,...,hNbi,k)H_k^i=(h_1^{i,k},...,h_{N_b}^{i,k})Hki=(h1i,k,...,hNbi,k)，其中hoih_o^ihoi为XiX_iXi中的实例的特征fkf_kfk落入到第ooo个直方图的块中。
特征计算 得到特征fkf_kfk在所有包中的直方图{Hk1,Hk2,...,HkN}\{H_k^1,H_k^2,...,H_k^N\}{Hk1,Hk2,...,HkN}后，基于最大均值差异（MMD）计算特征的重要性
D(fk)=∥1∣GP∣∑Xi∈GPϕ(Hki)−1∣GN∣∑Xj∈GNϕ(Hkj)∥D\left(f_{k}\right)=\left\|\frac{1}{\left|G_{P}\right|} \sum_{X_{i} \in G_{P}} \phi\left(H_{k}^{i}\right)-\frac{1}{\left|G_{N}\right|} \sum_{X_{j} \in G_{N}} \phi\left(H_{k}^{j}\right)\right\|D(fk)=∥∥∥∥∥∥∣GP∣1Xi∈GP∑ϕ(Hki)−∣GN∣1Xj∈GN∑ϕ(Hkj)∥∥∥∥∥∥

GPG_PGP为发生淋巴结转移的包，MMD距离越大说明这个特征的判别性越强。

基于GCN的多实例学习

图的构建
假设在第i个包中有K个实例，利用前面的方法可以得到提取选择后的特征[x1i,x2i,...,xKi][x_1^i,x_2^i,...,x_K^i][x1i,x2i,...,xKi]。使用欧式距离计算两个实例间的距离，如果dist(xpi,xqi)<γdist(x_p^i,x_q^i)<\gammadist(xpi,xqi)<γ将这两个实例连接。在本文的实验中，γ=0.5∗max⁡xp,xq∈X{dist⁡(xp,xq)}\gamma=0.5 * \max _{x_{p}, x_{q} \in X}\left\{\operatorname{dist}\left(x_{p}, x_{q}\right)\right\}γ=0.5∗maxxp,xq∈X{dist(xp,xq)}。

谱图卷积
给定一幅图G=(V,E)G=(V,E)G=(V,E)，正则拉普拉斯矩阵L=I−D−1/2AD−1/2L=I-D^{-1/2}AD^{-1/2}L=I−D−1/2AD−1/2。记Λ\LambdaΛ为矩阵L的谱，卷积核可以展开为
gθ(ΛM)=∑m=0M−1θmΛmg\theta(\Lambda^M)=\sum_{m=0}^{M-1}\theta_m \Lambda^mgθ(ΛM)=m=0∑M−1θmΛm

以端点特征X∈RN×FX\in R^{N\times F}X∈RN×F作为输入的图G的谱卷积可以写作
Y=ReLU(gθ(LM)X)Y=ReLU(g_{\theta}(L^M)X)Y=ReLU(gθ(LM)X)

实验

数据集
使用TCGA-COAD数据集，数据集包含425个患结肠盲肠癌的患者，其中174例发生淋巴结转移。下图为两个例子

Ablation Study
各个部分的表现见下图

FS为特征选择部分，仅仅保留50%的特征。在两种特征提取器下，加入特征选择都可以提升一定的ROCAUC。将E与其他方法比较，作者认为在缺少足够训练数据的情况下，端到端的设置不利于整个网络的学习。

与其他方法对比

比现有的方法都有一定的提升。

总结

在本文中，作者提出了一种利用组织病理学图片预测是否发生淋巴结转移的方法，且效果较好。本文比较新颖的是将这种多实例学习的方法用在了检测全视野数字切片图像的淋巴结转移上，先对每个patch提取特征，然后利用GCN将这些特征结合起来得到整个图片的特征表示。特征选择在本方法中是必要的，但是本文采用的特征选择的方法比较简单，应该也可以设计实验，比较采用不同的特征选择方法时的效果。此外，本文的方法与淋巴结转移的问题联系并不密切，也没有用到临床上太多的先验知识，应当设计几组实验测试方法在其他大尺寸图片的数据集上的效果。

参考文献

[1] Fan RK Chung and Fan Chung Graham. Spectral graph theory. Number 92. American Mathematical Soc., 1997
[2] Micha¨el Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In Advances in neural information processing systems, pages 3844–3852, 2016.
[3] Cyriac Kandoth, Michael D McLellan, Fabio Vandin, Kai Ye, Beifang Niu, Charles Lu, Mingchao Xie, Qunyuan Zhang, Joshua F McMichael, Matthew A Wyczalkowski, et al. Mutational landscape and significance across 12 major cancer types. Nature, 502(7471):333, 2013.