关于对比学习在医学图像理解中两篇Paper的思考

Contrastive Learning of Medical Visual Representations From Paired Images And Text

成对图像和文本中医学视觉表征的对比学习

论文地址：https://arxiv.org/abs/2010.00747

1. 创新点： 只需要10% ImageNet的labeled data就能达到同样的或者更好的效果
2. 模型解释： 提出了ConVIRT模型——一个通过利用图像和文本数据的自然配对来学习visual representation的框架
a) 输入成对的Image和Report
b) 以图像为例，通过采样变换函数从图像中产生一个随机视图，将生成的随机视图利用编码器（CNN等）进行编码，编码为固定维向量，再经过一个非线性投影函数就转换为v
c) 文字部分原理同图像
d) 定义了两种损失函数：image-to-text和text-to-image
e) 最后的训练损失函数就是λ（image-to-text）+（1-λ）text-to-image加权组合

Weakly Supervised Contrastive Learning for Chest X-Ray Report Generation

论文地址：https://arxiv.org/abs/2109.12242
1. 现有工作的缺陷：Teacher forceing与交叉熵模型来训练编码器-解码器模型的方法会导致生成的文本中输出频率高的标记或句子——理解：用上述两种方法会导致生成的文本中出现大量的正常情况，比方说大量的文本描述了胸片中正常的情况，而这恰恰不是我们所需要关注的，更多的，我们需要注意的是胸片中的异常情况
2. 创新点：引入弱监督对比损失，给语义接近目标的报告分配更多的权重，在训练期间给这些接近目标的报告分配更多的权重，即关注更多;弱监督的“弱”体现在用的标签是聚类后产生的标签，并不是每一个数据对应的标签，是一类数据的标签
3. 模型解释：整个模型分为三个部分
a) Generating Reports with Transformer:
利用memory-driven作为整体架构。对于给定的图像，利用预训练的CNN提取视觉特征，再经过编码器来获得隐藏的视觉特征。这部分产生的loss记为L_CE
b) Labeling Reports with Finetuned BERT:
引入了ChexBERT模型，通过预训练学习生物医学报告内容，使用BERT的 [CLS] 的 embedding来表示report 层级的特征。对于这些特征，利用K-means聚类，每一类分配一个标签，同一类下的特征接近，内容意思相近
c) Weakly supervised Contrastive Learning:
weakly supervised contrastive loss(WCL) 的提出——首先将图像和文本二者的隐藏表示（来自encoder）投影到一个空间内，在对于投影后的数据进行对比学习，聚类的标签对α作用

d) 最后对 L_CE 和 L_WCL 进行混合优化，即加权求和

4. 模型理解：输入为成对的Image和text，同样经过encode获得隐藏的特征，之后分为两部分，一部分经过decode，产生L_CE。另一部分经过对比学习，产生L_WCL。值得注意的是WCL中把更多的权重赋予了那些异常情况，即更加关注特征中的异常情况，这些权重通过聚类标签来决定，倘若是同一类的话，则相似性较高，在前面加上系数α来调整，不同一类则不加系数，通过这样的调整可以理解为降低了了类间的相似度，更好的关注异常情况

这两篇论文模型的异同

相同点：

1. 同样有两个branch，针对这两个branch产生的loss进行加权求和
2. 输入同样是成对的Image和Text，同样的运用CNN从图像中提取视觉特征，再通过编码器获取隐藏的视觉表示

不同点：

1. 论文1感觉仅仅只是Image Caption问题，仅仅把对比学习引入到医学图像理解生成这个Topic下，有点生搬硬套的感觉。然而在医学图像理解这一问题中，我们的关注点应该在那种细粒点上，即异常情况。论文1通过训练降低Image-to-text和text-to-image这两部分损失的加权和；比起论文1，论文2在论文1的基础上引入了一个参数α更多的去关注异常情况，从而避免了对胸片中的正常部分产生更多的描述
2. 论文1最终损失的加权和是image-to-text和text-to-image；然而论文2最终的加权和是两种方式的加权和，一种是经过对比学习的LWCL，另一种是经过解码器做的交叉熵损失函数LCE。
3. 论文2的对比学习这一branch似乎包含了论文1整篇论文的思想，但是还是略有不同。论文2针对输入的图像文本对，先是提取了视觉和文本特征，这一点和论文1不谋而合，然后论文1编码的是用采样变换函数从图像中获得的随机视图来获得的，论文2编码是针对的整个Image而言的；随后论文1是把encode后的隐藏特征映射为固定维度的向量，而论文2对隐藏特征进行平均池化，再经过两个全连接层之后再做对比学习——论文2比论文1多一个平均池化的过程

理解不到位之处还望多多指出~~~