Contrastive Learning of Medical Visual Representations From Paired Images And Text

成对图像和文本中医学视觉表征的对比学习

论文地址:https://arxiv.org/abs/2010.00747

1. 创新点: 只需要10% ImageNet的labeled data就能达到同样的或者更好的效果
2. 模型解释: 提出了ConVIRT模型——一个通过利用图像和文本数据的自然配对来学习visual representation的框架
a) 输入成对的ImageReport
b) 以图像为例,通过采样变换函数从图像中产生一个随机视图,将生成的随机视图利用编码器(CNN等)进行编码,编码为固定维向量,再经过一个非线性投影函数就转换为v
c) 文字部分原理同图像
d) 定义了两种损失函数:image-to-texttext-to-image
e) 最后的训练损失函数就是λ(image-to-text)+(1-λ)text-to-image加权组合

Weakly Supervised Contrastive Learning for Chest X-Ray Report Generation

论文地址:https://arxiv.org/abs/2109.12242
1. 现有工作的缺陷:Teacher forceing交叉熵模型来训练编码器-解码器模型的方法会导致生成的文本中输出频率高的标记或句子——理解:用上述两种方法会导致生成的文本中出现大量的正常情况,比方说大量的文本描述了胸片中正常的情况,而这恰恰不是我们所需要关注的,更多的,我们需要注意的是胸片中的异常情况
2. 创新点:引入弱监督对比损失,给语义接近目标的报告分配更多的权重,在训练期间给这些接近目标的报告分配更多的权重,即关注更多;弱监督的“弱”体现在用的标签是聚类后产生的标签,并不是每一个数据对应的标签,是一类数据的标签
3. 模型解释:整个模型分为三个部分
a) Generating Reports with Transformer:
利用memory-driven作为整体架构。对于给定的图像,利用预训练的CNN提取视觉特征,再经过编码器来获得隐藏的视觉特征。这部分产生的loss记为LCE
b) Labeling Reports with Finetuned BERT:
引入了ChexBERT模型,通过预训练学习生物医学报告内容,使用BERT[CLS]embedding来表示report 层级的特征。对于这些特征,利用K-means聚类,每一类分配一个标签,同一类下的特征接近,内容意思相近
c) Weakly supervised Contrastive Learning:
weakly supervised contrastive loss(WCL) 的提出——首先将图像和文本二者的隐藏表示(来自encoder)投影到一个空间内,在对于投影后的数据进行对比学习,聚类的标签对α作用

d) 最后对 LCELWCL 进行混合优化,即加权求和

4. 模型理解:输入为成对的Imagetext,同样经过encode获得隐藏的特征,之后分为两部分,一部分经过decode,产生LCE。另一部分经过对比学习,产生LWCL。值得注意的是WCL中把更多的权重赋予了那些异常情况,即更加关注特征中的异常情况,这些权重通过聚类标签来决定,倘若是同一类的话,则相似性较高,在前面加上系数α来调整,不同一类则不加系数,通过这样的调整可以理解为降低了了类间的相似度,更好的关注异常情况

这两篇论文模型的异同

相同点:

1. 同样有两个branch,针对这两个branch产生的loss进行加权求和
2. 输入同样是成对的Image和Text,同样的运用CNN从图像中提取视觉特征,再通过编码器获取隐藏的视觉表示

不同点:

1. 论文1感觉仅仅只是Image Caption问题,仅仅把对比学习引入到医学图像理解生成这个Topic下,有点生搬硬套的感觉。然而在医学图像理解这一问题中,我们的关注点应该在那种细粒点上,即异常情况。论文1通过训练降低Image-to-texttext-to-image这两部分损失的加权和;比起论文1,论文2在论文1的基础上引入了一个参数α更多的去关注异常情况,从而避免了对胸片中的正常部分产生更多的描述
2. 论文1最终损失的加权和是image-to-texttext-to-image;然而论文2最终的加权和是两种方式的加权和,一种是经过对比学习的LWCL,另一种是经过解码器做的交叉熵损失函数LCE。
3. 论文2的对比学习这一branch似乎包含了论文1整篇论文的思想,但是还是略有不同。论文2针对输入的图像文本对,先是提取了视觉和文本特征,这一点和论文1不谋而合,然后论文1编码的是用采样变换函数从图像中获得的随机视图来获得的,论文2编码是针对的整个Image而言的;随后论文1是把encode后的隐藏特征映射为固定维度的向量,而论文2对隐藏特征进行平均池化,再经过两个全连接层之后再做对比学习——论文2比论文1多一个平均池化的过程

理解不到位之处还望多多指出~~~

关于对比学习在医学图像理解中两篇Paper的思考相关推荐

  1. 深度学习在医学影像中的研究进展及发展趋势

    点击上方蓝字关注我们 深度学习在医学影像中的研究进展及发展趋势 王丽会1,2, 秦永彬1,2 1 贵州省智能医学影像分析与精准诊断重点实验室,贵州 贵阳 550025 2 贵州大学计算机科学与技术学院 ...

  2. 深度学习在医学图像处理中的应用

    简介 本文参考了三篇深度学习在医学图像处理中的三篇综述性的文章,旨在对于深度学习和医学图像相结合的现有情况做一个小总结,并探讨一下未来的一些发展趋势和自身的一些思考 医学影像深度学习工具 深度学习模型 ...

  3. 今晚直播 | 清华大学​高天宇:对比学习及其在NLP中的应用

    「PW Live」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义, ...

  4. PW Live直播 | 清华大学​高天宇:对比学习及其在NLP中的应用

    「PW Live」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义, ...

  5. 【实践】对比学习在快手推荐系统中的的应用探索

    省时查报告-专业.及时.全面的行研报告库 省时查方案-专业.及时.全面的营销策划方案库 知识图谱在美团推荐场景中的应用实践 搜索场景下的智能实体推荐 机器学习在B站推荐系统中的应用实践 小红书推荐系统 ...

  6. 人工智能讲师叶梓人工智能之深度学习在医学影像领域中的应用》医学AI人工智能讲师医疗人工智能人工智能AI医疗讲师

    课件为人工智能讲师叶梓人工智能系列课程之一,更多课程,及老师资料可点击 个人主页 助力QQ526346584 人工智能之深度学习在医学影像领域应用技术实战课程介绍 近年来,随着人工智能领域异军突起,深 ...

  7. 99行拓扑优化代码学习,转载于另外两篇博客

    '''Matlab %%%% A 99 LINE TOPOLOGY OPTIMIZATION CODE BY OLE SIGMUND, JANUARY 2000 %%% function top99_ ...

  8. 知识图谱-生物信息学-医学顶刊论文(Bioinformatics-2022)-SGCL-DTI:用于DTI预测的监督图协同对比学习

    14.(2022.5.21)Bioinformatics-SGCL-DTI:用于DTI预测的监督图协同对比学习 论文标题: Supervised graph co-contrastive learni ...

  9. 基于深度学习的医学图像分割综述

    转载:https://blog.csdn.net/weixin_41783077/article/details/80894466 摘要:医学图像分割是决定医学图像在临床诊疗中能否提供可靠依据的关键问 ...

  10. 人工智能在医学影像中的研究与应用

    人工智能在医学影像中的研究与应用 韩冬, 李其花, 蔡巍, 夏雨薇, 宁佳, 黄峰 沈阳东软医疗系统有限公司,辽宁 沈阳 110167 慧影医疗科技(北京)有限公司,北京 100192 东软集团股份有 ...

最新文章

  1. 数百个CV实战项目与必备7本书5000页中英文CV书籍以及算法工程师必备资料免费送啦~...
  2. RDKit | 基于支持向量机(SVM)的二分类活性预测模型
  3. 有一台电脑怎么挣钱_大聪明,双十一我想6000元配置一台能畅玩主流游戏的电脑,应该怎么搭配?...
  4. string find()函数
  5. 在CentOS7上编译GreenPlum5.3.0
  6. C#简单实现读取txt文本文件并分页存储到数组
  7. ContextLoaderListener.contextInitialized - how is WebApplicationContext created
  8. FreeSWITCH 总体架构
  9. vmare fusion:No Ethernet Connection VMware Fusion 12 macOS Big Sur
  10. native react 图片裁剪,使用react-native-image-picker将图片上传到firebase
  11. C#:xml操作(待补充)
  12. Python自然语言处理学习笔记(45):5.6 基于转换的标记
  13. linux下yum安装maven
  14. mysql悲观锁和乐观使用实例_MySQL 悲观锁和乐观锁
  15. 332.重新安排行程
  16. composer下面composer.lock有什么用处 以及 如何优雅地删除它
  17. typora+PicGo上传图片 配置免费图床
  18. Matlab 4. Matlab2016 不能保存数据(变量)的解决方法(中文版)-v7.3 switch
  19. 电脑本地视频怎么添加外挂字幕-奇它博客
  20. Boom 3D官方汉化免费下载激活版

热门文章

  1. kotlin版贪吃蛇小游戏
  2. php请求403 forbidden,403 forbidden是什么意思
  3. 第十届蓝桥杯大赛软件类省赛 Java 大学 B组 试题H:人物相关性分析
  4. 一位优秀的学弟,计算机2019保研经历分享(北大信科、清华计算机系)
  5. 姿态估计1-10:FSA-Net(头部姿态估算)-源码无死角讲解(5)-Feature aggregation
  6. c语言sub函数是什么,用$Super$$和$Sub$$对函数进行重定义
  7. Flink 清理 Checkpoint的原理和机制
  8. GIT使用rebase和merge的正确姿势
  9. 算法-枚举法-已知xyz + yzz = 532,其中x、y、z都是数字(0~9),编写一个程序求出x、y、z分别代表什么数字。
  10. 关于内部文档的标准格式要求(图文)