目前开始了解多模态相关的知识,欢迎大家批评指正!

这篇论文来自2021年的International Conference on Machine Learning,整理改论文的主要内容,参考【论文阅读】CLIP:Learning Transferable Visual Models From Natural Language Supervision ------ 多模态,视觉,预训练模型_me_yundou的博客-CSDN博客Learning Transferable Visual Models From Natural Language Supervision - John_Ran - 博客园两篇文章。

论文题目:从自然语言监督中学习可转移的视觉模型

研究问题:将文本数据和图像数据相结合,提出了CLIP,用对比学习的方法对语言-图像预训练,这是一种高效、可扩展的自然语言监督学习方法。

研究思路:利用互联网上的图片,训练CLIP。在训练结束后,自然语言用来参照学习到的视觉概念,然后进行zero-shot transfer learning。

(1)首先是构建CLIP,CLIP实际上是一个预训练模型,包括文本编辑和图像编辑器两部分,分别计算文本向量和图像向量的相似度,以预测它们是否为一对,如图1所示。CLIP将图像和文本先分别输入一个图像编码器image_encoder和一个文本编码器text_encoder,得到图像和文本的向量表示 I-f 和 T_f 。然后将图像和文本的向量表示映射到一个联合多通道空间,得到新的可直接进行比较的图像和文本的向量表示 I_e 和T_e 。然后计算图像向量和文本向量之间的cosine相似度。最后,对比学习的目标函数就是让正样本对的相似度较高,负样本对的相似度较低。

 图 1

CLIP联合训练图像编码器和文本编码器来预测一批(图像,文本)训练示例的正确配对。在测试时,学习的文本编码器通过嵌入目标数据集类的名称或描述,合成一个零镜头线性分类器。CLIP代码如图2所示:

图 2

(2)进行zero-shot transfer learning

研究过程:1.构建一个足够大的数据集-----》WebImageText(4亿个文本-图像对)

2.选择一个有效的预训练模型-----》CLIP

3.选择和缩放模型------》作者选择了两种模型,一个是ResNet-D,平滑了rect-2 blur  pooling。将global average pooling用一个attention pooling来改进。其中这个transformer类型的层,是以global average-pooled representation作为query。第二 vision的结构是ViT,改动比较少:在patch embbeding和position embedding结合之后,加了一个layer normalization。然后实现的时候,使用了一点不一样的初始化策略。

4.预训练------》训练的scale策略,5个ResNet,3个vit。ResNet-50,  ResNet-101,  RN50x4, RN50x16, and RN50x64。 ViT-B/32, a ViT-B/16, and a ViT-L/14。最后使用的 32,768的batch size。使用了gradient checkpoint。半精度。The largest  ResNet model, RN50x64, took 18 days to train on 592 V100 GPUs while the  largest Vision . Transformer took 12 days on 256 V100 GPUs。还有一个vit使用336的pixel resolution。

5.利用CLIP------》对于每个数据集,使用数据集中所有类的名称作为潜在文本对的集 合,并根据CLIP预测最可能的(图像、文本)对。此外,还尝试为CLIP提供文本提示以帮助指定任务,以及集成多个这些模板以提高性能。

数据集及实验结果:对于模型的表现,作者在27个数据集上进行了实验,发现在16个数据集上表现的更好:

主要创新:CLIP是一个预训练模型,就像BERT、GPT、ViT等预训练模型一样。首先使用大量无标签数据训练这些模型,然后训练好的模型就能实现,输入一段文本(或者一张图像),输出文本(图像)的向量表示。CLIP和BERT、GPT、ViT的区别在于,CLIP是多模态的,包含图像处理以及文本处理两个方面内容,而BERT、GPT是单文本模态的,ViT是单图像模态的。

总结:

关于CLIP的一些局限性:

  1. 作者认为,仅仅与baseline打平不是最终目标。因为与这些数据集完全监督的SOTA比起来,CLIP还打不过他们。需要将当前的计算量放大到1000x才能达到现在的SOTA,这在当前的硬件条件下是做不到的。

  2. 作者认为,CLIP在某些专用型特别强的task上不太work。比如,在一些细粒度的数据集上,或者一些比较抽象、对称的task。这些task的图片,在CLIP的pre-train的数据集上出现的比较少。作者认为,还有很多task上,CLIP是在瞎猜。

  3. CLIP在很多自然的图片分布上效果不错,但是在一些真的out-of-distributiob的数据集上还是不太行,比如在OCR上。在rendered text上表现相当不错,因为这在CLIP的pre-training上十分常见。但是在手写数字体识别上就拉垮了,只有88%的准确率。因为从semantic和near-duplicate nearest-neighbor retrieval上没找到。

Learning Transferable Visual Models From Natural Language Supervision相关推荐

  1. 重读经典(CLIP下):《Learning Transferable Visual Models From Natural Language Supervision》

    上文链接:重读经典(CLIP上):<Learning Transferable Visual Models From Natural Language Supervision> 5. 实验 ...

  2. CLIP Learning Transferable Visual Models From Natural Language Supervision (文本和图像的对比学习)--文献翻译和笔记

    论文链接:[2103.00020] Learning Transferable Visual Models From Natural Language Supervision (arxiv.org) ...

  3. CLIP学习笔记:Learning Transferable Visual Models From Natural Language Supervision

    多模态预训练模型CLIP:Learning Transferable Visual Models From Natural Language Supervision 从自然语言监督中学习可迁移的视觉模 ...

  4. CLIP 论文学习笔记《Learning Transferable Visual Models From Natural Language Supervision》

    ​论文标题:Learning Transferable Visual Models From Natural Language Supervision 论文地址:https://arxiv.org/a ...

  5. CLIP论文笔记--《Learning Transferable Visual Models From Natural Language Supervision》

    CLIP论文笔记--<Learning Transferable Visual Models From Natural Language Supervision> 1.Introducti ...

  6. CLIP: Learning Transferable Visual Models From Natural Language Supervision

    目录 Introduction Approach CLIP Prompt Engineering and Ensembling Experiments Analysis of Zero-shot CL ...

  7. 【论文简介】CLIP:图像与自然语言配对预训练可迁移模型:Learning Transferable Visual Models From Natural Language Supervision

    论文链接: 2103.Learning Transferable Visual Models From Natural Language Supervision 项目官网: CLIP: Contras ...

  8. CLIP论文翻译、Learning Transferable Visual Models From Natural Language Supervision翻译

    CLIP论文翻译.Learning Transferable Visual Models From Natural Language Supervision翻译 文章目录 CLIP论文翻译.Learn ...

  9. 【论文模型讲解】CLIP(Learning Transferable Visual Models From Natural Language Supervision)

    文章目录 前言 0 摘要 1 Introduction and Motivating Work 2 Approach 2.0 模型整体结构 2.1 数据集 2.2 选择一种高效的预训练方法 2.3 模 ...

最新文章

  1. 我在这里,等你的故事【小废回家看看】
  2. linux桥接实现交换机功能
  3. 【光斑定位】空间激光通信、光斑定位、CCD、光斑定位——13000字
  4. 【自动驾驶】2.车载以太网 - SOME/IP简介
  5. java headless_使用Chrome Headless 快速实现java版数据的抓取
  6. C++ 序列化和反序列化学习
  7. qtextedit 默认文案_QTextEdit的paste
  8. RocketMQ的一些基本概念和RocketMQ特性的讲解
  9. sscanf一小用法
  10. Spring boot(6) 数据访问
  11. Idea开发环境中搭建Maven并且使用Maven打包部署程序
  12. iperf3使用方法 linux,iperf3命令使用
  13. Unreal 凹多边形三角化
  14. 计算机金山打字基础,金山打字通电脑版
  15. linux pulseaudio卸载,解决Ubuntu 9.04 下 PulseAudio声音故障
  16. virtualxposed使用教程_VirtualXposed框架虚拟机——无需root体验xposed框架
  17. OpenStack--炼数成金
  18. iphone连接linux系统电脑,为什么iphone连不上电脑 多种解决方法【图文教程】
  19. 为什么好好的就不快乐了?
  20. goahead移植和使用

热门文章

  1. 新浪开放平台:解决获取access_token抛 21323 异常,以及接口调用
  2. PC端电脑QQ邮箱下载附件如何到指定位置?
  3. C++数论库:NTL
  4. 零基础学习Java编程培训需要了解哪些知识
  5. C++数组能开多大?
  6. 手把手教你撸一个Web汇率计算器
  7. MAC常用命令及快捷键
  8. 实现一个简单的Java类:长方形与梯形的面积计算
  9. C语言反汇编 - 多维数组与指针
  10. sklearn机器学习(七)决策树预测泰坦尼克号幸存者