【琥珀】带你用好CLIP！视觉-语言表征学习新进展

关注公众号，发现CV技术之美

导读：

是否还在为设计CLIP模型的提词器（prompt）而烦恼????？到底是“a photo of a [class]”还是“a [class] photo”????？对于特定任务（例如食物分类或是卫星图像识别），如何添加符合语境的上下文（context）????？用了本文提出的方法CoOp（中文名：琥珀），这些问题通通不需要烦恼????。

文章链接：https://arxiv.org/abs/2109.01134
项目链接：https://github.com/KaiyangZhou/CoOp

结合视觉和语言的预训练方法最近成为了视觉表征学习的一种有前景的替代方案。它抛弃了传统中使用图像和离散标签来学习一组固定数目类别的权重，转变成利用两个独立的编码器来对齐图像和原始文本。这种范式受益于更灵活且容易获取的多模态监督来源，并允许模型零样本迁移到下游任务。这是因为分类器的权重可以直接从文本（即提词器，prompt）直接生成。下图展示了具有代表性的CLIP模型结构。

我们发现了在实践中部署此类模型的主要挑战是对提词器的设计，这是因为设计合适的提词器需要专业领域的知识，尤其是针对那些围绕类别名的上下文。同时，提词器的设计也需要花费大量时间来调整，因为微小的措辞变化可能会对性能产生巨大影响（例如下图a，在“a photo of [CLASS]”中的[CLASS]前加个“a”直接涨了将近6个点????）。此外，不同的下游任务需要不同的特别设计（例如图b-d中的“flower”，“texture”，和“satellite”），此举进一步阻碍了部署的效率。

为了克服这一挑战，我们提出了一种名为上下文优化 (CoOp，中文名：琥珀) 的新方法。琥珀的主要思想是对提词器中的上下文用连续向量进行建模，这样做可以直接从数据中进行端到端学习，同时保持了预训练参数的不变。此举完全自动化了提词器的设计过程。下图展示了琥珀的模型结构。

实验里我们使用了11个视觉数据集来验证琥珀的有效性：结果表明琥珀是一个十分高效的小样本学习方法，平均每个类别只需要一到两张图片就可以击败基于手工提词器的零样本识别模型。当每个类别的图片有16张时，琥珀比手工提词器平均高出了大约17个百分点（最高可达50个百分点????）。不仅如此，琥珀还对领域泛化表现出了极强的鲁棒性（见下图，M指代琥珀的提词器长度）。

此时，读者一定与我们一样对琥珀学到的提词器充满兴趣。可惜的是，当我们在词空间中寻找与优化得到的词向量距离最近的现实词汇时，我们很难找到有实际含义的词，因为我们发现即便是最临近的现实词汇，其距离与优化得到的词向量仍然相距甚远，并且在词空间中，临近的词向量不一定具有相似的含义。下图展示了5个数据集对应的距离最优解最近的16词提词器。这进一步展示了人工设计的提词器可能始终无法达到琥珀的效果。

鉴于以上提词器可视化的结果，我们大胆的推测，在一些数据集上，一些无厘头的提词器，例如“makka pakka akka yakka ikka akka [class]”甚至可能比“a photo of a [class]”在某些数据集上有更好的效果????。

END,入群????备注：VL

【琥珀】带你用好CLIP！视觉-语言表征学习新进展相关推荐

《拆解 XLNet 模型设计，回顾语言表征学习的思想演进》
深度解析 XLNet 作者: 追一科技 AI Lab 研究员 Tony 在预训练语言模型 BERT 对自然语言处理的冲击还未平息时,CMU 和 Google 的研究员又放出了一个猛料:在 20 多项任 ...
首个视觉-语言预训练综述来了！
文 | Feilong Chen等编 | 陈萍源 | 机器之心一文了解视觉 - 语言预训练最新进展和新领域. 让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标.为了让机器具有感知和思考 ...
单语言表征如何迁移到多语言去？
2019-11-22 04:33:12 作者 | 刘旺旺编辑 | 唐里论文:On the Cross-lingualTransferability of Monolingual Represent ...
万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型
来源:AI科技评论编译:Jocelyn 编辑:陈彩娴本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段: 第一个阶段是2014-2018年,其间,专门的模型被设 ...
华人一作统一「视觉-语言」理解与生成：一键生成图像标注，完成视觉问答，Demo可玩...
来源:机器学习研究组订阅这个 BLIP 模型可以「看图说话」,提取图像的主要内容,不仅如此,它还能回答你提出的关于图像的问题. 视觉 - 语言预训练 (Vision-Language Pre-tra ...
中科院自动化所：最新视觉-语言预训练综述
论文标题: VLP: A Survey on Vision-Language Pre-training 论文链接: https://arxiv.org/abs/2202.09061 摘要在过去几年中 ...
【阅读笔记】技术前沿（视觉-语言预训练、能量模型）
1. 视觉-语言预训练 (Vision-Language Pre-training,VLP) 预训练模型,生成图像标注,视觉问答 - 模型角度,基于编码器-解码器的模型在「图文检索」task中尚未成功 ...
VL综述：视觉-语言智能:任务、表征学习、大模型
Vision-Language Intelligence: Tasks, Representation Learning, and Large Models 目录总结一.INTRODUCTION ...
吴琦：视觉-语言导航新进展：Pre-training 与 Sim2Real | 青源 Talk 第 12 期
活动议程日期:2月17日(周四) 时间主题 14:30-14:35 开场简介刘偲北航人工智能研究院教授.博导,青源会会员 14:35-15:20 视觉-语言导航新进展:Pre-training ...

【琥珀】带你用好CLIP！视觉-语言表征学习新进展

【琥珀】带你用好CLIP！视觉-语言表征学习新进展相关推荐

最新文章

热门文章