关注公众号,发现CV技术之美

导读:

是否还在为设计CLIP模型的提词器(prompt)而烦恼?????到底是“a photo of a [class]”还是“a [class] photo”?????对于特定任务(例如食物分类或是卫星图像识别),如何添加符合语境的上下文(context)?????用了本文提出的方法CoOp(中文名:琥珀),这些问题通通不需要烦恼????。

  • 文章链接:https://arxiv.org/abs/2109.01134

  • 项目链接:https://github.com/KaiyangZhou/CoOp

结合视觉和语言的预训练方法最近成为了视觉表征学习的一种有前景的替代方案。它抛弃了传统中使用图像和离散标签来学习一组固定数目类别的权重,转变成利用两个独立的编码器来对齐图像和原始文本。这种范式受益于更灵活且容易获取的多模态监督来源,并允许模型零样本迁移到下游任务。这是因为分类器的权重可以直接从文本(即提词器,prompt)直接生成。下图展示了具有代表性的CLIP模型结构。

我们发现了在实践中部署此类模型的主要挑战是对提词器的设计,这是因为设计合适的提词器需要专业领域的知识,尤其是针对那些围绕类别名的上下文。同时,提词器的设计也需要花费大量时间来调整,因为微小的措辞变化可能会对性能产生巨大影响(例如下图a,在“a photo of [CLASS]”中的[CLASS]前加个“a”直接涨了将近6个点????)。此外,不同的下游任务需要不同的特别设计(例如图b-d中的“flower”,“texture”,和“satellite”),此举进一步阻碍了部署的效率。

为了克服这一挑战,我们提出了一种名为上下文优化 (CoOp,中文名:琥珀) 的新方法。琥珀的主要思想是对提词器中的上下文用连续向量进行建模,这样做可以直接从数据中进行端到端学习,同时保持了预训练参数的不变。此举完全自动化了提词器的设计过程。下图展示了琥珀的模型结构。

实验里我们使用了11个视觉数据集来验证琥珀的有效性:结果表明琥珀是一个十分高效的小样本学习方法,平均每个类别只需要一到两张图片就可以击败基于手工提词器的零样本识别模型。当每个类别的图片有16张时,琥珀比手工提词器平均高出了大约17个百分点(最高可达50个百分点????)。不仅如此,琥珀还对领域泛化表现出了极强的鲁棒性(见下图,M指代琥珀的提词器长度)。

此时,读者一定与我们一样对琥珀学到的提词器充满兴趣。可惜的是,当我们在词空间中寻找与优化得到的词向量距离最近的现实词汇时,我们很难找到有实际含义的词,因为我们发现即便是最临近的现实词汇,其距离与优化得到的词向量仍然相距甚远,并且在词空间中,临近的词向量不一定具有相似的含义。下图展示了5个数据集对应的距离最优解最近的16词提词器。这进一步展示了人工设计的提词器可能始终无法达到琥珀的效果。

鉴于以上提词器可视化的结果,我们大胆的推测,在一些数据集上,一些无厘头的提词器,例如“makka pakka akka yakka ikka akka [class]”甚至可能比“a photo of a [class]”在某些数据集上有更好的效果????。

END,入群????备注:VL

【琥珀】带你用好CLIP!视觉-语言表征学习新进展相关推荐

  1. 《拆解 XLNet 模型设计,回顾语言表征学习的思想演进》

    深度解析 XLNet 作者: 追一科技 AI Lab 研究员 Tony 在预训练语言模型 BERT 对自然语言处理的冲击还未平息时,CMU 和 Google 的研究员又放出了一个猛料:在 20 多项任 ...

  2. 首个视觉-语言预训练综述来了!

    文 | Feilong Chen等 编 | 陈萍 源 | 机器之心 一文了解视觉 - 语言预训练最新进展和新领域. 让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标.为了让机器具有感知和思考 ...

  3. 单语言表征如何迁移到多语言去?

    2019-11-22 04:33:12 作者 | 刘旺旺 编辑 | 唐里 论文:On the Cross-lingualTransferability of Monolingual Represent ...

  4. 万字深度好文!视觉-语言(VL)智能:任务、表征学习和大型模型

    来源:AI科技评论 编译:Jocelyn 编辑:陈彩娴 本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段: 第一个阶段是2014-2018年,其间,专门的模型被设 ...

  5. 华人一作统一「视觉-语言」理解与生成:一键生成图像标注,完成视觉问答,Demo可玩...

    来源:机器学习研究组订阅 这个 BLIP 模型可以「看图说话」,提取图像的主要内容,不仅如此,它还能回答你提出的关于图像的问题. 视觉 - 语言预训练 (Vision-Language Pre-tra ...

  6. 中科院自动化所:最新视觉-语言预训练综述

    论文标题: VLP: A Survey on Vision-Language Pre-training 论文链接: https://arxiv.org/abs/2202.09061 摘要 在过去几年中 ...

  7. 【阅读笔记】技术前沿(视觉-语言预训练、能量模型)

    1. 视觉-语言预训练 (Vision-Language Pre-training,VLP) 预训练模型,生成图像标注,视觉问答 - 模型角度,基于编码器-解码器的模型在「图文检索」task中尚未成功 ...

  8. VL综述:视觉-语言智能:任务、表征学习、大模型

    Vision-Language Intelligence: Tasks, Representation Learning, and Large Models 目录 总结 一.INTRODUCTION ...

  9. 吴琦:视觉-语言导航新进展:Pre-training 与 Sim2Real | 青源 Talk 第 12 期

    活动议程 日期:2月17日(周四) 时间 主题 14:30-14:35 开场简介 刘偲 北航人工智能研究院教授.博导,青源会会员 14:35-15:20 视觉-语言导航新进展:Pre-training ...

最新文章

  1. 阿里云首席架构师唐洪:拥抱开源的云端更具生命力
  2. 什么是DDOS攻击?怎么防御?
  3. C#苹果应用开发——第一讲初始Xamarin
  4. 人工智能开发语言排行榜:不死Java,不朽C/C++,新贵Python
  5. 轴承新旧型号对照表_精密机床主轴轴承,高端轴承进口清关报关流程
  6. Windows破解逆向-CrackMe_1实例(使用OpenProcess修改内存中的值)
  7. 每日记载内容总结39
  8. 【Luogu1160】队列安排(双向链表)
  9. 编译原理完整学习笔记(四):语法分析
  10. 三轴机械臂逆运动学解算(附代码)
  11. 机器人学基础(一):空间描述与坐标变换
  12. 高频谐振小信号放大器仿真分析
  13. python打字案例,Python 小案例 打字练习
  14. vue移动端UI组件
  15. Android飞行模式过程,在Android中切换飞行模式
  16. 【教程】win10 固态硬盘卡机卡死卡顿的真正原因!
  17. 云计算如何与企业管理协同作战
  18. l计算机等级考试电子邮箱填写什么,计算机等级考试详解:电子邮箱的地址组成结构!...
  19. 2012蓝桥杯省赛真题 鲁卡斯序列
  20. replace() 替换的整理

热门文章

  1. 机器学习:利用核函数进行非线性分类
  2. 透视变换--基于getPerspectiveTransform()及像素赋值(未涉及插值)
  3. Opencv--findHomography 与 getPerspectiveTransform异同
  4. 关于OpenCV的那些事——相机姿态更新
  5. linux ftp 登录慢,linux中vsftpd登录,上传下载文件慢解决办法linux操作系统 -电脑资料...
  6. selenium+linux+python,Linux下Python+selenium自动化环境搭建
  7. 中富之命能有多少钱_做建筑师到底能赚多少钱?
  8. oracle rac启动关闭,Oracle RAC启动及关闭步骤
  9. python获取绝对路径的区别_python 获取路径不同方法的比较
  10. java如何实现广告弹窗,WPF实现消息提醒(广告弹窗)