关注公众号,发现CV技术之美

 1、写在前面

2021过去了,在过去的一年了出现了许多优秀的论文。其中,令我印象最为深刻的莫过于年初OpenAI发布的CLIP模型,通过简单的对比学习预训练,就能在多个下游任务中获得非常好的实验结果。因此,短短一年间,它就获得500+的引用量。在本文中,我们就来盘点一些基于CLIP模型的拓展网络。

 2、相关工作

2.1. ActionCLIP: A New Paradigm for Video Action Recognition

2.1.1. 论文信息

ActionCLIP: A New Paradigm for Video Action Recognition

论文地址:https://arxiv.org/abs/2109.08472
代码地址:https://github.com/sallymmx/ActionCLIP


2.1.2. 论文动机

以前的视频动作识别把这个任务看做是分类任务,每个类别标签是一个离散的数字,但是方式不能很好的对视频和标签的语义信息进行建模,而且当标签更改时,需要重新train整个模型,无法zero-shot迁移。因此在本文中,作者提出了一种方法来解决了这个问题。

2.1.3. 实现方法

作者把视频动态识别的任务看成是视频文本检索,对于本文标签,作者提出了一个propmt的模块根据标签来生成本文句子。然后用CLIP的Text Encoder对生成的文本进行encode,同样用CLIP的Image Encoder对视频的多帧图片进行编码,然后提出了几种方式将多帧图片信息变成一帧图片的信息,然后计算文本和这一帧图片的相似度。

通过这种方式,就能够充分考虑标签的语义信息,从而进行Zero Shot的知识迁移,也利用了CLIP预训练好的图文知识。

2.2. CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text Retrieval

2.2.1. 论文信息

CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text Retrieval

论文地址:https://arxiv.org/abs/2111.05610
代码地址:未开源

2.2.2. 论文动机

目前的视频文本检索其实就是由两部分组成,一部分是视频和文本的编码器,另一部分是相似度head。在本文中,作者基于CLIP4Clip,结构目前的一些先进技术,构建了一个SOTA的模型。

2.2.3. 实现方法

本文的模型结构如上图所示,相比于CLIP4Clip,这篇文章采用了动量蒸馏的思想,维护了一个和主体模型一模一样,但是参数通过动量来更新的模型。模型在训练进行对比时,对比了和动量模型的伪目标。

另外,作者还在测试时引入了Dual Softmax,从而充分考虑和模态内和模态间的关系。另外作者还引入了多模态融合,判断融合后的特征是否来自两个匹配的模态。

2.3. A CLIP-Enhanced Method for Video-Language Understanding


2.3.1. 论文信息

A CLIP-Enhanced Method for Video-Language Understanding

论文地址:https://arxiv.org/abs/2110.07137
代码地址:未开源

2.3.2. 论文动机

在本文中,作者希望用CLIP模型的图片文本知识来促进VALUE基准上视频-文本任务性能的提升。因此,作者基于HERO模型,将CLIP的一些组件加入到了HERO模型中,从而达到了显著的性能提升。

2.3.3. 实现方法

HERO方法和本文CLIP增强方法的模型结构如上图所示,主要不同是,作者将原本的Text Encoder替换为了CLIP的Text Encoder,从而获得更好的性能文本编码效果,从而在VALUE基准上达到了更好的性能。

2.4. CLIP4Caption: CLIP for Video Caption

2.4.1. 论文信息

CLIP4Caption: CLIP for Video Caption

论文地址:https://arxiv.org/abs/2110.06615
代码地址:未开源

2.4.2. 论文动机

之前的工作直接在Caption任务上进行微调,从而忽略了学习一个具有强文本语义信息的视觉特征。CLIP被证明了其能够通过大量的图文数据来将本文和图像映射到相同的语义空间。

因此,在本文中,作者用CLIP的预训练参数初始化模型,然后基于视频-文本检索任务来进行预训练。在预训练完成之后,就能够学到与文本语义相似的视觉表征,然后基于这个视觉表征进行video captioning的微调。

2.4.3. 实现方法

本文的模型如上图所示,主要分成两部分,下半部分为预训练的结构,该结构能够基于视频-文本检索任务来进行预训练,使得模型能够学习到与文本高度对齐的视频特征;

上半部分为微调的结构,该结构基于预训练的视频特征,来生成caption,由于预训练中生成的video encoder能够生成和文本高度对齐的视频特征,因此,在进行caption的时候会更加容易。

2.5. CLIP-Adapter: Better Vision-Language Models with Feature Adapters

2.5.1. 论文信息

CLIP-Adapter: Better Vision-Language Models with Feature Adapters

论文地址:https://arxiv.org/abs/2110.04544
代码地址:https://github.com/gaopengcuhk/clip-adapter

2.5.2. 论文动机

用CLIP进行图像分类有几种方式:直接Zero-Shot进行分类;用Few-Shot进行微调的方式进行分类;采用Prompt Tuning的方式进行分类。然而用少量的样本进行微调会产生一个问题,容易导致模型过拟合,从而不能很好的泛化到下游任务。

为了解决这个问题,作者提出了使用Adapter方式进行few-shot learning,这样的是一个好处是能够保持之前学好的知识没有更改。

2.5.3. 实现方法

本文的结构如上图所示,作者用CLIP的图像和本文编码器对视觉和文本特征进行编码,然后在下游任务中,固定这部分的参数,并在两个backbone之后加一个由MLP组成的Adapter,在下游任务微调的过程中,只微调Adapter的参数,从而保留了CLIP学习到的参数。

另一个方面,为了更强的泛化性能,作者还采用了残差的方式,将Adapter之后的结果和Adapter之前的结果进行相加,从而保留了CLIP学习到的特征。

▊ 作者简介

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END

欢迎加入「计算机视觉交流群

OpenAI发布CLIP模型快一年了,盘点那些CLIP相关让人印象深刻的工作相关推荐

  1. 【VCED】Clip模型

    CLIP 模型 CLIP模型将原有的图像标签替换为图像的文本描述信息,来监督视觉任务的训练,在下游任务中得到了较好的zero-shot的结果. 该模型将图像分类问题转换为图文匹配问题,在下游任务(以图 ...

  2. OpenAI 发布模型实现自动定理证明,妈妈再也不用担心我的数学?

    作者 | 八宝粥 出品 | CSDN(ID:CSDNnews) OpenAI 大招频出,染指数学江湖 日前,OpenAI 研究者Stanislas Polu和Ilya Sutskever在社交媒体发布 ...

  3. 我跪了!OpenAI发布DALL·E 2!AI化身「现实主义画师」,有详细论文!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者 | Ailleurs.钱磊 转载自:AI科技评论  | 编辑:陈彩娴 大家还记得去年 1 月 Open ...

  4. 智源社区AI周刊No.99:OpenAI发布接近人类水平的语音识别系统Whisper;马毅:智能的计算和科学研究将融合...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 1. UC伯克利马毅:智能的计算和科学研究将能够很快融合 查看详情 近日,智源社区举行&q ...

  5. GPT-4前奏?OpenAI发布120亿参数图像版GPT-3

    编辑:贾伟 梦佳 继GPT-3的颠覆之后,即将出道的 GPT-4 会走向何方?这一问题牵动着很多人的心. 在不久前,OpenAI的联合创始人.首席科学家IIya Sutskever 曾在吴恩达编辑的 ...

  6. OpenAI发布可扩展的元学习算法Reptile | 论文+代码+Demo

    安妮 编译自 OpenAI官方博客 量子位 出品 | 公众号 QbitAI 昨天,OpenAI发布了一种新型的可扩展元学习算法Reptile,还能在线试玩. 何为Reptile?难道是-- 咳咳严肃一 ...

  7. CVPR 2023 | 白翔团队提出:将CLIP模型用于场景文本检测

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[计算机视觉]微信技术交流群 转载自:CSIG文档图像分析与识别专委会  本文简要介绍CV ...

  8. 模型实践| CLIP 模型

    实验|Aircloud       算力支持|幻方萤火二号 CLIP(Contrastive Language-Image Pre-Training,以下简称 CLIP) 模型是 OpenAI 在 2 ...

  9. 我跪了!OpenAI 发布 DALL·E 2,AI 化身「现实主义画师」,有详细论文

    作者 | Ailleurs.钱磊,本文转自AI科技评论 大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALL·E 吗?当时,DALL·E 的画风是这样的: 只要「阅读」文本, ...

最新文章

  1. TCP、UDP以及HTTP的简单讲解
  2. 《全民捕鱼》游戏分析
  3. python 文件编码的识别_【python】python编码方式,chardet编码识别库
  4. 人工智能云计算大数据物联网
  5. sql2012找不到到服务器,sql server 2012导入数据时找不到服务器名称
  6. [转载]QQ空间技术架构之深刻揭密
  7. AngularJS 使用 Promise
  8. leetcode Sudoku java
  9. 苹果修复已遭在野利用的 iOS 和 macOS 0day
  10. RDS SQL Server死锁(Deadlock)系列之四利用Service Broker事件通知捕获死锁
  11. 功能测试如何转自动化测试?我的年薪40W成长之路
  12. 12年高级工程师的“飞升之路”,android嵌入式开发实战pdf
  13. OKHTTP深入浅出(二)----基本用法
  14. Android APP报价参考
  15. 在java中class是什么意思_java 中Class? 中的?代表什么意思?
  16. Java回收对象的标记 和 对象的二次标记过程
  17. 阿龙的学习笔记---如何用C++ STL 实现一个 LRU缓存
  18. iOS开发拓展篇—音效的播放
  19. macOS Big Sur 系统启动U盘制作教程
  20. 优思学院:DMAIC六西格玛改进模型

热门文章

  1. Virtual.Lab模拟钢板冲击声
  2. NLP(新闻文本分类)——数据读取与数据分析
  3. toj 4597 字符识别?
  4. 【非常基础实践】 微信小程序 - 腾讯云 - PHP - DEMO - 002 - 云环境搭建和开通指引- 实践
  5. linux怎么设置ftp为主动模式,linux设置ftp服务器为主动模式
  6. java 对象初始化过程_Java——对象初始化顺序使用详解
  7. python docx 字体大小_Python操作Word的入门教程
  8. oracle 10g分区表,oracle10g--11gR2分区表汇总四
  9. mysql c接口内存泄漏_MySQL C ++连接器内存泄漏
  10. python输入姓名 性别身高_python简单实现学生管理系统