OpenAI发布CLIP模型快一年了，盘点那些CLIP相关让人印象深刻的工作

关注公众号，发现CV技术之美

▊ 1、写在前面

2021过去了，在过去的一年了出现了许多优秀的论文。其中，令我印象最为深刻的莫过于年初OpenAI发布的CLIP模型，通过简单的对比学习预训练，就能在多个下游任务中获得非常好的实验结果。因此，短短一年间，它就获得500+的引用量。在本文中，我们就来盘点一些基于CLIP模型的拓展网络。

▊ 2、相关工作

2.1. ActionCLIP: A New Paradigm for Video Action Recognition

2.1.1. 论文信息

ActionCLIP: A New Paradigm for Video Action Recognition

论文地址：https://arxiv.org/abs/2109.08472
代码地址：https://github.com/sallymmx/ActionCLIP

2.1.2. 论文动机

以前的视频动作识别把这个任务看做是分类任务，每个类别标签是一个离散的数字，但是方式不能很好的对视频和标签的语义信息进行建模，而且当标签更改时，需要重新train整个模型，无法zero-shot迁移。因此在本文中，作者提出了一种方法来解决了这个问题。

2.1.3. 实现方法

作者把视频动态识别的任务看成是视频文本检索，对于本文标签，作者提出了一个propmt的模块根据标签来生成本文句子。然后用CLIP的Text Encoder对生成的文本进行encode，同样用CLIP的Image Encoder对视频的多帧图片进行编码，然后提出了几种方式将多帧图片信息变成一帧图片的信息，然后计算文本和这一帧图片的相似度。

通过这种方式，就能够充分考虑标签的语义信息，从而进行Zero Shot的知识迁移，也利用了CLIP预训练好的图文知识。

2.2. CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text Retrieval

2.2.1. 论文信息

CLIP2TV: An Empirical Study on Transformer-based Methods for Video-Text Retrieval

论文地址：https://arxiv.org/abs/2111.05610
代码地址：未开源

2.2.2. 论文动机

目前的视频文本检索其实就是由两部分组成，一部分是视频和文本的编码器，另一部分是相似度head。在本文中，作者基于CLIP4Clip，结构目前的一些先进技术，构建了一个SOTA的模型。

2.2.3. 实现方法

本文的模型结构如上图所示，相比于CLIP4Clip，这篇文章采用了动量蒸馏的思想，维护了一个和主体模型一模一样，但是参数通过动量来更新的模型。模型在训练进行对比时，对比了和动量模型的伪目标。

另外，作者还在测试时引入了Dual Softmax，从而充分考虑和模态内和模态间的关系。另外作者还引入了多模态融合，判断融合后的特征是否来自两个匹配的模态。

2.3. A CLIP-Enhanced Method for Video-Language Understanding

2.3.1. 论文信息

A CLIP-Enhanced Method for Video-Language Understanding

论文地址：https://arxiv.org/abs/2110.07137
代码地址：未开源

2.3.2. 论文动机

在本文中，作者希望用CLIP模型的图片文本知识来促进VALUE基准上视频-文本任务性能的提升。因此，作者基于HERO模型，将CLIP的一些组件加入到了HERO模型中，从而达到了显著的性能提升。

2.3.3. 实现方法

HERO方法和本文CLIP增强方法的模型结构如上图所示，主要不同是，作者将原本的Text Encoder替换为了CLIP的Text Encoder，从而获得更好的性能文本编码效果，从而在VALUE基准上达到了更好的性能。

2.4. CLIP4Caption: CLIP for Video Caption

2.4.1. 论文信息

CLIP4Caption: CLIP for Video Caption

论文地址：https://arxiv.org/abs/2110.06615
代码地址：未开源

2.4.2. 论文动机

之前的工作直接在Caption任务上进行微调，从而忽略了学习一个具有强文本语义信息的视觉特征。CLIP被证明了其能够通过大量的图文数据来将本文和图像映射到相同的语义空间。

因此，在本文中，作者用CLIP的预训练参数初始化模型，然后基于视频-文本检索任务来进行预训练。在预训练完成之后，就能够学到与文本语义相似的视觉表征，然后基于这个视觉表征进行video captioning的微调。

2.4.3. 实现方法

本文的模型如上图所示，主要分成两部分，下半部分为预训练的结构，该结构能够基于视频-文本检索任务来进行预训练，使得模型能够学习到与文本高度对齐的视频特征；

上半部分为微调的结构，该结构基于预训练的视频特征，来生成caption，由于预训练中生成的video encoder能够生成和文本高度对齐的视频特征，因此，在进行caption的时候会更加容易。

2.5. CLIP-Adapter: Better Vision-Language Models with Feature Adapters

2.5.1. 论文信息

CLIP-Adapter: Better Vision-Language Models with Feature Adapters

论文地址：https://arxiv.org/abs/2110.04544
代码地址：https://github.com/gaopengcuhk/clip-adapter

2.5.2. 论文动机

用CLIP进行图像分类有几种方式：直接Zero-Shot进行分类；用Few-Shot进行微调的方式进行分类；采用Prompt Tuning的方式进行分类。然而用少量的样本进行微调会产生一个问题，容易导致模型过拟合，从而不能很好的泛化到下游任务。

为了解决这个问题，作者提出了使用Adapter方式进行few-shot learning，这样的是一个好处是能够保持之前学好的知识没有更改。

2.5.3. 实现方法

本文的结构如上图所示，作者用CLIP的图像和本文编码器对视觉和文本特征进行编码，然后在下游任务中，固定这部分的参数，并在两个backbone之后加一个由MLP组成的Adapter，在下游任务微调的过程中，只微调Adapter的参数，从而保留了CLIP学习到的参数。

另一个方面，为了更强的泛化性能，作者还采用了残差的方式，将Adapter之后的结果和Adapter之前的结果进行相加，从而保留了CLIP学习到的特征。

▊ 作者简介

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

END

欢迎加入「计算机视觉」交流群