当NLPer爱上CV：后BERT时代生存指南之VL-BERT篇

小鹿鹿lulu

被数学/NLP/炼丹持续折磨的吃货一枚

前言

BERT的出现让NLP发展实现了一个大飞跃，甚至有大佬说NLP已经没有可以做的啦，后面就是拼机器拼money了。但是，我认为任何领域的进步之后都会有更苛刻的要求，科研没有尽头，需求也永远无法满足。而多模态，要求机器拥有多维度的感知能力，就是一个更强的挑战。 关于这个话题也逐渐成为另外一个新热点。从19年到现在的论文数量就可见一斑。

所以，为了迎上发展的势头，在继videoBERT之后又调研了一番image和BERT结合的工作。下文将介绍 MSRA出品的VL-BERT，通过这个模型来一览现阶段 image+BERT 的研究现状吧。

模型介绍

VL-BERT模型以transformer为骨干，将BERT的输入扩展为文本+图像。那么问题来了，怎样将两者花式融合呢？让我们揣测一下作者的炼丹思路：

图片和文本没法直接对齐，暴力输入整张图

于是就有了图中用红色虚线框起来的部分，直接将图像、文本、segment和position embeding加和输入。这样做MLM任务是没问题了，但怎样确定模型能准确提取图像信息呢？

2. 提取图像中的重要部分，增加无文本的图像输入

由于整张图片的粒度远大于文本token，一次性输入整张图片显然不利于图像和文本信息的交互。所以使用了目标检测工具对图片进行分块，提取图像中感兴趣的核心部分RoI（region-of-interest），加上[IMG]标识，输入到模型中（图中浅绿色实线框起来的部分）。为了不失掉全局信息，在[END]对应的位置又加上了整张图像。另外，我们假设图片的不同区域是没有顺序可言的，即position embedding是一样的。

类比文本输入，模型实际上接受的是文本token（subword）对应的word embedding，所以我们会对所有图像输入（不管是整张图片还是局部RoIs）使用pre-trained R-CNN提取2048维的visual feature embedding输入到模型中。

自监督学习任务（pretrain）

结合上文介绍的模型结构，再强调一下两个预训练任务：

Masked Language Model with visual Clues

根据文本+图像信息预测文本token，升级版的MLM。 唯一不同的是被mask的word除了根据没被mask的文本来预测还可以根据视觉的信息来辅助。比如上图中的例子，被mask后的word sequence是kitten drinking from [MASK]，如果没有图片给我们的视觉信息是无法预测出被mask的词是bottle。

2. Masked RoI Classification with LinguisticClues

根据文本+图像信息预测RoIs的类别，针对图像的“MLM”。 以下图为例，首先对图片使用目标检测工具提取RoIs并获得所属类别，然后随机mask局部区域（树叶部分）。需要注意的是，由于模型会接收整张图片的输入，为了避免信息泄露，整张图片对应的部分也要mask。最后，模型根据文本信息和被mask的图片信息预测mask区域所属类别。

下游任务（finetune）

模型通过接收<text, image>输入，通过自监督任务学习到general跨模态表示后，可以很自然的应用很多跨模态的任务中。延续原始BERT的设定，[CLS]最后输出的feature可以预测文本和图片的关系（sentence-image-relation），被mask的text token或者RoI的输出用来做word-level或者RoI-level的预测。

下面来看看不同的下游任务是怎么实现的叭~

视觉常识推理(VCR)

给定一张图片中的多个RoIs和问题（Q），需要选出答案（A）并解释为什么（R）。VCR任务超越目标检测（object detection），是需要结合认知层面的复杂推理任务。下图展示了数据中的两个例子[1]，确实很难很复杂