目录

1、ViLBERT—(NeurIPS-2019)

2、VL-BERT—(ICLR-2020)

3、VisualBERT—(ACL-2020)


1、ViLBERT—(NeurIPS-2019)


介绍:

  • ViLBERT,一种用于学习图像和自然语言的任务不可知的联合表征的模型,将BERT架构扩展到多模态双流架构,两个独立的分支分别处理视觉和文本输入,co-attention层用以交互图像和文本。
  • 在自动收集的大型captions数据集上通过两个预训练任务对模型进行预训练,然后将其迁移到多个视觉和语言下游任务中,视觉问答、视觉常识推理、引用表达式和基于caption的图像检索。

贡献:

  • 提出了一个视觉语言联合表征模型,ViLBERT,扩展了BERT语言模型,以联合表征文本和图像。
  • 我们的关键技术创新是引入独立的视觉和语言处理流,再通过共同注意力Transformers层进行交互。这种结构可以适应每个模态的不同处理需求,并在不同的表征深度(transformer层的数量)下提供模态之间的交互,实验证明,这种结构优于单流统一模型。
  • 在两个任务上预训练:mlm,itm。将预训练模型作为四个已建立的视觉和语言任务的基础,即视觉问答[3]、视觉常识推理[25]、引用表达式[2]和基于caption的图像检索[26],与使用单独预训练的视觉和语言模型的最先进的任务相比,提高了2到10个百分点。此外,我们的结构对于这些任务中的每一项都很容易修改。

图2可以看到,标准自注意力层和共同注意力层仅仅是输入的QKV的区别。

方法:

  • 我们考虑联合表征静态图像和相应的描述性文本。一种简单的方法是对BERT进行最小更改,即通过聚类将视觉输入离散化,将这些视觉“token”与文本输入组合,并从预训练的BERT模型开始训练。这种架构存在许多缺点,首先,初始聚类可能会导致离散化错误,并丢失重要的视觉细节特征,其次,它对来自两种模态的输入进行了相同的处理,忽略了由于其固有的复杂性或其输入表示的初始抽象级别(图像特征比文本特征高级),它们可能需要不同的处理级别,例如,图像区域的关系可能比句子中的单词弱,视觉特征本身往往已经是非常深层的网络的输出,最后,BERT预训练权重容纳大量额外的视觉“token”可能会损坏学习的BERT语言模型。因此,我们开发了一种双流架构,分别对每种模态进行建模,然后通过一组基于注意力的交互层将其融合,这种方法允许每个模态的不同网络深度,并支持不同深度的跨模态连接。
  • 如图1所示,ViLBERT由两个并行的BERT结构的分支组成,分别处理image regions和text segments,每个分支由TRM(transformer blocks 图2a)和Co-TRM(co-attention transformer blocks 图2b)组成。输入图像用一系列区域特征表示,文本用一系列token表示,可以看到,在进行Co-TRM之前,文本一侧比图像一侧多L-k层TRM,这是因为image regions特征本身已经是由深度神经网络提取的区域特征了,与文本中的较低级的token相比,只需有限的上下文建模即可。
  • 对于图像输入的表征,是由预先训练好的对象检测网络中提取的边界框及其视觉特征来生成图像区域特征(Faster rcnn),与文本不同,图像区域缺乏自然顺序,因此我们对空间位置进行编码,从区域位置(归一化的左上角和右下角坐标)和覆盖的图像面积比例构建一个5-d向量,然后对其进行投影以匹配视觉特征的维度。我们使用代表整个图像的特殊的IMG token来标记图像区域序列的开始(和文本token序列的CLS token作用相同)。

预训练任务:

  • masked multi-modal modelling:对文本tokens的mlm任务和BERT一样。对image regions的mlm任务如图3a,对masked的image region特征的90%置为0,10%保持不变,用KL散度训练模型预测的masked image region的输出分布和原始分布尽可能接近,如果使用回归损失可能会使masked的图像和文本产生的损失难以平衡。
  • multi-modal alignment prediction:[IMG]和[CLS]的输出用以做itm任务,为了生成图像文本对的负样本,随机将图像或文本替换为另一个。

下游任务:

  • Visual Question Answering (VQA)
  • Visual Commonsense Reasoning (VCR)
  • Grounding Referring Expressions
  • Caption-Based Image Retrieval
  • ‘Zero-shot’ Caption-Based Image Retrieval

2、VL-BERT—(ICLR-2020)


介绍:

  • VL-BERT,输入为文本和图像的ROI区域特征,寻求获得能够有效聚合和对齐视觉和语言信息的通用表征,这是一种可预训练的视觉语言任务通用表示。
  • VL-BERT的主干是(多模态)Transformer注意力模块,将视觉和语言嵌入特征作为输入,其中,每个输入的token要么是输入句子中的一个单词,要么是输入图像中的感兴趣区域(RoI),再加上某些特殊token(CLS\SEP\IMG\END)来消除不同输入格式的歧义。每个token可以根据其内容、位置、类别等上定义的兼容性,自适应地聚合来自所有其他元素的信息(注意力机制的用处所在)。通过堆叠多层多模态Transformer注意力模块,生成的表征在聚集和对齐视觉语言信息方面具有丰富的能力。
  • 为了更好地利用泛型表示,我们在大型视觉语言语料库和纯文本数据集上预训练VL-BERT。视觉语言语料上的预训练损失是通过预测随机屏蔽词或ROI产生的,这种预训练增强了VL-BERT在聚集和对齐视觉语言信息方面的能力。而纯文本语料库上的损失是BERT中的标准MLM损失,提高了长句和复杂句的泛化能力。综合的实验证据表明,该VL-BERT在各种下游视觉语言任务,如视觉常识推理、视觉问答和指称表达理解上达到了最先进的性能。

相关工作:

  • Pre-training for Computer Vision
  • Pre-training for Natural Language Processing (NLP)
  • Pre-training for Visual-Linguistic Tasks 
    • VideoBERT 第一个试图对视觉语言任务进行预训练的研究。在该模型中,视频CLIP由现成的网络处理以进行行为识别,并根据衍生特征分配给不同的簇(visual words,可以理解为英文单词一样,因为视频图像都是由像素组成,像素本身是没有含义的,visual words是有含义的,表示不同的簇类别)。预训练损失是通过预测屏蔽视频片段的簇ID产生的。由于视频片段的聚类,它损失了大量的视觉内容信息,并阻碍了视觉网络参数的更新。在CBT的以下工作中(Sun等人,2019a),消除了这种聚类机制。这两个工作都应用于视频领域,因为视频在时间维度上具有线性结构,与文本相同。基于图像的视觉语言任务的研究是一个迫切需要解决的问题。
    • VisualBert、B2T2、Unicoder-VL 属于单流架构,LXMERT、ViLBERT 属于双流架构,在2019年,这些研究工作的同时出现表明,为视觉语言任务推导一种通用的可预训练表示方法的重要性,如表5。

此外,在预训练中,VL-BERT与其他并行工作有三个显著的区别:

  • 我们发现,在所有其他并行工作中(例如,ViLBERT(Lu等人,2019)和LXMERT(Tan&Bansal,2019))使用的句子-图像关系预测任务对视觉语言表征的预训练没有帮助,因此,VL-BERT中不包含此类任务(但实际上itm任务还是很有必要的,已经成为现在多模态预训练工作的标配了)
  • 我们在视觉语言和纯文本数据集上预训练VL-BERT,我们发现,这种联合预训练提高了长句和复杂句的泛化能力。
  • 改进了视觉表示的调整,在VL-BERT中,还训练了导出视觉特征的Fast R-CNN的参数。对输入的原始像素进行mask操作,而不是对卷积层生成的特征图进行mask。

方法:

  • 图1为VL-BERT的体系结构。涉及三种类型的输入信息,即视觉、语言和用于消除不同输入格式歧义的特殊token。输入序列是从一个特殊分类token [CLS]开始,然后是语言信息,然后是视觉信息,最后是一个特殊结束token [END]。在语言信息的不同句子之间以及语言和视觉信息之间插入一个特殊的分隔token [SEP]。对于每个输入信息,其嵌入特征是四种嵌入类型的总和,即Token Embedding、Visual Feature Embedding、Segment Embedding 和Sequence Position Embedding。其中,新引入了Visual Feature Embedding来捕获视觉信息,而其他三种嵌入遵循了原始BERT论文中的设计。
  • Token Embedding 30000大小的词表,对于视觉元素,分配一个特殊的[IMG] token。
  • Visual Feature Embedding 如图1最右边所示,分别描述视觉外观特征和视觉几何嵌入特征,然后将它们结合起来形成Visual Feature Embedding。对于对应于RoI区域的视觉信息,通过Faster R-CNN检测器(即Faster R-CNN中的检测分支)提取视觉外观特征,其中每个RoI的输出层之前的特征向量用作视觉特征嵌入(2048-d)。对于非视觉信息,对应的视觉外观特征是在整个输入图像上提取的特征。它们是通过在覆盖整个输入图像的RoI上应用Faster R-CNN获得的。视觉几何嵌入旨在告知VL-BERT图像中每个输入视觉元素的几何位置。每个RoI由一个四维向量表示,左上角和右下角的坐标,输入图像的宽度和高度,将四维向量嵌入到高维表示中(2048-d)。视觉特征嵌入附加到每个输入元素,它是以视觉外观特征和视觉几何嵌入的串联作为输入的全连接层的输出。
  • Segment Embedding 同BERT
  • Sequence Position Embedding 同BERT

预训练任务:

  • Masked Language Modeling with Visual Clues 该任务与BERT中MLM任务非常相似。关键区别在于视觉信息被纳入VL-BERT中,用于捕捉视觉和语言内容之间的依赖关系。在预训练期间,输入句子中的每个token都被随机mask(概率为15%),该模型基于未屏蔽词和视觉特征进行训练以预测mask token。该任务驱动网络不仅对句子词中的依存关系进行建模,而且对视觉和语言内容进行对齐。
  • Masked RoI Classification with Linguistic Clues 图像中的每个RoI区域都被随机mask(概率为15%),预训练任务是从其他信息预测被屏蔽RoI的类别标签。为了避免从其他元素的视觉特征嵌入中泄漏任何视觉线索,将RoI中的像素设置为零。在预训练期间,对应于mask RoI的最终输出特征被送到Softmax交叉熵损失的分类器中,用于对象类别分类。图1显示了一个示例,图像中对应于cat的RoI被屏蔽,并且无法从任何视觉线索预测相应的类别。但在输入标题为“小猫从瓶子里喝水”的情况下,该模型可以利用语言线索推断类别。

下游任务:

  • Visual Question Answering (VQA)
  • Visual Commonsense Reasoning (VCR)
  • Referring Expression Comprehension(REC)

3、VisualBERT—(ACL-2020)


介绍:

  • VisualBERT由一堆Transformer层组成,这些层通过注意力机制隐式地将输入文本和图像区域特征对齐。提出了两个基于视觉的语言的预模型目标。在四个视觉和语言任务(VQA、VCR、NLVR2和Flickr30K)上的实验表明,VisualBERT在显著简化的同时优于或与最先进的模型相匹敌。

方法:

  • 如图2,对文本的处理和其他多模态预训练模型一样。主要看一下对图像的处理:visual embedding通过三个embedding求和来计算:(1)fo,图像ROI边界区域的视觉特征表示,由Faster-rcnn提取(2)fs,表示它是图像嵌入而不是文本嵌入的段嵌入(3)fp,位置嵌入,当文字和图像之间的对齐作为输入的一部分提供时使用,并设置为与对齐文字对应的位置嵌入的总和。

预训练任务:

  • Masked Language Modeling with the image 同BERT的MLM任务。
  • Sentence-image prediction 图文匹配。

下游任务:

  • VQA
  • VCR
  • NLVR
  • FLICKR30K ENTITIES

<<多模态预训练—泛读系列(一)>>ViLBERT—(NeurIPS-2019),VL-BERT—(ICLR-2020),VisualBERT—(ACL-2020)相关推荐

  1. <<多模态预训练—泛读>>2022:BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Unders

    目录 问题与方案: 一.Introduction 二.Related Work 2.1.Vision-language Pre-training 2.2.Knowledge Distillation ...

  2. AI:2023年6月9日北京智源大会演讲分享之基础模型前沿技术论坛—《工程化打造AI中的CPU》、《构建一个AI系统:在LLM上应用带有RLHF来推进定制》、《多模态预训练的进展回顾与展望》、《扩展大

    AI:2023年6月9日北京智源大会演讲分享之基础模型前沿技术论坛-<工程化打造AI中的CPU>.<构建一个AI系统:在LLM上应用带有RLHF来推进定制>.<多模态预训 ...

  3. 格“物”致知:多模态预训练再次入门

    ©PaperWeekly 原创 · 作者|Chunyuan Li 单位|Microsoft Research Researcher 研究方向|深度生成模型 本文简要阐述了基于视觉和语言信息的多模态学习 ...

  4. 笔记:文澜:桥接视觉和语言的大规模多模态预训练 WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training

    笔记:WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training 笔记:文澜:桥接视觉和语言的大规模的多模 ...

  5. 从顶会论文看多模态预训练研究进展

    本文约4000字,建议阅读5分钟本文主要从以下几个方面对近期多模态预训练模型的工作进行介绍:预训练模型.多模态prompt.多模态预训练分析.知识迁移和知识蒸馏. 凭借着强大的泛化能力,预训练模型在C ...

  6. 一文速览!多模态预训练中的 Prompt 范式

    作者 | 上杉翔二 悠闲会 · 信息检索 整理 | NewBeeNLP 上一篇博文整理了预训练新范式,见 预训练新范式!为什么Prompt会更有效? 主要是围绕NLP上的成果,具体的概念本文也不做过多 ...

  7. CLIP-对比图文多模态预训练的读后感

    CLIP-对比图文多模态预训练的读后感 FesianXu 20210724 at Baidu Search Team 前言 CLIP是近年来在多模态方面的经典之作,其用大量的数据和算力对模型进行预训练 ...

  8. 医疗多模态预训练:如何利用非天然配对的医疗图像和文本做对比学习?

    ©PaperWeekly 原创 · 作者 | 王子丰 单位 | 伊利诺伊大学香槟分校 研究方向 | AI for healthcare EMNLP 2022 一共接收了我的三篇文章(两篇主会一篇 fi ...

  9. 《达摩院2023十大科技趋势》发布,生成式AI、多模态预训练大模型入选

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 1月11日,达摩院发布<达摩院2023十大科技趋势>,生成式AI.多模态预训练大模型等技术入选. 达摩院认为,AI正在加速奔 ...

最新文章

  1. Linux操作系统(二:shell脚本)
  2. python基础知识点总结-Python基础知识总结
  3. php函数scandir_使用PHP函数scandir排除特定目录
  4. 【Android 逆向】整体加固脱壳 ( DEX 优化流程分析 | dvmDexFileOpenPartial | dexFileParse | 脱壳点 | 获取 dex 文件在内存中的首地址 )
  5. 概率检索模型:BIM+BM25+BM25F
  6. Linux | 进程概念、进程状态(僵尸进程、孤儿进程、守护进程)、进程地址空间
  7. Linux常用的命令及操作技巧
  8. React学习笔记(五) 状态提升
  9. 通俗易懂!视觉slam第四部分——slam刚体三维空间运动
  10. android Gallery实现异步加载网络图片
  11. 用call/cc合成所有的控制流结构
  12. vc设备工程师_工程/设备工程师简历工作经历填写样本
  13. 什么是IS-IS中间系统到中间系统?网工、运维必看
  14. django教程ajax,Django Ajax的使用教程
  15. 十大管理47个过程说明:含义,输入,输出,工具,解释
  16. 电脑无法进入bios
  17. [4G5G专题-62]:架构 - 开放的网络自动化平台ONAP(Open Network Automation Platform)
  18. pythontkinter图片_Python tkinter实现图片标注功能(完整代码)
  19. handsontable使用及遇到的坑--mergeCell、合并单元格
  20. node学习:包package,Buffer缓存和fs文件系统

热门文章

  1. 魔音Morin_v2.5.1电脑版 一款音乐神器
  2. SEO优化:7招在手,网站流量提升易如反掌!
  3. HttpPrinter 易桥打印中间件 web打印插件使用说明
  4. IT是未来大趋势,有学计算机专业的同学会后悔和转行原因在哪?
  5. Selenium - Selenium best practices
  6. 怎么隐藏回收站?3个方法轻松隐藏回收站!
  7. 用计算机数字技术制作的电影是,数字技术在影视制作之中的应用
  8. F429-挑战者:LED的宏定义代码
  9. 交换机与路由器技术-03-交换机基本配置
  10. [Vue仿网易云音乐实战]炎炎夏日——放首自己喜欢的歌