1.介绍

为了学习图片和文本的联合表征,我们提出了知识增强的方法ERNIE-Vil, ERNIE-Vil尝试构建详细的语法连接(物体,属性,以及物体在视觉场景的关系)

目前模型不区分常见词，本文将其分为object，attribute，relationship。

1.1 Oscar

Oscar 是比较典型的单流结构，效果似乎很好，但我们需要比较每个 word 和图片的关系，灵活性似乎不足。

2.2 CLIP

CLIP 是双塔结构，图片和文本分别走两个塔，分别产出文本 embedding 和图像 embedding，并基于两个 embedding。

算法结构非常好理解，其特殊的设计在于训练阶段

2.Ernie-vil

原始的 bert 采用 MLM 的方式进行模型训练，ERNIE 设计过一种 knowledge masking strategy ，mask 掉有有含义的表示部分，从而实现效果的提升。

我们提出的方法有三个贡献:

1 据我们所知，ERNIE-ViL是第一个通过引入结构知识来增强视觉语言前训练的作品。

2 ERNIE-ViL在视觉-语言联合表示的前训练期间构建场景图预测任务，将更多的重点放在跨模式的详细语义对齐上。

3 ERNIE-ViL在5个下游跨模式任务上实现了最先进的性能，并在VCR排行榜上排名第一。

2.1 多模态预训练

许多视觉-语言跨模态预训练模型被提出。这些研究主要集中在三个方面，即模型架构、训练前任务和训练前数据。

场景图包含结构化的视觉场景知识，包括当前对象、对象的属性和对象之间的关系。场景图作为描述视觉场景图像和字幕详细语义的一种有益的先验知识，

在图像字幕、图像检索、VQA和图像生成等领域产生了许多最先进的模型。

3.方法

我们将说明我们新提出的场景图预测训练前训练任务。最后，我们将介绍在ERINE-ViL中使用场景图预测任务进行预训练。

3.1模型结构：

Sentence Embedding 采用与BERT相似的词前处理方法。使用WordPiece方法将输入的句子标记为子单词标记。特殊的符号，如[CLS]和[SEP]也被添加到标记化的文本序列中，以使文本序列{[CLS]， w1，…wT}。将原词嵌入、片段嵌入和序列位置嵌入相结合，生成每个子词标记的最终嵌入。

Image embedding 对于图像，我们首先使用一个预先训练的目标检测器从图像中检测出显著图像区域。利用多分类层前的池化特征作为区域特征。我们也通过5维向量(x1, y1, x2, y2， (y2−y1)(x2−x1))对每个区域的位置特征进行编码，其中WH (x1, y1)和(x2, y2)表示左下角和右上角的坐标，W和H为输入图像的宽度和高度。我们还添加了一个特殊的功能[IMG]，表示表示整个图像。We take h[IMG] and h[CLS] as the holistic image and text representations.

3.2 Scene Graph Prediction

根据句子和图像的条件，我们可以准确地重建对象(cat)、属性(white)和关系(on top)，即使这些元素都缺失了。但是，在给定的句子中，我们只能重构与原始标记具有相同类型的元素，但不能将它们与image对齐。当句子中隐藏了对象、属性或关系时，如果没有图像的帮助，模型就无法准确地重建它们。

场景图编码结构化的视觉场景知识，包括对象的存在、对象的属性和对象之间的关系，这些知识在不同的场景中是非常重要的。因此，我们构造场景图预测任务，即对象预测、属性预测和关系预测任务。这些任务迫使模型在更详细的语义上跨视觉和语言构建对齐。具体来说，我们基于从文本中解析的场景图，根据场景中不同的节点类型构造三个预测任务

给定文本句子w，我们将其解析为场景图，对象相关联的属性节点的设置节点,其中A(w)是w中提到的属性集合。场景图更详细地描述了对象，对象之间有各种关联的属性和关系。因此，整合场景图知识有助于学习更详细的视觉语言联合表示。

对象是视觉场景的主导元素，在语义表示的构建中起着重要的作用。对对象的预测迫使模型在对象级建立视觉-语言连接。首先，对于场景图中的所有对象节点，我们随机选取其中的30%进行掩码。对于每个选定的对象节点O(w)，我们将其替换为概率为80%的特殊令牌[MASK]，概率为10%的另一个随机令牌，并保持其概率为10%。注意，对象实际上对应于句子中文本的子序列，因此对象屏蔽是通过屏蔽文本中相应的子序列来实现的。对于Object Prediction, ERNIE-ViL试图恢复这些被屏蔽的对象令牌，记作woi，基于对其周围单词w和所有图像区域v的观察，通过最小化负对数似然。

3.3 Training ERNIE-ViL

我们使用概念标题(Conceptual Captions, CC)数据集和SBU数据集作为训练前数据。CC是从支持alt-text的web图像中自动提取的330万图像-标题对的集合，而SBU是一个类似的视觉语言数据集，它有100万图像-标题对。由于下载数据时已经出现了一些链接断开的情况，所以我们下载CC数据集的次数只有300万对左右，SBU数据集的次数只有80万对左右。注意，CC和SBU是自动从web上收集的图像-标题对，与下游任务数据集没有交集，因此作为训练视觉语言模型的域外数据集。

对训练中的每一对图像-文本对进行如下预处理。对于图像，我们采用在Visual-Genome数据集上预先训练的Faster R-CNN (with ResNet-101 backbone)来选择图像的显著区域，提取区域特征。具体来说，选择类检测概率超过置信阈值0.2的区域，保留10 ~ 36个盒子。对于每个保留的区域，使用均值池卷积表示作为特征。对于文本，我们使用场景图解析器来解析句子中的场景图，并采用WordPieces来标记BERT后面的句子。对于掩蔽策略，我们随机掩蔽15%的令牌，30%的场景图节点和15%的图像区域。而对于令牌和区域预测任务，只会预测正对中的项。我们在两种模型比例设置上训练ERNIE-ViL: ERNIE-ViL-base和ERNIE-ViL-large，这两种设置主要在文本流的模型深度上有所不同。具体设置如表2所示。我们用ERNIE 2.0模型中的参数初始化文本流，并在8个V100 gpu上用512个总批处理大小训练erin - vl，至少500k步。使用了初始学习速率为1e-4的Adam优化器和学习速率线性衰减计划。

3.4 Downstream Tasks

Visual Commonsense Reasoning (VCR)：

Visual Commonsense Reasoning (VCR)任务包含两个子任务:Visual question answer (QA)和answer justification (QA R)，它们都是多项选择题。整体设定(Q AR)要求所选答案和所选理论基础都是正确的。VCR数据集由来自11万个电影场景的29万个多选题QA问题组成。在视觉问答任务中，我们将语言模态的问题和每个候选答案连接起来，而将图像保留为视觉模态。我们对h[CLS]和h[IMG]的最终隐藏状态进行点积，预测与附加FC层的视觉内容语义匹配的每个答案的匹配分数。对于回答验证(QA R)任务，我们使用与视觉回答(QA)任务相同的设置。

Visual Question Answering (VQA) ：

VQA任务需要回答关于图像的自然语言问题。VQA 2.0数据集包含204k图像和110万个关于这些图像的问题。在之后，我们将VQA视为一个多标签分类任务，根据每个答案与10个人工答案答案的相关性为其分配一个软目标分数。我们对h[CLS]和h[IMG]的最终隐藏状态进行点积，通过一个附加的两层MLP将这种表示映射到3129个可能的答案中。在软目标评分上采用二元交叉熵损失对模型进行优化。我们在12个epoch上对VQA模型进行了微调，批量大小为256，初始学习速率为4e-5，在epoch 6和epoch 9结束时衰减了0.1。在推断时，我们简单地采用softmax。

为了验证从场景图中整合知识的有效性，我们进行了视觉模态条件下的语言完形填空测试。在完形填空测试中，语言标记代表了详细的语义(对象、属性和关系)，这些语义对文本是屏蔽的，模型需要通过上下文从文本和图像中推断出它们。为了构建数据集，我们从Flickr30K数据集中采样了15,000个图像-文本对，总共选择了5,000个对象令牌、属性和关系。预测采用acc@1和acc@5作为评价指标。在不执行蒙面场景图预测任务的情况下进行预训练的基线模型与提出的ERNIE-ViL模型预测结果的比较如表4所示。对象的绝对改进acc@1为2.12%，关系为1.31%，属性为6.00%，这表明ERNIE-ViL学会了更好的跨模式的详细语义对齐。此外，我们还在表5中演示了一些案例，并在正确的列中显示了前5个可能的预测。在案例1-5中，基线模型不能做出正确的预测，因为在进行前训练时，在没有区分常见词汇和详细语义的情况下，它没有学习详细语义的准确对齐。而在案例6中，基线模型可以预测合理的token，但置信度较低。然而，ERNIE-ViL也可能在case 7-8中预测错误的标记，这是由于具体的语义(例7和“狗”，“动物”)在视觉空间是相当相似的。

我们提出了ERNIE-ViL方法学习视觉和语言的联合表征。除了传统的跨模态预训练外，我们还引入场景图预测来描述跨视觉和语言的详细语义对齐。在不同下游任务上的实验结果表明，交叉模态预训练过程中融合场景图知识的效果有所提高。在未来的工作中，从图像中提取的场景图也可以纳入交叉模态的预训练。此外，还可以考虑使用图神经网络来集成更结构化的知识。

11:ERNIE-VIL:KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH相关推荐

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph
目录 Introduction Scene Graph (场景图) ERNIE-ViL Model Architecture Scene Graph Prediction (SGP) Experime ...
【论文笔记】ERNIE-VIL: KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH
本文强调的点是语义对齐(semantics alignment),并且将VL任务划分为了三个部分,即识别图中的对象.属性.关系. 本文利用了ERNIE的知识掩蔽策略,即每次掩蔽整个短语或实体而不是子词 ...
论文笔记《Knowledge Enhanced Contextual Word Representations》
Motivition 作者的出发点有几个: 尽管BERT这种预训练模型取得了state-of-art的成绩.但是.因为他们没有包含真实世界的实体,所以导致这些模型也很难覆盖真实世界的知识. 没有实体没 ...
详细介绍ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
系列阅读: 详细介绍百度ERNIE1.0:Enhanced Representation through Knowledge Integration 详细介绍百度ERNIE 2.0:A Continu ...
论文解读：SentiPrompt: Sentiment Knowledge Enhanced Prompt-Tuning for Aspect-Based Sentiment Analysis
论文解读:SentiPrompt: Sentiment Knowledge Enhanced Prompt-Tuning for Aspect-Based Sentiment Analysis 简要信 ...
【论文阅读】Knowledge Enhanced GAN for IoT Traffic Generation
CCF A 用于物联网流量生成的知识图谱增强 GAN Shuodi Hui, Huandong Wang, Zhenhua Wang, Xinghao Yang, Zhongjin Liu, Depe ...
LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching学习笔记
文章目录 1. 背景与相关技术 1.1 解决的问题与方法 1.2 HowNet 1.3 Word lattice graph 1.4 Graph attention networks 2. LET 2 ...
X-VLM: Multi-Grained Vision Language Pre-Training
Contents Introduction Method Experiment References Introduction 大部分 VLM (Visual-Language Model) 依赖于目 ...
KoLA: Carefully Benchmarking World Knowledge of Large Language Models翻译
摘要大型语言模型(LLM)的前所未有的表现有必要改善评估系统.我们认为,细致和全面的设计benchmark对于彻底,公正和可用的评估至关重要,而不是仅仅探索LLM能力的广度.考虑到世界知识对LLM的 ...

11:ERNIE-VIL:KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH