lxmert:learning cross-modality encoder representations from transformers

LXMERT: Learning Cross-Modality Encoder Representations from Transformers 论文笔记_小有名气的可爱鬼的博客-CSDN博客视觉 - 语言推理需要对视觉概念、语言语义有一定的理解，尤其还需要能在这两个模态之间进行对齐、找到关系。作者们提出了 LXMERT 框架来学习这些语言和视觉的联系，它含有三个编码器：一个对象关系编码器、一个语言编码器和一个跨模态编码器。为了让模型具备联系视觉和语言语义的能力，使用了 5 个不同的有代表性的预训练任务：（1）掩码交叉模态语言建模；（2）通过ROI特征回归进行掩码目标预测；（3）通过检测到的标签分类进行掩蔽目标预测；（4）交叉模态匹配；（5）图像问题解答。这些多模态预训练既可以帮助学习同一个https://blog.csdn.net/weixin_42305378/article/details/104336844 看完文章，感觉和bert是一个思路的，只不过加了视觉模态，是一个多任务的跨模态的特征标识学习，和bert是同一类型，但是模态多了，和当下主流最火的对比学习还是不同，这样看来，对比学习的模式确实更加简单有效了。多模态的任务，预训练是核心，怎么训起来包括模型学到了足够的先验，能够迁移到下游任务，模态的对齐。

1.introduction

视觉语言推理需要理解视觉内容语义以及跨模态对齐和关系。注意不同模态之间的对齐还是挺难的，尽管有不少单模态的工作，但对视觉和语言模态的大规模预训练拟合微调研究很少，就类似与bert这种在视觉语言推理上的应用还是很少。

lxmert由三个部分组成，an object relationshaip encoder，a language encoder，a cross-modality encoder。为了更好的学习视觉和语言之间的跨模态对齐，用了5个不同的代表性任务来预训练模型。1.masked cross-modality language modeling，掩码跨模态语言建模，2.masked object prediction via Roi-feature regression.通过Roi特征回归掩码对象建模，3.masked object prediction via detected-label classification. 通过检测到的标签分类进行掩码目标预测，4.cross-modality matching.跨模态匹配，5.image question answering.图像问题解答。与单模型预训练（例如，单模型中的bert）不同，这种多模态预训练允许我们的模型从相同模态中的可见元素或从其他模态中的对齐组件中推断掩码条件，通过这种方式，有助于建立模态内和跨模态的关系。这块其实很重要，文本模态和图像模态的对齐是比较难的事情，如果是单模态没有对齐这一步。

2.model architecture

具有注意力和交叉注意力的跨模态模型，需要两个输入，图像及其相关句子，每个图像都表示为对象序列，其实是图像块和坐标的组合，每个句子表示为一个单词序列，通过设计和组合这些自注意力和交叉注意力层，模型能够从输入生成语言表示，图像表示和跨模态表示。

2.1 Input embedding

lxmert中输入嵌入层将输入转换为两个特征序列。

2.2 encoders

single-modality encoders.如上图所示，左侧首先是一个embedding层对输入特征进行编码，图像是目标对象和坐标，文字是单词和位置的embedding，然后分别进入单模态的转换编码器，即语言编码器和对象关系编码器，它们中的每一个都只关注一种模态，与仅将转换器编码器应用于语言输入的 BERT（Devlin 等人，2019）不同，我们也将其应用于视觉输入（以及下文所述的跨模态输入）。单模态编码器中的每一层（图 1 中的左侧虚线块）都包含一个自注意（'Self'）子层和一个前馈（'FF'）子层，其中前馈子层进一步由两个全连接的子层组成。我们分别在语言编码器和对象关系编码器中采用 NL 和 NR 层。

cross-modality encoders.如右侧所示，图像和文本的特征有一个交叉，下面的公式就不用关注了，看完生成模型的公式，觉得在判别模型中很多论文都是实验派论文，其实公式就是摆摆样子，没有什么深度的，但话说回来，如果都是像生成模型那样的理论推断，行业门槛确实就上去了。

2.3 output representations

xlmert有三个输出，分别是语言，视觉和跨模态的三个输出。语言和视觉输出特征序列由交叉模态编码器产生的；对于跨模态输出，我们附加了一个特殊的标记[CLS]（在上图的底部分支中表示为顶部黄色块）在句子词之前，并且该特殊标记在语言特征序列中的对应特征向量为用作交叉模式输出。

3.pre-training strategies

这里是核心。

3.1 language task: masked cross-modality lm

与bert几乎相同，以0.15的概率随机屏蔽单词并且要求模型预测这些被屏蔽的单词，当然xlmert不同于bert的是，除了从语言模态中预测，也可以在视觉模态中预测掩码词，从而解决歧义。例如图2中被屏蔽的单词carrot，如果考虑视觉信息单词就很清楚了，因此，这有助于建立从视觉到语言模态的练习，这种角掩蔽跨模态LM。本质上就是因为本身是跨模态训练，输入的信息本身也比bert多，bert只有文本信息，这里的输入除了文本还有图像。

3.2 vision task:masked object prediction

我们通过以0.15概率随机屏蔽对象，即用0屏蔽Roi特征，上图中变暗的那部分就是直接被填充了，要求模型去预测这些被屏蔽对象的属性。其实这里和mae已经比较接近了，mae也是屏蔽掉图像中部分patch，然后模型预测重建，只不过mae是单模态的。与语言模型类似，改模型可以从可见对象或语言模态推断掩码对象。从视觉方面推断对象有助于学习对象关系，从语言方面推断有助于学习跨模态对齐。因此，执行两个子任务，1.roi-feature regression.用l2损失回归对象ROI特征，2.detected-label classification.交叉熵损失学习掩码的标签。虽然大多数预训练掩码对象都有对象级的注释，就是类似目标检测级别的注释，对象和label，处于这些原因，我们采用fasterrcnn输出的预测标签，尽管这些标签有噪声，但是有助于预训练。

3.3 cross-modality task

图2中的预训练是5个任务，图像有两个，文本有一个，跨模态有两个

cross-modality matching.对于每个句子，我们以0.5的概率将其替换。然后训练一个分类器来预测图像和句子是否匹配，在bert中也有一个预训练任务是预测下一个是不是本句子的下一个句子。

image question answering 为了扩大训练前的数据集，预训练数据中大约1/3句子是关于图像的问题，当图像和句子匹配时，我们要求预测这些图像相关的问题的答案，这种qa预训练能够更好的学习跨模态表示。

总结：看完之后，我发现单模态的bert和mae，其实在训练上还是比较简单的，尤其是mae的训练，大模型这种跨模态的大模型的，模态的对齐很重要，模态的对齐其实就通过预训练任务的设计去完成的，因此预训练任务的设计很有意义。而现在简单的预训练任务就能完成很好的效果的模式要更值得去探索，要看看是否有内在的模式被挖掘出来，也就是信息或者特征的本质的高效的学习。

lxmert:learning cross-modality encoder representations from transformers相关推荐

BERT: Bidirectional Encoder Representations from Transformers双向Transformer用于语言模型 NAACL 2018
论文链接:https://arxiv.org/abs/1810.04805 tensorflow版本代码链接:https://github.com/google-research/bert pytor ...
Bert（Bidirectional Encoder Representations from Transformers）
一.简介 Bert即基于Transformer的双向编码器表示,2018年由google提出.基于多个Transformer的编码器堆叠而成,输入输出不改变形状. Bert的双向不是常规的RNN式的正 ...
【实体对齐·HGCN】Jointly Learning Entity and Relation Representations for Entity Alignment
文章目录 1.动机 2.输入输出 3.相关工作 4.模型 4.1 GCN 4.2 approximating relation representations 4.3 joint entity and ...
【论文随笔2】COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations
原文链接:[论文随笔2]COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations ...
【论文阅读】Gait Lateral Network: Learning Discriminative and Compact Representations for Gait Recognition
Gait Lateral Network: Learning Discriminative and Compact Representations for Gait Recognition 摘要: I ...
【步态识别】GLN 算法学习《Gait Lateral Network: Learning Discriminative and Compact Representations for Gait R》
目录 1. 论文&代码源 2. 论文亮点 3. 框架解读 3.1 横向连接☆ 3.2 紧凑块 3.3 训练策略 3.3.1 三元组损失 3.3.2 交叉熵损失 3.3.3 总损失函数 4. 实 ...
【推荐算法论文阅读】BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Trans
一.背景之前基于RNN的推荐模型都是按照从左到右单向建模的,单向结构限制了用户行为序列中隐藏表示的能力--它们通常假定一个严格有序的序列,而这并不总是实用的. 本文提出了 bert4rec,应用de ...
An effective self-supervised framework for learning expressive molecular global representations to d
An effective self-supervised framework for learning expressive molecular global representations to d ...
HiFormer Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation
[WACV2023] HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image S ...

lxmert:learning cross-modality encoder representations from transformers

lxmert:learning cross-modality encoder representations from transformers相关推荐

最新文章

热门文章