一、摘要

作者认为现有的研究关系的方法大多是单个视觉区域和单词之间的模型关系，不足以正确回答问题。因为从人类的角度来看，回答视觉问题需要理解视觉和语言信息的总结。在这篇论文中，作者提出了用于视觉问答的多模态潜在交互网络模型（MLI）来解决这个问题。该模型学习潜在视觉和语言摘要之间的交叉模式关系，将视觉区域和问题归纳为少量的潜在表示，从而避免建模无信息单个视觉-问题关系。潜在摘要之间的跨模态信息被传播以融合来自两种模式的有价值信息，并用于更新视觉和问题特征。这类MLI模块可以分为几个阶段来模拟这两种模式之间的复杂和潜在的关系。

二、简介

MLI模块首先将问题和图像特征编码成少量的潜在视觉和问题摘要向量。每个摘要向量都可以表示为视觉或文字特征的加权合并，它从全局的角度总结了每个模式的某些方面，从而编码了比单个单词和区域特征更丰富的信息。在获得每个模态的概要向量之后，我们便在多模态摘要向量之间建立视觉语言关联，提出在摘要向量之间传播信息以对语言和视觉之间的复杂关系进行建模。每个原始视觉区域和单词特征将最终聚集来自更新过的潜在总结的信息,然后使用注意力机制和残差连接来预测正确答案。

三、多模态潜在交互网络模型

上图给出了MLIN模型，该模型由很多MLI模型堆叠而成，这样做的目的是为每个模态把输入的视觉区域信息和问题单词信息概括为少量的潜在概括向量。其核心思想是将视觉信息和语言信息传播到潜在的总结向量中，从全局的角度对复杂的跨模态交互进行建模。在潜在交互总结向量之间的信息传播之后,视觉区域和单词特征聚合来自跨模态摘要的信息，以更新它们的特征。在最后阶段，我们对视觉区域和问句的平均特征进行元素乘法，以预测最终答案。

3.1Question and Visual Feature Encoding

我们使用Faster RCNN目标检测器从图像I中提取视觉区域特征，每张图片编码M个视觉区域特征，表示为。而句子将被填充到最大长度14，并由双向transformer进行随机初始化编码，表示为。多模态特征编码可以表述为：

3.2. Modality Summarizations in MLI Module

在获取视觉特征和问题特征后，添加了一个轻量级的神经网络，为每个模态生成k组潜在的视觉或语言概要向量，首先生成k组线性组合权重。

在这里并且，它们是每个模态可学习的k组变换权重。

$softmax_{\leftrightarrow }$ 表示沿水平维度的softmax操作，这里用水平的原因我想可能是 $(W_{R}\ast R^{T})\epsilon \mathbb{R}^{k*m}$ ,共有k行m列，沿水平方向进行softmax操作，共执行k词，每一次操作包含m个区域的信息，实现不同区域的交互，softmax函数的返回结果和输入的tensor有相同的shape。

此时的 $\bar{R}\epsilon \mathbb{R}^{k*512}$ , $\bar{E}\epsilon \mathbb{R}^{k*512}$ ,经过以上操作，我们为每个模态概要了k个概要特征。

k个潜在的视觉或语言摘要向量中的每一个（即R或E的每一行）都是输入单个特征的线性组合，每个模式中的k个摘要向量可以从全局角度捕捉输入特征的k个不同方面信息。

3.3. Relational Learning on Multi-modality Latent Summarizations

1.Relational Latent Summarizations.

该模块对应图中的interaction部分。

利用一个关系学习网络来建立跨模态的关联。我们从上述引入的k个潜在总结向量中创建k×k潜在视觉问题特征对。这种k*k对可以表示为3D关系张量：

(省略了转置符号)

$\odot$ 表示对应元素相乘，结果是1*512维的，然后用WA乘，得到512*1的向量。

2.Relational Modeling and Propagation

在这两种模式中传播信息对于学习复杂的答案预测关系是很重要的，基于我们的跨模态关系张量A，我们引入了两个操作，它们在配对特征之间传递和聚合信息，在信息传播之前，我们先将A的维度转换为 $\tilde{A}\epsilon \mathbb{R}^{k^{2}*512}$ 。第一个跨模态信息传递操作对每个配对特征执行额外的线性转换。

其中

并且

，它们是将每个配对特征A(i，j，：)转换成一个新的512维特征的关系线性变换参数。

第二交叉模态信息传播操作执行在不同配对特征之间传递的信息。

其中

并且

。两个交叉模态转换的结果针对在交叉模态配对特征的不同方面，模拟输入图像和问题之间的复杂关系。第一个操作的重点是对每个视觉问题潜在对之间的关系进行建模。第二个操作试图在所有视觉问题对之间传播高阶信息，以建立更复杂的关系。

上述两个运算结果的求和结果表示为

。

可以被认为是对两种模态中的潜在概要向量之间的跨模态关系进行深度编码的潜在表示。

3.Feature Aggregation

特征聚合过程可以由Transformer的keyquery注意机制建模。,这里要将R，E转为128维向量，：

（ $E_{Q}$ 应该改为 $Q_{E}$ ）

K和V同样转为128维向量，。

该区域的查询特征和单词特征QR、QE将用于对来自潜在表示的不同关键特征K进行加权。该处在竖直维度上使用softmax。（m*36/n*36）

这里，原始区域和单词的特征可以更新为：（该处与模型图不一致，我认为下式方法更好）

输入和输出维度相同。我们可以使用多个MLI来细化视觉和单词特征，最后，我们对视觉区域特征和单词特征进行平均池化，并对池化后的两种特征进行元素乘操作，最后，采用具有SoftMax非线性函数的线性分类器进行答案预测。

整个系统使用交叉熵损失函数以端到端的方式训练。

Multi-modality Latent Interaction Network for Visual Question Answering阅读笔记相关推荐

【论文分享】Relation-Aware Graph Attention Network for Visual Question Answering
分享一篇nlp领域运用注意力机制设计视觉问答系统的文章,只是对文章进行翻译以及简单的归纳. 目录二.动机三.方法 1.问题定义 2.模型结构 2.1 图的构建 2.2 关系编码器 2.3 多模融合 ...
论文阅读—Relation-Aware Graph Attention Network for Visual Question Answering
论文阅读-Relation-Aware Graph Attention Network for Visual Question Answering 一.标题用于视觉问答的关系感知图注意力网络二.引 ...
WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记
WeaQA:Weak Supervision via Captions for Visual Question Answering论文笔记一.Abstract 二.引言三.相关工作 3.1 VQA ...
Hierarchical Graph Network for Multi-hop Question Answering 论文笔记
Hierarchical Graph Network for Multi-hop Question Answering 论文笔记 2020 EMNLP,Microsoft 365, 这篇文章所提出的层 ...
LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记
LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记一.摘要 ...
Multimodal Dual Attention Memory for Video Story Question Answering阅读笔记
本文提出了一种视频故事问答(QA)体系结构MDAM,关键的思想是使用双重注意机制与后期融合.MDAM首先使用self - attention来学习场景帧和字幕中的潜在概念.然后根据给出的问题,使用第二 ...
Visual Question Answering概述
目录任务描述应用领域主要问题主流框架常用数据集 Metrics 部分数据集介绍摘自这篇博客任务描述输入:图片III.由nnn个单词组成的问题Q={q1,...,qn}Q=\{ q_1,. ...
自下而上和自上而下的注意力模型《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》
本文有点长,请耐心阅读,定会有收货.如有不足,欢迎交流, 另附:论文下载地址一.文献摘要介绍 Top-down visual attention mechanisms have been used ...
【Transformer论文解读】TRAR: Routing the Attention Spans in Transformer for Visual Question Answering
TRAR: Routing the Attention Spans in Transformer for Visual Question Answering 一.Background With its ...
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering
博主水平有限,大部分为机翻摘要: 最近,视觉问答(VQA)已经成为多模式学习中最重要的任务之一,因为它需要理解视觉和文本模式.现有方法主要依靠提取图像和问题特征来通过多模态融合或注意机制来学习它们的 ...

Multi-modality Latent Interaction Network for Visual Question Answering阅读笔记