下面是我对最近阅读的论文《Generating Question Relevant Captions to Aid Visual Question Answering》的一些简要理解

一、摘要

视觉问答和图像字幕需要一个共同的知识体连接语言和视觉。我们提出了一种新的方法来提高VQA性能，通过联合生成标题来利用这种连接，这些标题旨在帮助回答特定的视觉问题。该模型使用现有的标题数据集进行训练，方法是使用基于在线梯度的方法自动确定与问题相关的标题。关于VQA V2挑战的实验结果表明，我们的方法获得了最先进的VQA性能同时生成与问题相关的标题。

二、介绍

我们探索了一种新的方法，生成与问题相关的图像描述，其中包含与特定的VQA问题直接相关的信息。图一给出了不同的问题我们生成的标题的示例。

图一：我们生成的问题相关标题的示例。在训练阶段，我们的模型为每个问题选择最相关的人类标题（用相同的颜色标记）。

为了鼓励生成相关标题，我们提供了一种新的贪婪算法，其目的是仅对最相关和最有用的黄金标准标题最小化交叉熵损失函数。具体来说，使用标题生成损失和VQA答案预测损失的梯度的内积来测量帮助性。正内积意味着两个目标函数在优化过程中共享一些下降方向，因此表明相应的标题有助于VQA训练过程。

为了结合标题信息，我们提出了一种新的标题嵌入模块，该模块考虑到视觉问题的问题和图像特征，识别标题中的重要单词，并生成适合于答案预测的标题嵌入。此外，标题嵌入也被用来调整每个对象的视觉自下而上的注意权重。

此外，生成与问题相关的标题确保图像和问题信息都被编码在它们的联合表示中，这降低了从问题偏见中学习的风险，并且在单独从问题中获得高精度时忽略了图像内容。

三、方法

联合模型的总体结构

图二：我们的模型的总体结构，生成与问题相关的标题来帮助VQA。我们的模型首先被训练来生成与问题相关的标题，这是在第一阶段以在线方式确定的。然后，用第一阶段生成的标题对VQA模型进行微调，以预测答案。蓝色箭头表示完全连接的层（f_c），黄色箭头表示注意嵌入。

3.1Overview

如图所示，该模型首先利用自上而下的注意和问题特征q提取图像特征
V = {v₁, v₂, …, v_K}，生成它们的联合表示，然后生成与问题相关的标题。接下来，我们的标题嵌入模块将生成的标题编码为标题特性c，在此之后，两个问题特征q和标题特征c被用来生成视觉注意力来加权图像的特征集V，产生出席的图像特征。最后，我们将添加到标题特征c中，并进一步执行与问题特征q的元素乘法，以产生问题、图像和标题的联合表示，然后用于预测答案。

3.2Feature Representation

在本节中，我们将解释这种联合表示的细节。我们使用f(x)来表示完全连接的层，其中f(x)=LReLU(W_x b)，输入特征x，为了简单起见，忽略权重和偏差的表示法，其中这些f_c层不共享权重。 LReLU表示一个Leaky ReLU。

Image and Question Embedding
我们使用对象检测作为自上而下的注意，这提供了清晰边界的突出图像区域。特别是，我们使用一个更快的R-CNN头与ResNet-101基网络作为我们的检测模块。检测头首先在VisualGenome数据集上进行预训练，能够检测1600个对象类别和400个属性。为了生成图像特征V的输出集，我们采用最终的检测输出，并使用0.7的loU阈值对每个对象类别执行非最大抑制。最后，提取每幅图像的36个检测对象的固定数目作为图像特征。
对于问题嵌入，我们使用具有1280个隐藏单元的标准GRU，并在最后一个时间步骤中提取隐藏单元的输出作为问题特征Q。问题特征Q和图像特征集V被进一步嵌入在一起，通过问题视觉注意力产生一个问题附加的图像特征集。

Caption Embedding
我们的新标题嵌入模块采用了问题附加特征集，问题特征 q ，和C标题

其中T表示标题的长度，i =1，…，C是标题索引，然后生成标题特征C。

图三：标题嵌入模块。单词GRU用于生成注意以识别每个标题中的相关单词，标题GRU生成最终标题嵌入。我们使用问题附加图像特征来计算注意力。蓝色箭头表示fc层，黄色箭头表示注意嵌入。

标题模块的目标是作为知识补充来帮助VQA，并提供更多的线索来更好地识别相关对象并调整自上而下的注意力权重。为了实现这一点，如图三所示，我们使用两层GRU体系结构。第一层GRU(称为WordGRU)在每个时间步骤中顺序编码标题中的单词为：

其中W_e是单词嵌入矩阵，是单词的one-hot嵌入。
然后，我们设计了标题注意模块它利用问题附加特征集，问题特征Q，和生成当前单词的注意权重，以表明其重要性。具体来说，单词GRU首先编码嵌入在eq.1中的单词。然后，我们将输出和馈送到注意模块，如eq.4所示：

其中表示sigmoid函数，K是自下而上注意的对象数。
接下来，在标题中出现的单词通过标题 GRU产生 eq.5中的最终标题表示。因为目标是收集更多的信息，我们在等式7中的所有输入标题 C_i 的表示中执行元素级的max池。

其中max表示图像的所有标题表示C_i的元素级max池。

3.3VQA模块

本节描述VQA模块的详细信息。生成的标题通常能够捕捉与问题相关的对象之间的关系；然而，这些关系在自上而下的注意力中是不存在的。因此，我们的VQA模块利用标题嵌入C来调整VQA中的自上而下的注意权重，以产生最终的标题附加特征在等式10中。

其中k遍历K对象特征。

为了更好地将标题中的信息合并到VQA过程中，我们将标题特性C添加到所参加的图像特性中，然后按元素乘以问题特征，如eq.11所示：

我们将答案预测任务框架为一个多标签回归问题，特别是，我们使用黄金标准VQA-V2数据中的软分数作为标签来监督Sigmoid归一化预测，如eq.13所示：

其中指数j运行于N个候选答案，s是软答案分数。

3.4图像描述模块

我们使用问题附加图像特征作为输入，只使用最相关的标题，这是自动确定的在线方式，为每个问题图像对训练字幕模块，这确保只生成与问题相关的标题。

Selecting Relevant Captions for Training
我们通过更新共享下降方向来实现动态的确定每个问题，改善VQA的标题，这减少了字幕和VQA的损失，这确保了优化过程中图像字幕模块和VQA模块的一致目标。

在训练过程中，我们使用eq.14计算第一标题的交叉熵损失，并且只从求解 eq. 15所确定的最相关的标题中反向传播梯度。
特别地，我们要求当前来自预测答案和人类标题的梯度向量的内积大于一个正常数 ξ，并进一步选择最大化内积的标题。

其中，是预测答案的，
表示图像的第一个人类标题，k遍历K对象特征。
因此，eq.15给出了方程的解，我们的联合模型的最终损失是VQA损失和选定标题的标题损失之和，如eq.16所示，如果eq.15没有可行的解决方案，我们则忽略标题损失。

四、实验

表一：我们在VQA上的结果与测试数据上的最先进方法的比较。

下图展示了我们生成的问题相关标题的几个例子，这些例子说明了当问题被改变时，如何为相同的图像生成不同的标题，它们还显示了图像中对回答问题很重要的对象是如何在与问题相关的标题中描述的。

五、结论

在这项工作中，我们已经探索了如何生成与问题相关的图像标题可以提高VQA性能。特别是，我们提出了一个模型，它联合生成与问题相关的标题，并使用它们提供额外的信息来帮助VQA。这种方法只利用现有的图像标题数据集，自动确定哪些标题与给定的问题相关。

《Generating Question Relevant Captions to Aid Visual Question Answering》（生成问题相关标题，以帮助视觉回答问题）论文解读相关推荐

WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记
WeaQA:Weak Supervision via Captions for Visual Question Answering论文笔记一.Abstract 二.引言三.相关工作 3.1 VQA ...
Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记
Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记一.Abstract 二.引言三.R ...
Visual Question Answering with Textual Representations for Images 论文笔记
Visual Question Answering with Textual Representations for Images 论文笔记一.Abstract 二.引言三.方法 3.1 Lang ...
论文分享——Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
文章目录文章简介 1.背景介绍研究背景概念介绍问题描述 IC与VQA领域的主要挑战 2.相关研究 CNN+RNN体系架构 Attention mechanism Bottom-Up and T ...
论文-《Visual Question Answering as Reading Comprehension Hui》笔记
论文下载摘要: Visual question answering (VQA) demands simultaneous comprehension of both the image visual ...
深度学习神经网络学习笔记-多模态方向-09-VQA: Visual Question Answering
摘要 -我们提出了自由形式和开放式视觉问答(VQA)的任务.给定一张图像和一个关于图像的自然语言问题,任务是提供一个准确的自然语言答案.镜像现实场景,比如帮助视障人士,问题和答案都是开放式的.视觉问题 ...
Visual Question Answering概述
目录任务描述应用领域主要问题主流框架常用数据集 Metrics 部分数据集介绍摘自这篇博客任务描述输入:图片III.由nnn个单词组成的问题Q={q1,...,qn}Q=\{ q_1,. ...
【自然语言处理】--视觉问答（Visual Question Answering，VQA）从初始到应用
一.前述视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务.这一任务的定义如下: A VQA system takes as inp ...
论文笔记：Visual Question Answering as a Meta Learning Task
Visual Question Answering as a Meta Learning Task ECCV 2018 2018-09-13 19:58:08 Paper: http://opena ...

《Generating Question Relevant Captions to Aid Visual Question Answering》（生成问题相关标题，以帮助视觉回答问题）论文解读