使用胶囊的弱监督基础视觉问答

摘要

VQA任务的接地问题最近得到了越来越多的关注，大多尝试使用预训练的目标检测器解决此问题，然而，预训练检测器需要边界框注释来检测词汇表中相关的对象，这对实际大规模应用可能是不可行的。本文关注一个更轻松的设置：通过对VQA任务的训练，以弱监督的方式接地相关实体。我们提出一个视觉胶囊模块，一种基于查询胶囊特征的选择模块，允许模型关注与视觉信息相关的文本线索的区域。我们表明了在VQA系统集成这种胶囊模块可显著提高弱监督接地任务上的性能。我们展示了我们的方法在两个先进VQA系统上的有效性，堆叠NMN和MAC。我们的评估集是基于CLEVER场景--为正确答案相关的对象提供真实边界框，和GQA--一个包含组合问题的真实视觉VQA数据集。我们表明，具有胶囊模块的系统在答案接地方面始终优于各自的基线系统，同时在VQA任务上实现了可比的性能。

原文

代码

一、介绍

了解答案如何生成变得很重要，以评估答案是否基于正确的线索。这就允许判断整体的正确性，而不是简单的评估文本答案。最近工作不仅评估正确率，而且还通过评估答案所基于的接地的准确性来解决这个问题。答案的接地通常是考虑给定答案的图像的注意力图，以及评估与正确答案是否相关。

为实现好的接地精度，大多方法依赖由相关对象类预训练的目标检测模型的输入特征图。这将范围限制在已知的对象类如MSCOCO，或需要注释相关对象的区域，并为这些对象预训练一个目标检测器。目前很少有人尝试解决没有预训练的目标检测器训练VQA和接地这个问题，如在GQA数据集的上下文中只是用空间特征。本文主要关注：基于VQA监督的弱监督视觉接地，分为两个任务：视觉问答和正确的视觉接地都应该单独从VQA任务中学习。因此我们不使用任何对象级的信息作为输入或监督。

这种情况正确的接地通常基于两个主要任务，找到相关视觉实例，和建模这些实例的关系，如图1。为解决此问题，我们提出用胶囊扩展VQA框架。胶囊网络在三维点云、视频和医学图像等领域的可解释性和分割方面已经取得了很好的结果。胶囊层能够通过协议路径学习对象实体的部分到整体的关系，我们相信这种建模对象及其关系的能力使胶囊成为解决VQA弱监督接地问题的一个好的选择。

目前基于胶囊的方法遵循了在卷积特征上添加胶囊层，并在目标类的监督下进行训练。一种离散的和有监督的掩码操作，即掩盖除地面真相类胶囊外的所有胶囊，通常用于重建或分割给定类相应的对象。在弱的VQA接地情况下，没有基于类或对象的监督，只给出了自然语言问题，因此，我们提出一种soft-masking程序，根据输入的问题选择胶囊。

为评估VQA系统的答案接地能力，考虑两个数据集，最近提出的GQA数据集和CLEVR数据集。为在CLEVR上评估接地准确性，我们提出一种新的CLEVR验证集CLEVR-Answers。CLEVR-Answers为答案基于的所有对象提供相应地面真实边界框。我们只在评估期间需要地面真实边界框，因此是在没有进一步注释的训练过程中学习对象的视觉表示。我们使用这种新的评估集来测试当前最先进的框架MAC和堆叠NMN的接地能力。我们表明，虽然所有框架在VQA精度上都在相同水平，但在接地能力方面有主要的差异，使用基于软查询的掩蔽的胶囊显著提高了现有方法的接地能力。

二、相关工作

VQA和视觉接地

提供接地标签的数据集有GQA,VCR,VQS,CLEVRER和TVQA+等。在这里，或者为视觉输入中的所有对象提供对象注释，或者只为与问题和答案相关的对象提供注释。其中GQA特别关注在有和没有目标检测监督的情况下评估接地精度，并试图评估MAC和Bottomup在自然图像中的接地能力。因此我们选择GQA来评估现实世界中的弱监督接地的胶囊增强系统。此外，我们根据重叠和IOU来计算答案接地，以衡量该接地与答案相关性的精确程度。

CLEVR上的VQA和视觉推理

CLEVR-Answers使我们能够在没有任何约束的情况下，评估当前最先进方法的接地能力。

胶囊网络

首先胶囊网络被提出是去学习图像中视图等变特征的向量，之后扩展胶囊网络采用迭代的协议路径算法对图像中的多个数字进行分类和分割。一些工作提出了路径的改进方法，并将其应用到不同任务和领域。然而以前的大多数工作往往通过计算一组类胶囊上的损失来监督，我们提出的方法没有这种胶囊到对象的监督，相反，胶囊作为中间层被纳入我们的系统中，并通过使用从问题答案中得到的弱监督来学习。一些执行分类任务的胶囊网络倾向于使用掩蔽操作，以确保胶囊学习特定类的表示，使用这种掩蔽表示来重构或分割输入的图像或视频。由于没有地面真相类注释，我们提出一种软掩蔽操作，有效的选择与输入查询相关的胶囊并掩蔽不相关的胶囊。

三、提出的方法

3.1 问题形式

输入图像和问题，目标是输出正确的答案a∈A，A表示答案词汇表，B表示导致答案a的对象边界框预测。

3.2 输入嵌入

问题嵌入：通过句子编码器输出问题的句子级嵌入fs和词级特征fw，然后作为系统的输入，使用BiLSTM。

图像嵌入：对输入图像通过一个预训练图像编码器计算一个特征图，输出是图像特征。

3.3 文本查询生成器

VQA系统对问题进行注意力解析，即根据回答问题所需的推理，反复从问题中选择单词。这种将问题划分为子查询的方法被成为多跳或循环推理，每个推理步骤中生成一个查询参与到图像中，以收集与答案相关的知识。让ρ是我们的查询生成器，它将句子嵌入fs和单词嵌入fw作为每个时间步t(t=1、2、..，T)的输入，并输出查询qt作为输出。

3.4 带有soft masking的胶囊

一个胶囊是表示一个实体或一组实体的一组神经元，我们使用矩阵胶囊，由一个逻辑单元和一个4×4的姿势矩阵组成。activation表示特定实体的存在，pose表示实体属性。一个胶囊层由许多胶囊组成，使用协议路径算法在下一层中投票选择胶囊，以建模部分对整体的关系。矩阵胶囊使用EN-Routing算法进行胶囊路由，将他们集成到以下过程中。

视觉胶囊：从图像嵌入X中，通过使用学习的卷积操作获得主胶囊，导致C1胶囊类型分别具有4x4pose矩阵和每个空间位置的activation。主胶囊层的输出尺寸分别为RH×W×C1×4×4和RH×W×C1×1。为获得更高水平的胶囊表示，在主胶囊上进行EM-Routing，以在每个空间位置获得一组C2胶囊。胶囊模型可以模拟场景中的对象（包括背景）。pose和activation的输出维度为RH×W×C2×4×4和RH×W×C2×1，他们在之后步骤中被用作输入图像的视觉表示。

Soft masking：将pose和activation组合，形成一个RH×W×C2×（4×4+1）的张量，并作为一个类似标准卷积模型的简单特征图。但是此方法将胶囊pose的每个维度视为独立特征，且忽略胶囊pose中所有尺寸都代表一个对象。

相比于这种独立特征选取，我们提出基于问题的单个胶囊选择的方法，通过掩盖与推理操作无关的胶囊来实现。我们建议学习哪个胶囊应该以端到端的方式掩蔽，对于每个推理步骤，一个全连接层生出你个一组C2日志，表示与给定查询相关的胶囊类型。

其中qt是推理步骤t中的文本查询，η是全连接层，然后，生成一个one-hot掩模mt∈RC2，其中mi=1,i=argmax(mtlogits)。然后将此掩码应用到视觉胶囊层：

其中，Yc2是视觉胶囊层的输出，Vmct是与文本查询qt对应的掩蔽视觉胶囊。我们称这个操作为硬掩蔽。

我们发现硬掩蔽操作会导致次优的性能，因为缺乏监督会导致一些胶囊从未被选择，导致糟糕的表示。我们提出一种软掩码方法，在边界框中可视化，允许梯度流过所有的胶囊。在日志上使用softmax操作来创建一组软权重，然后掩蔽视觉胶囊：

这些掩蔽的视觉胶囊然后被用于由它们各自的模块所定义的推理操作。我们表明，在一个注意力的VQA系统中加入胶囊和软掩蔽可以在不影响VQA精度的情况下显著提高其接地能力，因此，降低了性能-可解释性的权衡。

3.5 输出模块

推理模块输出通过推理步骤聚合的特征，并发送到输出模块，即一个输出答案分数的分类器。对于接地预测，我们考虑由推理模块产生的空间注意图，对其进行后处理，以获得目标检测。

四、实现细节

将胶囊集成到堆叠的神经模块网络和MAC，并对这些系统进行以下结构改变。

带有MAC的胶囊：MAC是一个循环推理结构，有T个推理步骤去回答问题，每个推理步骤包含生成一个基于问题的控制信号（文本查询），使用此信号读取图像特征（使用注意力），写成记忆，最后T个推理步骤后的最终输出与问题结合进入答案分类器。MAC还生成可解释的注意力图解释推理过程。对于将胶囊集成到MAC中，做出以下更改：首先将胶囊层加到卷积层的顶部，从图像特征获取视觉胶囊，读取模块基于之前输出和当前控制信号处理空间特征并检索与查询相关的图像特征。读模块中，首先使用可训练的线性层将控制信号映射到C2×（4×4+1）的特征向量，使用该特征向量生成一个软掩码，以只获得与查询相关的胶囊进行进一步推理。掩码层的权重在MAC单元中共享，掩码的胶囊然后被用于读模块中的进一步推理。

带有SNMN的胶囊：堆叠神经模块网络是一种与上述推理管道相同的注意力VQA方法。SNMN生成了人类可解释的注意力图，SNMN对预先训练好的图像特征训练卷积层，这些卷积层的输出进入推理模块，并使用文本查询来执行推理操作，生成一个注意力映射作为输出。为将胶囊集成到SNMN中，我们将胶囊模块附加到图像特征之上，以获得C2视觉胶囊，推理模块在胶囊上执行推理操作，对于基于查询的软掩蔽，每个神经模块有一个全连接层将文本查询qt∈Rd作为输入，输出维度C2×（4×4+1）的特征向量。特征向量用于生成大小为C2的胶囊掩码，并用于查询和掩码胶囊间的进一步交互。SNMN中的每个推理模块都有自己的掩码层，除了Scene,And和Or，因为这些模块在计算中不适用文本参数。

注意力图的生成：在训练过程中，胶囊层学习了注意图像中不同的视觉线索，包括在没有接地证据作为答案时的背景区域。为了对高注意力区域有更多的权重，抑制背景上的注意，我们引入了一个不透明度参数α。对于均匀的注意区域，不透明度由α来增大。利用α对空间注意进行后处理后，应用注意阈值0.5得到具有高注意区域的二进制掩码。这个二进制掩码中的每个连接的组件都被视为一个对象检测。

五、数据集

GQA

一个具有多跳推理问题的真实世界的视觉推理数据集，为挑战现实世界的图像提供了构图问题，其中的问题相比VQA2.0更多样化，对关系、空间和组成问题的覆盖范围更大。220万QA对，超过113K的图像，GQA为引用的对象提供接地标签。

为视觉接地的CLEVR-Answers

为了答案的视觉接地，扩充CLEVR数据集到CLEVR-Answers，CLEVR是一个用于评估视觉推理和复杂VQA任务的数据集，包含70K图像和大约700K的问答对和一个验证集（15K图像大约150K问答对）。使用[23]提供的框架，生成带有边界框标签的问答对，如图3，使用相同训练和验证场景，为每个图像生成10对新的问答对。为获得答案的本地标签，遵循两个步骤：首先获取导致答案的目标id集。每个问题都附加一个问题图，一个逐步推理格局。从最后一个节点开始，以向后的方向进行宽度优先遍历BFS，直到遍历完所有节点，给在最后推理步骤中使用并生成答案的对象列表；第二步，为获取这组对象的边界框，需要场景信息，对于每个问题和相应的答案接地标签，使用中心像素坐标信息定位场景图的每个坐标，然后，基于对象大小的形状，使用一些启发式方法来粗略估计每个感兴趣对象的边界框大小。

六、实验和结果

6.1 与基线模型的比较

使用SNMN和MAC作为基线，这些VQA系统以一个基于图像的整体特征的问题作为输入，用可解释的注意力图生成答案。

CLEVR-Answer

在CLEVR-Answer基准测试上评估两个系统的性能。从在ImageNet上预训练的ResNet-101主干的con4层中提取14x14x1024维的特征，被成为空间特征，通过MAC和SNMN使它们穿过卷积层生成14x14x512维特征。原始的MAC基线在T=12时有着最好的VQA精度，但是建议使用4-6个推理步骤来获取可解释的注意力图。

MAC在T=4时获得了最佳IOU的F1分数，而MAC-Caps在不影响VQA精度下，在T=6时获得最佳IOUF1分数。MAC-Caps在T=12达到最佳Overlap F1分数，表明产生了更大的注意力图，这不被Overlap衡量得分。总之提出的MAC-Caps性能相比于MAC都有显著且不断的增加。

SNMN与MAC相反，使用一个专家布局设置，即在训练期间使用和学习问题图布局。我们看到了与MAC和MAC-Caps类似的性能增长。

GQA

为评估在真实世界数据的表现，我们在GQA数据集上的MAC上下文中评估我们的系统。GQA为问题、单个词的答案和句子的答案提供接地标签。对于每个问题-图像对，接地分数是地面真实区域的注意力总和，平均化所有的数据样本。使用T=4评估性能。

观察到MAC-Caps在所有指标上始终优于MAC。与CLEVR基准测试相比，特别是在IOU的背景下，在这个数据集上的分数要低得多，这可以归因于在这种背景下的自然图像的复杂性。这两项评估都表明，提取的胶囊模块允许更好的从弱监督中学习视觉接地，甚至在具有挑战性的现实环境设置中。

6.2 消融和分析

卷积层vs.胶囊

我们发现，就IOU而言，掩蔽卷积特征的性能比SNMN基线好3.38%，但胶囊在卷积掩蔽方面仍优于它们（45.49%和50.42%，(5)是baseline）。这表明，基于查询的胶囊掩蔽的性能优于掩蔽卷积特征。

硬掩蔽vs.软掩蔽

第一个是使用softmax分数掩蔽它们，我们称之为软掩蔽；第二个是保持胶囊的最高概率和屏蔽其余的胶囊，我们称之为硬掩蔽。我们发现使用软掩蔽可得到最好结果，使用硬掩蔽（C=16）时，会损害VQA精度（88.07%），但接地指标结果相当（见表4（2）=硬掩蔽和（5）=基线）。

共享掩蔽vs.单独掩蔽

对于SNMN，我们的最终架构为每个推理模块使用一个单独的掩蔽层。我们还实验了对所有推理模块使用一个具有共享权重的单一掩蔽层。虽然共享掩蔽层会产生良好的结果，但我们使用单独的掩蔽层（见表4（3）=共享掩蔽层和（5）=基线）获得最好的接地得分。

胶囊的性能分析

分析不同数量的胶囊，我们用C=8、16和24来训练SNMN-Caps模型，所有在接地方面都优于原来的SNMN，同时达到了可比的VQA精度。对于24个胶囊，SNMN-Caps在VQA和接地任务上都优于基线SNMN（表4（4-6））。

6.3 定性结果

图4显示MAC-Caps在GQA数据集上的定性分析。MAC在中间推理步骤中经常关注图像的角落，且只在最后阶段关注感兴趣的区域。如第一个示例，MAC从未处理过正确的对象，但却会产生正确的答案，而MAC-Caps能够在早阶段正确关注相关区域，即使最终答案不正确（第四个示例）。而且，MAC-Caps比基线系统产生更精确的关注。对问题词的注意也似乎对MAC-Caps有所改进（最后一行）。第三个示例显示了更好的接地会使得模型正确预测答案。

七、总结

本文为VQA任务的弱监督接地提出了一种新的方法，提出的基于胶囊的模块可以集成到现有的VQA系统中。为允许胶囊与基于VQA的文本处理相结合，我们提出了一个软掩蔽函数，进一步改进了弱监督答案接地。我们通过在两个具有挑战性的数据集GQA和CLEVR-Answers上评估该系统，展示了所提出的想法对在VQA任务中学习弱监督接地的影响。

CVPR2021:Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules相关推荐

目标定位--Deep Self-Taught Learning for Weakly Supervised Object Localization
Deep Self-Taught Learning for Weakly Supervised Object Localization CVPR 2017 https://arxiv.org/abs/ ...
[CVPR 2016] Weakly Supervised Deep Detection Networks论文笔记
Weakly Supervised Deep Detection Networks,Hakan Bilen,Andrea Vedaldi https://www.cv-foundation.org/o ...
弱监督检测初识——Weakly Supervised Deep Detection Networks解读
文章目录 1 WSDDN模型 1.1 预训练CNN 1.2 CNN特征描述 1.2.1 区域推荐算法 1.2.2 Spatial partial pooling 1.2.3 推荐区域的特征描述 1.3 ...
Weakly Supervised Semantic Segmentation with Boundary Exploration
Weakly Supervised Semantic Segmentation with Boundary Exploration 摘要 1 Introduction 2 Related Work 3 ...
【论文阅读】UntrimmedNets for Weakly Supervised Action Recognition and Detection
Abstract 提出 UntrimmedNet ,从Untrimmed视频的视频级标签中直接学习动作识别和检测模型,分为 classification 和 selection 两个模块,可端到端训练 ...
论文笔记 Weakly Supervised Deep Detection Networks - CVPR 2016
Weakly Supervised Deep Detection Networks Hakan Bilen, Andrea Vedaldi CVPR, 2016 (PDF) (Citations 58 ...
【预训练语言模型】WKLM: Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model
[预训练语言模型]WKLM:Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model 知识增强的 ...
Ideas For Weakly Supervised Object Localization
Ideas For Weakly Supervised Object Localization 最近开始跟着师兄做弱监督学习和医疗影像,近日阅读了几篇文章,与 Object Localization ...
Weakly Supervised Semantic Segmentation list
Weakly Supervised Semantic Segmentation list 文章转自Github:https://github.com/JackieZhangdx/WeakSupervi ...
Weakly Supervised Instance Segmentation using Class Peak Response
据说是第一篇关于图像级实例分割的文章... 看了很多关于这篇文章的博客和知乎,总觉得他们没有写清楚最关键的几个问题:例如,怎么从局部极大值点中筛选出峰值?怎么从MCG等传统图像处理方法获得的图像边缘中 ...

CVPR2021:Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules

摘要