一、摘要

作者认为现有的研究关系的方法大多是单个视觉区域和单词之间的模型关系,不足以正确回答问题。因为从人类的角度来看,回答视觉问题需要理解视觉和语言信息的总结。在这篇论文中,作者提出了用于视觉问答的多模态潜在交互网络模型(MLI)来解决这个问题。该模型学习潜在视觉和语言摘要之间的交叉模式关系,将视觉区域和问题归纳为少量的潜在表示,从而避免建模无信息单个视觉-问题关系。潜在摘要之间的跨模态信息被传播以融合来自两种模式的有价值信息,并用于更新视觉和问题特征。这类MLI模块可以分为几个阶段来模拟这两种模式之间的复杂和潜在的关系。

二、简介

MLI模块首先将问题和图像特征编码成少量的潜在视觉和问题摘要向量。每个摘要向量都可以表示为视觉或文字特征的加权合并,它从全局的角度总结了每个模式的某些方面,从而编码了比单个单词和区域特征更丰富的信息。在获得每个模态的概要向量之后,我们便在多模态摘要向量之间建立视觉语言关联,提出在摘要向量之间传播信息以对语言和视觉之间的复杂关系进行建模。每个原始视觉区域和单词特征将最终聚集来自更新过的潜在总结的信息,然后使用注意力机制和残差连接来预测正确答案。

三、多模态潜在交互网络模型

上图给出了MLIN模型,该模型由很多MLI模型堆叠而成,这样做的目的是为每个模态把输入的视觉区域信息和问题单词信息概括为少量的潜在概括向量。其核心思想是将视觉信息和语言信息传播到潜在的总结向量中,从全局的角度对复杂的跨模态交互进行建模。在潜在交互总结向量之间的信息传播之后,视觉区域和单词特征聚合来自跨模态摘要的信息,以更新它们的特征。在最后阶段,我们对视觉区域和问句的平均特征进行元素乘法,以预测最终答案。

3.1Question and Visual Feature Encoding

我们使用Faster RCNN目标检测器从图像I中提取视觉区域特征,每张图片编码M个视觉区域特征,表示为。而句子将被填充到最大长度14,并由双向transformer进行随机初始化编码,表示为。多模态特征编码可以表述为:

3.2. Modality Summarizations in MLI Module

在获取视觉特征和问题特征后,添加了一个轻量级的神经网络,为每个模态生成k组潜在的视觉或语言概要向量,首先生成k组线性组合权重。

在这里并且,它们是每个模态可学习的k组变换权重。

表示沿水平维度的softmax操作,这里用水平的原因我想可能是,共有k行m列,沿水平方向进行softmax操作,共执行k词,每一次操作包含m个区域的信息,实现不同区域的交互,softmax函数的返回结果和输入的tensor有相同的shape。

此时的,,经过以上操作,我们为每个模态概要了k个概要特征。

k个潜在的视觉或语言摘要向量中的每一个(即R或E的每一行)都是输入单个特征的线性组合,每个模式中的k个摘要向量可以从全局角度捕捉输入特征的k个不同方面信息。

3.3. Relational Learning on Multi-modality Latent Summarizations

1.Relational Latent Summarizations.

该模块对应图中的interaction部分。

利用一个关系学习网络来建立跨模态的关联。我们从上述引入的k个潜在总结向量中创建k×k潜在视觉问题特征对。这种k*k对可以表示为3D关系张量

(省略了转置符号)

表示对应元素相乘,结果是1*512维的,然后用WA乘,得到512*1的向量。

2.Relational Modeling and Propagation
在这两种模式中传播信息对于学习复杂的答案预测关系是很重要的,基于我们的跨模态关系张量A,我们引入了两个操作,它们在配对特征之间传递和聚合信息,在信息传播之前,我们先将A的维度转换为。第一个跨模态信息传递操作对每个配对特征执行额外的线性转换。
其中 并且,它们是将每个配对特征A(i,j,:)转换成一个新的512维特征的关系线性变换参数。
第二交叉模态信息传播操作执行在不同配对特征之间传递的信息。
其中并且。两个交叉模态转换的结果针对在交叉模态配对特征的不同方面,模拟输入图像和问题之间的复杂关系。第一个操作的重点是对每个视觉问题潜在对之间的关系进行建模。第二个操作试图在所有视觉问题对之间传播高阶信息,以建立更复杂的关系。
上述两个运算结果的求和结果表示为
可以被认为是对两种模态中的潜在概要向量之间的跨模态关系进行深度编码的潜在表示。

3.Feature Aggregation

特征聚合过程可以由Transformer的keyquery注意机制建模。,这里要将R,E转为128维向量,

应该改为

K和V同样转为128维向量,

该区域的查询特征和单词特征QR、QE将用于对来自潜在表示的不同关键特征K进行加权。该处在竖直维度上使用softmax。(m*36/n*36)

这里,原始区域和单词的特征可以更新为:(该处与模型图不一致,我认为下式方法更好)

输入和输出维度相同。我们可以使用多个MLI来细化视觉和单词特征,最后,我们对视觉区域特征和单词特征进行平均池化,并对池化后的两种特征进行元素乘操作,最后,采用具有SoftMax非线性函数的线性分类器进行答案预测。

整个系统使用交叉熵损失函数以端到端的方式训练。

Multi-modality Latent Interaction Network for Visual Question Answering阅读笔记相关推荐

  1. 【论文分享】Relation-Aware Graph Attention Network for Visual Question Answering

    分享一篇nlp领域运用注意力机制设计视觉问答系统的文章,只是对文章进行翻译以及简单的归纳. 目录 二.动机 三.方法 1.问题定义 2.模型结构 2.1 图的构建 2.2 关系编码器 2.3 多模融合 ...

  2. 论文阅读—Relation-Aware Graph Attention Network for Visual Question Answering

    论文阅读-Relation-Aware Graph Attention Network for Visual Question Answering 一.标题 用于视觉问答的关系感知图注意力网络 二.引 ...

  3. WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记

    WeaQA:Weak Supervision via Captions for Visual Question Answering论文笔记 一.Abstract 二.引言 三.相关工作 3.1 VQA ...

  4. Hierarchical Graph Network for Multi-hop Question Answering 论文笔记

    Hierarchical Graph Network for Multi-hop Question Answering 论文笔记 2020 EMNLP,Microsoft 365, 这篇文章所提出的层 ...

  5. LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记

    LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记 一.摘要 ...

  6. Multimodal Dual Attention Memory for Video Story Question Answering阅读笔记

    本文提出了一种视频故事问答(QA)体系结构MDAM,关键的思想是使用双重注意机制与后期融合.MDAM首先使用self - attention来学习场景帧和字幕中的潜在概念.然后根据给出的问题,使用第二 ...

  7. Visual Question Answering概述

    目录 任务描述 应用领域 主要问题 主流框架 常用数据集 Metrics 部分数据集介绍摘自这篇博客 任务描述 输入:图片III.由nnn个单词组成的问题Q={q1,...,qn}Q=\{ q_1,. ...

  8. 自下而上和自上而下的注意力模型《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

    本文有点长,请耐心阅读,定会有收货.如有不足,欢迎交流, 另附:论文下载地址 一.文献摘要介绍 Top-down visual attention mechanisms have been used ...

  9. 【Transformer论文解读】TRAR: Routing the Attention Spans in Transformer for Visual Question Answering

    TRAR: Routing the Attention Spans in Transformer for Visual Question Answering 一.Background With its ...

  10. R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering

    博主水平有限,大部分为机翻 摘要: 最近,视觉问答(VQA)已经成为多模式学习中最重要的任务之一,因为它需要理解视觉和文本模式.现有方法主要依靠提取图像和问题特征来通过多模态融合或注意机制来学习它们的 ...

最新文章

  1. shell实现批量在多台windows服务器上执行同一命令并获取返回结果
  2. php array_only,php可以定义数组的常量吗
  3. git命令详解( 八)
  4. how is webdynpro component class initialized
  5. 面向对象思想封装狙击手狙击敌人
  6. 【模块化开发】之 Webpack、Rollup、Parcel
  7. 参考文献的类型及标识
  8. SAP 许可证审计流程 License Audit介绍
  9. st算法 求区间最值问题
  10. Layui 是否开启合计行区域
  11. PLC系统调试的步骤
  12. android电视安装app
  13. 进程间同步---system v ipc 对象信号灯集
  14. 2019云计算机峰会,计算机学院师生参加“2019华为云城市峰会”
  15. The Shawshank Redemption-14
  16. JSOI2014骑士游戏(最短路)
  17. Linux_设置smba共享
  18. 优化CSP模式 手游也能站着把钱挣了
  19. STM32单片机与Openmv的串口通信
  20. 接手一个项目,后缀名为.bak文件,原来它是这个意思

热门文章

  1. 王者荣耀s16服务器维护,王者荣耀:S16单排环境依旧差劲 五大原因戳到很多人的痛点...
  2. 用u盘linux系统视频,用U盘怎么安装Linux系统
  3. Express框架概述
  4. Arcmap做地形地貌图流程
  5. 用C编程语言写出三行情书,用7种语言写的三行情诗,你一定没看过!
  6. 栅栏CyclicBarrier
  7. 线上服务应急攻关方法论
  8. S7-1200使用集成库FB285控制G120变频器的基本步骤
  9. xp无法搜索计算机,windows xp系统笔记本电脑搜索不到无线信号的解决方法
  10. 大猫谈JNCIE实验考试备战