目录

一、文献摘要介绍

二、网络框架介绍

三、实验分析

四、结论


这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。

一、文献摘要介绍

The recently emerged research of Visual Question Answering (VQA) has become a hot topic in computer vision. A key solution to VQA exists in how to fuse multimodal features extracted from image and question. In this paper, we show that combining visual relationship and attention together achieves more fine-grained feature fusion. Specifically, we design an effective and efficient module to reason complex relationship between visual objects. In addition, a bilinear attention module is learned for question guided attention on visual objects, which allows us to obtain more discriminative visual features. Given an image and a question in natural language, our VQA model learns visual relational reasoning network and attention network in parallel to fuse fifine-grained textual and visual features, so that answers can be predicted accurately. Experimental results show that our approach achieves new state-of-the-art performance of single model on both VQA 1.0 and VQA 2.0 datasets.

最近出现的视觉问题解答(VQA)研究已经成为计算机视觉中的热门话题。 VQA的关键解决方案在于如何融合从图像和问题中提取的多峰特征。 在本文中,表明将视觉关系和注意力结合在一起可以实现更细粒度的特征融合。 具体来说,作者设计了一个有效的模块来推理视觉对象之间的复杂关系。 另外,学习了一个双线性注意力模块,用于对视觉对象进行问题指导的注意力,这使我们能够获得更具区分性的视觉特征。 给定自然语言中的图像和问题,作者的VQA模型并行学习视觉关系推理网络和注意力网络,以融合细粒度的文本和视觉特征,从而可以准确地预测答案。 实验结果表明,该方法在VQA 1.0和VQA 2.0数据集上均实现了单个模型的最新性能。

二、网络框架介绍

如图2所示,我们的完整VQA模型以问题、由自底向上注意生成的检测框为输入,通过视觉关系推理和视觉注意获得细粒度特征,从而推断出正确答案,模型由五个主要部分组成:(1)图像建模。 输入图像由自下而上的注意处理,该方法基于Faster R-CNN框架中的ResNet CNN,获得了K个图像区域的视觉特征。 (2)问题嵌入。输入问题被修剪为最多14个单词,每个单词都被转换成一个带有单词嵌入的向量表示。 然后将这些向量传递到门控循环单元(GRU),使用最终的隐藏状态作为问题的表示。(3)视觉关系推理模块,用于对检测到的图像区域推荐之间的关系进行推理,以获得关系视觉特征。(4)视觉注意模块在问题指导下对检测到的图像区域推荐分配权重,以获取视觉特征。 (5)最后,学习由深度神经网络组成的多标签分类器,以推断出正确的答案。 视觉关系推理模块和视觉注意模块是即插即用的,我们可以通过将它们并行组合来获得细粒度的特征融合,下面进行详细分析。

2.1. Image modelling

采用Faster R-CNN框架在输入图像中获取对象检测框。 然后,对每个对象区域执行非最大抑制,并选择排名靠前的K个检测框(通常为

用于视觉问答的基于关系推理和注意力的多峰特征融合模型《Multimodal feature fusion by relational reasoning and attention for VQA》相关推荐

  1. 基于关系推理的无标记自监督学习训练

    背景与挑战 在现代深度学习算法中,对未标记数据的手工标注是其主要局限性之一.为了训练一个好的模型,我们通常需要准备大量的标记数据.在少数类和数据的情况下,我们可以使用带有标签的公共数据集的预训练模型, ...

  2. 论文速递:一种用于视觉定位的基于NLP思路的直线特征匹配算法

    标题:Line as a Visual Sentence:Context-aware Line Descriptor for Visual Localization 作者:Sungho Yoon1 a ...

  3. 论文浅尝 | 端到端神经视觉问答之上的显式推理

    链接:http://www.public.asu.edu/~cbaral/papers/2018-aaai-psl.pdf 概述 视觉问答(Visual Question Answering)现有两大 ...

  4. MILA研究院唐建:基于图神经网络的关系推理(附视频)

    2020 北京智源大会 本文属于2020北京智源大会嘉宾演讲的整理报道系列.北京智源大会是北京智源人工智能研究院主办的年度国际性人工智能高端学术交流活动,以国际性.权威性.专业性和前瞻性的" ...

  5. layui table动态选中_NeurIPS 2020 | 伯克利新工作: 基于动态关系推理的多智能体轨迹预测问题...

    公众号:将门创投(thejiangmen)作者:加州大学伯克利分校在读博士生 李家琛卡内基梅隆大学在读硕士生 杨帆 NeurlPS 2020系列论文解读 第·1·期 本文将分享来自UC Berkele ...

  6. 一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移等

    作者 | 张皓(南京大学) 来源:人工智能头条丨公众号 引言 深度学习目前已成为发展最快.最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用.然而, ...

  7. 2020:可视化的视觉问答LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision

    摘要 为解决视觉问答中很难为预测过程提供直观.人类可读的形式的问题,我们将视觉问答重新表述为一个完整的答案生成任务,需要模型用自然语言证明其预测是合理的.本文提出了LRTA[Look, Read, T ...

  8. 【干货】一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移等

    引言 深度学习目前已成为发展最快.最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用.然而,论文通常非常简明扼要并假设读者已对深度学习有相当的理解, ...

  9. Github:视觉问答最新资源汇总

    点击我爱计算机视觉标星,更快获取CVML新技术 近日,52CV群友jokieleung对视觉问答技术涉及到的近几年相关论文和代码进行了总结,并放到了Github上,对于想了解.跟踪该方向的朋友,非常值 ...

最新文章

  1. C++走向远洋——39(指向学生类的指针)
  2. oracle每天一次差异备份,Oracle的差异增量备份和累积增量备份(zt)
  3. 【提高系列】webpack相关知识
  4. Caused by: java.lang.NoClassDefFoundError: org/springframework/aop/TargetSource
  5. 'gbk' codec can't decode byte 0x80 in position的一个解决办法
  6. oracle11g 查看磁盘,oracle11g 磁盘
  7. 9 WM层面 临时仓储类型的仓位 主数据不存在
  8. 让想法更加结构化!思维导图工具MindManager
  9. vue.js点击更多加载更多数据,双数组合并
  10. 举例 微积分 拉格朗日方程_Euler-Lagrange Equation (欧拉-拉格朗日方程)推导
  11. Windows下安装hadoop2.7.1
  12. win7系统如何开启打印服务器配置,win7系统怎么添加打印服务器端口
  13. AR、VR、MR 别傻傻分不清了
  14. 如何下载旧版本R和R包?
  15. Mac (M1) 官网安装 Tomcat,XAMPP,MySQL
  16. 路由宝刷华硕rt-n14u_如何在2019年取消硬砖路由器的砖块化(以华硕RT-N16为例)
  17. LintCode 木材加工
  18. OIM同步OID(OID-Connector 9.0.4.12)
  19. Chrome插件开发先看这篇:如何实现一键上班赖皮
  20. STM32F103C8T6 CubeMX I2C EEPROM AT24C256

热门文章

  1. 分析手机拍照发展史,OPPO扮演了不可或缺的角色
  2. 看完这几道 JavaScript 面试题,让你与考官对答如流(上)
  3. 计蒜客习题:修建大桥
  4. 2017-12-22 日语编程语言抚子-第三版实现初探 1
  5. matlab 历史波动率,如何用Excel统计历史波动率
  6. Rest ful API的一些基本概念
  7. 牛客网错题集合之字符串(一)
  8. oracle解锁scott登录,scott怎么解锁并且Oracle数据库登录方法
  9. 有关英文单词中间有空格问题的解决
  10. Artanis: 工作日志自动收发系统