这是关于VQA问题的第五篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering。

1,主要思想:

论文采用基于空间(图像)的记忆网络(记忆网络是NLP领域中的模型,用于处理逻辑推理的问题)。Spatial Memory Network把图像存区域当做记忆单元的内容,然后用问题去选择相关的区域回答问题。论文同时采用多次attention,模拟寻找答案的推理过程。

2模型:

模型的结构和记忆网络的结构很相似:End to End Memory Network

a.问题特征部分:

这里处理的很少,只是用词向量做embedding,得到句子的词向量矩阵。shape:(T,N)T是问题长度。

b.图像特征部分:

  • 这里处理的也很少,用CNN提取各个区域的特征,GoogLeNet (inception 5b=output)。shape:(L,M)L是特征个数。
  • 之后为了使得图像特征和问题特征维度一样,采用了两个矩阵进行变换,W_a,W_e。

c.Word Guided Spatial Attention in One-Hop Model(一次attention):

  • Word-guided attention:图b中,用单词词向量去计算与图像的相关性。计算过程就是选择关系最大的,然后用softmax进行归一化。(公式符号对应图中)

  • 计算第一次attention的结果:如图a

  • 可以用这一次的attention的结果,加上问题进行预测了:如图a

d.Spatial Attention in Two-Hop Model(多次attention,模拟推理)

  • 计算第一次attention的结果,加上问题:如图a

  • 计算下一次attention的权重:如图a

  • 计算这一次attention的结果:

  • 预测答案:

3,论文贡献:

  • 提出使用Spatial Memory Network,模拟多次关注的寻找答案的推理过程。
  • 在第一次attention时,提出了用每一个单词去计算与图像的相关性。从而实现第一次的相关性权重的计算。
  • 实现了,多次attention,很好的结合的每次计算的结果用于答案的预测,从而实现模拟推理过程。

论文解读:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for VQA相关推荐

  1. 论文笔记:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answeri

    Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering Hu ...

  2. Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering

      文中提到当前一些处理VQA任务的方法都是基于处理Image Captioning任务的方法,具体就是采用卷积递归神经网络,但是这种方法不能很好的模拟spatial inference.文中提出Sp ...

  3. 【论文解读 ACL 2019 | PLMEE】Exploring Pre-trained Language Models for Event Extraction and Generation

    论文题目:Exploring Pre-trained Language Models for Event Extraction and Generation 论文来源:ACL 2019 国防科技大学 ...

  4. 论文解读:Exploring Graph-structured Passage Representation for Multi-hop Reading Comprehension with Grap

    论文解读:Exploring Graph-structured Passage Representation for Multi-hop Reading Comprehension with Grap ...

  5. 论文解读:Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Info...

    论文解读:Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Informa ...

  6. 论文解读:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings

    论文解读:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings    ...

  7. Exploring the Connection Between Binary andSpiking Neural Networks论文解读

    Exploring the Connection Between Binary andSpiking Neural Networks论文解读 前言 总说 提出B-SNN(论文中为Ⅲ) 实验和结果(论文 ...

  8. 论文解读:Improved Neural Relation Detection for Knowledge Base Question Answering

    论文解读:Improved Neural Relation Detection for Knowledge Base Question Answering   本文解决KBQA中的子问题--Relat ...

  9. CVPR 2020 Oral 文章汇总,包括论文解读与代码实现

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要10分钟 Follow小博主,每天更新前沿干货 [导读]本文为大家整理了10篇CVPR2020上被评为Oral的论文解读和代码汇总. 1.Ra ...

最新文章

  1. 关于chm文件打不开的解决方案
  2. TypeError系列之:TypeError: __init__() missing 2 required positional arguments
  3. (二叉树存储+递归遍历)Binary Tree Traversals
  4. mysql 亿级高并发_亿级流量系统架构之如何设计每秒十万查询的高并发架构.md
  5. go 302不记录cookie_gin pprof 记录日常操作
  6. 经常用everything对硬盘有伤害吗?
  7. php网站怎么做自适应,什么是自适应布局?自适应布局如何实现?
  8. 一个注册表清理工具Advanced Uninstaller PRO 12
  9. 利用python实现方差分析
  10. 世界上有多少数据?应该如何保护?
  11. 大学生对于外卖和食堂之间的抉择的调查报告 新生研讨课校内调查
  12. 微信小程序入门(一):小程序账号注册 + 微信开发者工具安装
  13. 让耳机有个思想准备 趣谈煲耳机方法
  14. c语言之奇偶数分开排序
  15. 数据质量监控Griffin——使用
  16. 13种加密与解密算法【一】
  17. 美定制礼品电商Cafepress上市
  18. 图片较多的网站,如淘宝京东、美丽说花瓣、QQ空间、百度图片等都采用哪些技术优化图片展示?
  19. [转贴]史上最强科幻 经典科幻电影100部-科幻爱好者必看
  20. 【Android应用实例之四】计时器之通过ServiceBroadcastReceiver实现UI动态更新

热门文章

  1. vue 视频流媒体播放
  2. Emulator: Unable to open C:\Users\sk\.android\avd\3.4_WQVGA_API_25.avd\data\misc\pstore\pstore.bin:
  3. 如何注册公司邮箱地址?
  4. Activity系列:(一)烦人的Activity跳转
  5. 集诸多黑科技于一身,三星Notebook 9系列如何带来另类体验?
  6. flv.js实现直播功能
  7. React学习(一):简单介绍入门
  8. IE 無法開啟網際網路網站的框框http://www.facebook.com/home.php?操作已中止
  9. 密码学在信息安全领域的应用
  10. LaTeX学习笔记(数学公式编辑:数学公式的创建与编号)