论文解读:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for VQA
这是关于VQA问题的第五篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering。
1,主要思想:
论文采用基于空间(图像)的记忆网络(记忆网络是NLP领域中的模型,用于处理逻辑推理的问题)。Spatial Memory Network把图像存区域当做记忆单元的内容,然后用问题去选择相关的区域回答问题。论文同时采用多次attention,模拟寻找答案的推理过程。
2模型:
模型的结构和记忆网络的结构很相似:End to End Memory Network
a.问题特征部分:
这里处理的很少,只是用词向量做embedding,得到句子的词向量矩阵。shape:(T,N)T是问题长度。
b.图像特征部分:
- 这里处理的也很少,用CNN提取各个区域的特征,GoogLeNet (inception 5b=output)。shape:(L,M)L是特征个数。
- 之后为了使得图像特征和问题特征维度一样,采用了两个矩阵进行变换,W_a,W_e。
c.Word Guided Spatial Attention in One-Hop Model(一次attention):
Word-guided attention:图b中,用单词词向量去计算与图像的相关性。计算过程就是选择关系最大的,然后用softmax进行归一化。(公式符号对应图中)
计算第一次attention的结果:如图a
可以用这一次的attention的结果,加上问题进行预测了:如图a
d.Spatial Attention in Two-Hop Model(多次attention,模拟推理)
计算第一次attention的结果,加上问题:如图a
计算下一次attention的权重:如图a
计算这一次attention的结果:
预测答案:
3,论文贡献:
- 提出使用Spatial Memory Network,模拟多次关注的寻找答案的推理过程。
- 在第一次attention时,提出了用每一个单词去计算与图像的相关性。从而实现第一次的相关性权重的计算。
- 实现了,多次attention,很好的结合的每次计算的结果用于答案的预测,从而实现模拟推理过程。
论文解读:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for VQA相关推荐
- 论文笔记:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answeri
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering Hu ...
- Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering
文中提到当前一些处理VQA任务的方法都是基于处理Image Captioning任务的方法,具体就是采用卷积递归神经网络,但是这种方法不能很好的模拟spatial inference.文中提出Sp ...
- 【论文解读 ACL 2019 | PLMEE】Exploring Pre-trained Language Models for Event Extraction and Generation
论文题目:Exploring Pre-trained Language Models for Event Extraction and Generation 论文来源:ACL 2019 国防科技大学 ...
- 论文解读:Exploring Graph-structured Passage Representation for Multi-hop Reading Comprehension with Grap
论文解读:Exploring Graph-structured Passage Representation for Multi-hop Reading Comprehension with Grap ...
- 论文解读:Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Info...
论文解读:Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Informa ...
- 论文解读:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings
论文解读:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings ...
- Exploring the Connection Between Binary andSpiking Neural Networks论文解读
Exploring the Connection Between Binary andSpiking Neural Networks论文解读 前言 总说 提出B-SNN(论文中为Ⅲ) 实验和结果(论文 ...
- 论文解读:Improved Neural Relation Detection for Knowledge Base Question Answering
论文解读:Improved Neural Relation Detection for Knowledge Base Question Answering 本文解决KBQA中的子问题--Relat ...
- CVPR 2020 Oral 文章汇总,包括论文解读与代码实现
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要10分钟 Follow小博主,每天更新前沿干货 [导读]本文为大家整理了10篇CVPR2020上被评为Oral的论文解读和代码汇总. 1.Ra ...
最新文章
- 关于chm文件打不开的解决方案
- TypeError系列之:TypeError: __init__() missing 2 required positional arguments
- (二叉树存储+递归遍历)Binary Tree Traversals
- mysql 亿级高并发_亿级流量系统架构之如何设计每秒十万查询的高并发架构.md
- go 302不记录cookie_gin pprof 记录日常操作
- 经常用everything对硬盘有伤害吗?
- php网站怎么做自适应,什么是自适应布局?自适应布局如何实现?
- 一个注册表清理工具Advanced Uninstaller PRO 12
- 利用python实现方差分析
- 世界上有多少数据?应该如何保护?
- 大学生对于外卖和食堂之间的抉择的调查报告 新生研讨课校内调查
- 微信小程序入门(一):小程序账号注册 + 微信开发者工具安装
- 让耳机有个思想准备 趣谈煲耳机方法
- c语言之奇偶数分开排序
- 数据质量监控Griffin——使用
- 13种加密与解密算法【一】
- 美定制礼品电商Cafepress上市
- 图片较多的网站,如淘宝京东、美丽说花瓣、QQ空间、百度图片等都采用哪些技术优化图片展示?
- [转贴]史上最强科幻 经典科幻电影100部-科幻爱好者必看
- 【Android应用实例之四】计时器之通过ServiceBroadcastReceiver实现UI动态更新
热门文章
- vue 视频流媒体播放
- Emulator: Unable to open C:\Users\sk\.android\avd\3.4_WQVGA_API_25.avd\data\misc\pstore\pstore.bin:
- 如何注册公司邮箱地址?
- Activity系列:(一)烦人的Activity跳转
- 集诸多黑科技于一身,三星Notebook 9系列如何带来另类体验?
- flv.js实现直播功能
- React学习(一):简单介绍入门
- IE 無法開啟網際網路網站的框框http://www.facebook.com/home.php?操作已中止
- 密码学在信息安全领域的应用
- LaTeX学习笔记(数学公式编辑:数学公式的创建与编号)