目录

  • [2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Answering
  • [2015][NIPS] Exploring Models and Data for Image Question Answering
  • [2016][AAAI] Learning to Answer Questions from Image Using Convolutional Neural Network
  • [2016][CVPR] Answer-Type Prediction for Visual Question Answering
  • [2016][CVPR] Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources

[2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Answering

文章链接
本文提出了一个多语言的VQA数据集FM-IQA,包含中文(英文)问题和答案。本文方法现在看来很简单,使用CNN提取图像特征,使用LSTM提取问题特征,使用另一个LSTM编码答案中的上下文,再将三个模块的结果融合,生成最终答案。

本文构造的数据集包含158392张图片,316193个中文问题(英文问题个数一致)

实验上,作者构造了baseline模型——blindQA(在融合模块上,不输入image feature),实验结果如下图所示:

[2015][NIPS] Exploring Models and Data for Image Question Answering

文章链接
本文出自多伦多大学Mengye Ren,作者提出了一个端到端的QA模型,使用VGG19提取图片特征后,将特征进行放射变换,作为question中的第一个单词输入LSTM,最后通过softmax得到答案。

作者提出了一个question generation方法,并基于此方法构造了COCO-QA数据集。question generation方法共分为三步:① 使用斯坦福解析器对图片进行解析;② 生成四类问题(Object、Number、Color和Location);③ 后处理:reject答案出现频率过高(或过低)的QA pair。下表是数据分布:

实验上,作者在DAQUAR和COCO-QA上做了实验,并进行了可视化:

[2016][AAAI] Learning to Answer Questions from Image Using Convolutional Neural Network

文章链接
本文出自华为诺亚方舟实验室。CNN已经在多个任务中展露出不俗的表现,但是还没有被引用在VQA任务中,作者遂将CNN应用在了VQA中。

本文方法共包含三个CNN部分,第一个CNN用于提取图片特征,第二个CNN用于提取文本特征,第三个CNN用于提取多模态特征。值得一提的是,在第三个CNN中,输入是[Vqti,Vim,Vqti+1][V_{qt}^{i}, V_{im}, V_{qt}^{i+1}][Vqti​,Vim​,Vqti+1​]。

实验部分,本文在DAQUAR和COCO-QA上进行了实验,结果如下:


[2016][CVPR] Answer-Type Prediction for Visual Question Answering

文章链接
本文的出发点在于,在很多时候,根据问题,即可以确定候选答案。如“这是一个红色的马吗?”,答案只有可能是“是”或者“不是”,而不可能是“绿色”或者“30”。然而,现有的方法中没有显式的进行这种推理。

本文的贡献共包括两方面:① 第一个使用贝叶斯架构预测答案类型,且准确率达到了99.7%。② 在VQA任务中使用skipthought vector[8],这是2015年在NIPS上提出的新方法,将句子编码成向量的同时,可以保存显著的句子信息。

作者对比了目前的4个VQA数据集,十分细致:

在没有给定答案类别的数据集(如DAQUAR),作者规定了三种类别,分别是:Number、Color和Others。对于给定了答案类别的数据集,COCO-QA作者没做处理,直接使用数据集提供的Object、Color、Counting和Location。COCO-VQA(也就是VQA v1.0),作者将Number类细分为了Counting和Other numbers,并添加了COCO objects和Activity两个类别,前者对应于答案是COCO数据集中的一种object,后者对应于问题以playing和doing为结尾的QA pair。

对于给定的图片的特征xxx、给定的问题的特征qqq,本文的目标是预测P(A=k∣x,q)=∑c∈TP(A=k,T=c∣x,q)P(A=k|x,q) = \sum_{c \in T}P(A=k, T=c|x,q)P(A=k∣x,q)=∑c∈T​P(A=k,T=c∣x,q)。其中,AAA是答案,TTT是答案类别。根据贝叶斯公式可得:
P(A=k,T=c∣x,q)=P(x∣A=k,T=c,q)P(A=k∣T=c,q)P(T=c∣q)P(x∣q)P(A=k, T=c|x,q) = \frac{P(x|A=k,T=c,q)P(A=k|T=c,q)P(T=c|q)}{P(x|q)}P(A=k,T=c∣x,q)=P(x∣q)P(x∣A=k,T=c,q)P(A=k∣T=c,q)P(T=c∣q)​
将上式中分子的三个部分分别用①②③表示。对于②和③,作者使用逻辑回归分类器去建模;对于①,作者将其建模为下式的多元条件高斯:
P(x∣A=k,T=c,q)=N(x∣μ‾k,c,q,Σ‾k,c)P(x|A=k,T=c,q)=\mathcal{N}(x|\overline{\mu}_{k,c,q},\overline{\Sigma}_{k,c})P(x∣A=k,T=c,q)=N(x∣μ​k,c,q​,Σk,c​)

在四个数据集上的实验结果:

[8] R. Kiros, Y. Zhu, R. Salakhutdinov, R. S. Zemel, A. Torralba, R. Urtasun, and S. Fidler. Skip-thought vectors. In NIPS, 2015. 2, 6

[2016][CVPR] Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources

文章链接
本文出自阿德莱德大学吴琦老师,是第一篇提出使用外部知识库进行VQA的文章。本文的动机很明显,在VQA任务中,难免会出现一些涉及到常识的问题,此时单纯的依靠数据集中给的Image、Question难以给出合适的回答。具体的例子如下图所示:

本文的方法如下图所示,先对图片进行区域提取,提取特征后,使用SOTA caption方法生成描述,并基于检测的topK属性去外部知识库中找到相关知识,将两部分文本信息(caption结果、知识库查询结果)和视觉信息共同输入LSTM。

本文的实验结果非常好,在COCO-QA数据集上比SOTA高大概14个百分点。

在VQA数据集上也超过SOTA很多。

2021.02.01 Visual QA论文阅读相关推荐

  1. 2021.02.05 Visual QA论文阅读

    目录 [2016][ECCV] Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Quest ...

  2. 2021.02.18 Visual QA论文阅读

    目录 [2017][CVPR] Graph-Structured Representations for Visual Question Answering [2019][ICCV] Language ...

  3. 2021.02.04 Visual QA论文阅读

    目录 [2016][CVPR] Where To Look: Focus Regions for Visual Question Answering [2016][CVPR] Yin and Yang ...

  4. 2021.02.03 Visual QA论文阅读

    目录 [2016][CVPR] Stacked Attention Networks for Image Question Answering [2016][CVPR] Visual7W: Groun ...

  5. 2021.02.23 Visual QA论文阅读

    目录 [2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answ ...

  6. 2021.01.29 Visual QA论文阅读

    目录 [2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncert ...

  7. 2021.02.02 Visual QA论文阅读

    目录 [2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter P ...

  8. 2021.01.30 Visual QA论文阅读

    目录 [2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images [2015][ ...

  9. Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记

    Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...

最新文章

  1. 深度学习的发展方向: 深度强化学习!
  2. Lanecat网猫的延伸使用
  3. 李永乐线性代数2020年基础课手写笔记汇总
  4. 使用Cordova打包Vue项目为IOS并使用XCode提交到AppStore
  5. 一篇特别长的总结(C专家编程)
  6. 使用ajax的时候必须要加的几行代码
  7. Android Q功能
  8. uniapp使用阿里巴巴在线图标库
  9. 计算机在输电线路设计中的应用研究,计算机在输电线路基础设计中的应用原稿(电子版)...
  10. 深大与南科大计算机,深圳大学和南方科技大学你选哪所?哪所实力更强?
  11. 基于vc的freetype字体轮廓解析_字体术语集
  12. 关于绝地求生某辅助白名单画中画逆向分析
  13. 一度智信:拼多多开店必备条件
  14. HTML给汉字头部添加拼音的标签
  15. 实验七 Android Studio Intent相机图库读取照片【班级名单列表视图03】
  16. 第八周翻译:《Pro SQL Server Internals, 2nd edition》CHAPTER 1 Data Storage Internals Data Pages and DataRow
  17. Python函数定义练习:解一元二次方程
  18. C++两个函数可以相互递归吗_[算法系列] 搞懂递归, 看这篇就够了 !! 递归设计思路 + 经典例题层层递进
  19. 怎么把PDF文件转换成图片?分享三个方法
  20. 2023,特斯拉、比亚迪王者之争

热门文章

  1. [云炬创业基础笔记]第六章商业模式测试18
  2. QFileDialog::getOpenFileName
  3. 小波的秘密10_图像处理应用:图像增强
  4. 解决pip异常:No module named ‘pip‘
  5. react创建新项目
  6. Eclipse reports rendering library more recent than
  7. 【三分钟刷一题力扣】移除元素
  8. QT-第一个程序 Hello QT , 以及QT creator介绍
  9. 抽象类调用自己的抽象方法,实现来自子类
  10. 日常生活小技巧 -- 重装win10系统