[2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images

文章链接
本文和NIPS2014那篇文章一样，出自马普所的Malinowski。2014那篇是依据语义解析器进行视觉问答，本文使用的是端到端的LSTM。作者还基于DAQUAR数据集搜集了额外的答案，构建了DAQUAR-Consensus数据集，并提出了两个新的metric。

用 $x$ 表示输入图片，用 $q$ 表示输入问题，用 $a$ 表示模型输出的答案。作者在第t个时间步时，将 $v_t=[x,[q,a]]$ 输入LSTM模块，训练时, $a$ 为gt，测试时， $a=[a_1,...,a_{t-1}]$ 。

在DAQUAR数据集上的实验结果：

下图是在DAQUAR-Consensus数据集上的实验结果，其中ACM（Average Consensus Metric）和MCM（Min Consensus Metric）是本文提出的新metric，前者定义为 $1NK∑i=1N∑k=1Kmin{∏a∈Aimaxt∈Tkiμ(a,t),∏t∈Tkimaxa∈Aiμ(a,t)}\frac{1}{NK} \sum_{i=1}^{N} \sum_{k=1}^{K} \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \}$ 。后者定义为 $1N∑i=1Nmaxk=1K(min{∏a∈Aimaxt∈Tkiμ(a,t),∏t∈Tkimaxa∈Aiμ(a,t)})\frac{1}{N} \sum_{i=1}^{N} \text{max}_{k=1}^K ( \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \})$ 。其中， $A^i$ 是模型对第 $i$ 个问题的答案， $TkiT^i_k$ 是人类对第 $i$ 个问题的第 $k$ 中可能的回答， $μ(a,t)\mu(a,t)$ 是一个评价指标，比如WUP。

[2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering

文章链接
本文作者出自北卡罗来纳大学，一作为Licheng Yu。本文主要是提出了两个新task，并构造了数据集Visual Madlibs。第一个task是targeted natural language generation，简称TNLG，第二个是multiple-choice question answering，简称MCQA。

TNLG任务其实和image caption任务类似，不同的点在于，TNLG是填空式caption，输入是：一张图片、一个Instruction和一个Prompt，需要模型输出blank处的答案。MCQA任务的输入包含TNLG的输入，但多了许多个候选答案，模型需要选出最适合填入blank中的答案。

实验上，作者在一些baseline方法，还有一些简单的joint-embedding方法上进行了对比，下面是MCQA任务的实验结果。

[2015][ICCV] VQA: Visual Question Answering

文章链接
本文出自Virginia Tech和微软研究院，一作是Stanislaw Antol。本文是第一篇明确提出VQA（Visual Question Answering）任务的文章。VQA任务定义为：输入文本形式问题+一张图片，输出文本形式答案。且此任务是开放、自由的，不提供候选答案（虽然本文提到他们也提出了多选VQA任务），也不fill in blank。

本文构造的数据集叫作VQA v1.0，包含265016张图片（来自COCO），每张图片有至少3个问题，每个问题有10个候选答案、3个假答案。

在实验部分，本文构建了两个简单的baseline model。首先，取数据集中最常见的1000中答案，作为备选（基本可以回答82.67%的问题）。分别训练一个MLP和LSTM+softmax模型，将VQA问题视为1000分类问题去训练，作为baseline。下图是实验结果，Q代表question，I代表image，C代表caption（图片的human caption结果），表示在不同的输入下，模型的结果。

2021.01.30 Visual QA论文阅读相关推荐

2021.01.29 Visual QA论文阅读
目录 [2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncert ...
2021.02.05 Visual QA论文阅读
目录 [2016][ECCV] Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Quest ...
2021.02.18 Visual QA论文阅读
目录 [2017][CVPR] Graph-Structured Representations for Visual Question Answering [2019][ICCV] Language ...
2021.02.04 Visual QA论文阅读
目录 [2016][CVPR] Where To Look: Focus Regions for Visual Question Answering [2016][CVPR] Yin and Yang ...
2021.02.03 Visual QA论文阅读
目录 [2016][CVPR] Stacked Attention Networks for Image Question Answering [2016][CVPR] Visual7W: Groun ...
2021.02.23 Visual QA论文阅读
目录 [2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answ ...
2021.02.02 Visual QA论文阅读
目录 [2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter P ...
2021.02.01 Visual QA论文阅读
目录 [2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Ans ...
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记一.Abstract 二.引言 ...

2021.01.30 Visual QA论文阅读

目录

[2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images

[2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering

[2015][ICCV] VQA: Visual Question Answering

2021.01.30 Visual QA论文阅读相关推荐

最新文章

热门文章