目录

  • [2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images
  • [2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering
  • [2015][ICCV] VQA: Visual Question Answering

[2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images

文章链接
本文和NIPS2014那篇文章一样,出自马普所的Malinowski。2014那篇是依据语义解析器进行视觉问答,本文使用的是端到端的LSTM。作者还基于DAQUAR数据集搜集了额外的答案,构建了DAQUAR-Consensus数据集,并提出了两个新的metric。

xxx表示输入图片,用qqq表示输入问题,用aaa表示模型输出的答案。作者在第t个时间步时,将vt=[x,[q,a]]v_t=[x,[q,a]]vt=[x,[q,a]]输入LSTM模块,训练时,aaa为gt,测试时,a=[a1,...,at−1]a=[a_1,...,a_{t-1}]a=[a1,...,at1]

在DAQUAR数据集上的实验结果:

下图是在DAQUAR-Consensus数据集上的实验结果,其中ACM(Average Consensus Metric)和MCM(Min Consensus Metric)是本文提出的新metric,前者定义为1NK∑i=1N∑k=1Kmin{∏a∈Aimaxt∈Tkiμ(a,t),∏t∈Tkimaxa∈Aiμ(a,t)}\frac{1}{NK} \sum_{i=1}^{N} \sum_{k=1}^{K} \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \}NK1i=1Nk=1Kmin{aAimaxtTkiμ(a,t),tTkimaxaAiμ(a,t)}。后者定义为1N∑i=1Nmaxk=1K(min{∏a∈Aimaxt∈Tkiμ(a,t),∏t∈Tkimaxa∈Aiμ(a,t)})\frac{1}{N} \sum_{i=1}^{N} \text{max}_{k=1}^K ( \text{min} \{ \prod_{a \in A^i} \text{max}_{t \in T_k^i} \mu(a,t), \prod_{t \in T_k^i} \text{max}_{a \in A^i} \mu(a,t) \})N1i=1Nmaxk=1K(min{aAimaxtTkiμ(a,t),tTkimaxaAiμ(a,t)})。其中,AiA^iAi是模型对第iii个问题的答案,TkiT^i_kTki是人类对第iii个问题的第kkk中可能的回答,μ(a,t)\mu(a,t)μ(a,t)是一个评价指标,比如WUP。

[2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering

文章链接
本文作者出自北卡罗来纳大学,一作为Licheng Yu。本文主要是提出了两个新task,并构造了数据集Visual Madlibs。第一个task是targeted natural language generation,简称TNLG,第二个是multiple-choice question answering,简称MCQA。

TNLG任务其实和image caption任务类似,不同的点在于,TNLG是填空式caption,输入是:一张图片、一个Instruction和一个Prompt,需要模型输出blank处的答案。MCQA任务的输入包含TNLG的输入,但多了许多个候选答案,模型需要选出最适合填入blank中的答案。

实验上,作者在一些baseline方法,还有一些简单的joint-embedding方法上进行了对比,下面是MCQA任务的实验结果。

[2015][ICCV] VQA: Visual Question Answering

文章链接
本文出自Virginia Tech和微软研究院,一作是Stanislaw Antol。本文是第一篇明确提出VQA(Visual Question Answering)任务的文章。VQA任务定义为:输入文本形式问题+一张图片,输出文本形式答案。且此任务是开放、自由的,不提供候选答案(虽然本文提到他们也提出了多选VQA任务),也不fill in blank。

本文构造的数据集叫作VQA v1.0,包含265016张图片(来自COCO),每张图片有至少3个问题,每个问题有10个候选答案、3个假答案。

在实验部分,本文构建了两个简单的baseline model。首先,取数据集中最常见的1000中答案,作为备选(基本可以回答82.67%的问题)。分别训练一个MLP和LSTM+softmax模型,将VQA问题视为1000分类问题去训练,作为baseline。下图是实验结果,Q代表question,I代表image,C代表caption(图片的human caption结果),表示在不同的输入下,模型的结果。

2021.01.30 Visual QA论文阅读相关推荐

  1. 2021.01.29 Visual QA论文阅读

    目录 [2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncert ...

  2. 2021.02.05 Visual QA论文阅读

    目录 [2016][ECCV] Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Quest ...

  3. 2021.02.18 Visual QA论文阅读

    目录 [2017][CVPR] Graph-Structured Representations for Visual Question Answering [2019][ICCV] Language ...

  4. 2021.02.04 Visual QA论文阅读

    目录 [2016][CVPR] Where To Look: Focus Regions for Visual Question Answering [2016][CVPR] Yin and Yang ...

  5. 2021.02.03 Visual QA论文阅读

    目录 [2016][CVPR] Stacked Attention Networks for Image Question Answering [2016][CVPR] Visual7W: Groun ...

  6. 2021.02.23 Visual QA论文阅读

    目录 [2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answ ...

  7. 2021.02.02 Visual QA论文阅读

    目录 [2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter P ...

  8. 2021.02.01 Visual QA论文阅读

    目录 [2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Ans ...

  9. Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记

    Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...

最新文章

  1. 中国交通标志识别,德国交通标志识别
  2. PLSQL的DBMS_GETLINE
  3. 求解LambdaMART的疑惑?
  4. 实例教程:1小时学会Python
  5. Ubuntu 下mysql service 启动问题
  6. git@github.com - Permission denied publickey错误
  7. python flask框架是什么_Flask框架是什么?带你安装运行第一个Flask程序
  8. 首选System.lineSeparator()以用Java编写系统相关的行分隔符字符串
  9. oracle 10g学习之分组函数
  10. mariadb mysql 重建_(MariaDB/MySQL)之DML(2):数据更新、删除
  11. python生成器表达式_python 生成器和生成器表达式
  12. C#学习笔记(十):反射
  13. Ajax请求回调函数没有被调用
  14. 科三十六项操作方法指导
  15. 终止代码:DRIVER_IRQL_NOT_LESS_OR_EQUAL 失败的操作:CH341S64.SYS
  16. 5G的网络切片功能概述
  17. 手机图片怎么加水印?只需三步即可完成
  18. Linux应用程序目录规范——XDG
  19. 网站建设就是要大胆创新
  20. 股票API数据实时查询

热门文章

  1. [云炬创业基础笔记]第十一章创业计划书测试4
  2. [我的1024开源程序]100元写的单词本说明书
  3. 图像处理实战 多张曲线同图共舞
  4. 图像处理入门 100 题,有人把它翻译成了中文版!
  5. js在IE下面弹出打开和保存文件的对话框
  6. grub4dos初级教程-入门篇
  7. bash-shell中使用的特殊字符总结
  8. 不再颓废,重新开始,牛客第一题1016. 部分A+B (15)
  9. 也谈SSDT Hook(一)
  10. 为自增(++)自减(--)运算符正名