[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering

文章链接
本文的motivation很明确——knowing where to look。

方法上，本文只针对多项选择式VQA。首先，得到region features viv_ivi和text feature qqq，先经过gi=(Avi+bA)T(Bq+bB)g_i = (Av_i+b^A)^T(Bq+b^B)gi=(Avi+bA)T(Bq+bB)和softmax(g)\text{softmax}(g)softmax(g)得到region weight sis_isi，然后将region features viv_ivi和text feature qqq连接，得到di=[vi,q]d_i = [v_i, q]di=[vi,q]，最后经过z=∑i(Wdi,+bW)siz = \sum_{i}(Wd_i,+b^W)s_iz=∑i(Wdi,+bW)si得到weighted average feature zzz，用于后续的分类和分数预测。

下面是在VQA数据集上的实验结果，和一些可视化的实验结果。

[2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions

文章链接
本文题目中提到阴阳，其实就是想说balance。。。作者先是从language prior的角度出发，说语言信息能够对VQA任务提供先验信息，如：对于question “Is the xxx yyy zzz?”，答案一定是yes or no。本文正是针对这类VQA问题（回答是yes or no的QA pair），作者对VQA数据集进行了balance，然后提出了一种基于visual verification的binary VQA方法。

关于作者如何balance数据集，这里就不多提了，下面简单介绍一下本文的方法。由于作者只针对binary VQA，本文的模型分为两个组成部分：① 语言解析（Language Parsing）；② 视觉验证（Visual Verification）。在语言解析部分，作者使用斯坦福解析器对question进行解析，然后做一些“剪枝”操作（去除some、the等stop words，去除is、do等辅助动词），得到question的summary。如：Is the woman on couch petting the dog? → woman on couch petting dog. 然后，作者提取PRS三元组<woman on couch, petting, dog>，这部分作者使用了[17]中的方法。得到三元组后，需要将其中的P和S对应到图片中，这部分作者参考[39]中的方法，将图片中和单词（如：dog）互信息最高的部分作为referent。完成alignment后，需要进行视觉验证。视觉验证部分训练了两个模型，分别是Q-model和Tuple-model。Q-model使用image feature和question global feature（使用LSTM得到）作为输入，做一个point-wise multiplication，得到多模态表示，经过fc层得到yes or no的输出。Tuple-model使用image feature（和Q-model一样）和PRS words feature（使用word2vec得到，进行concatenation）作为输入，和Q-model做一样的后续操作。得到的两份yes or no，经过乘法（我理解的是，都为yes才是yes）得到最终答案。注意： image feature是aligned PS image feature。

实验结果分为两部分，unbalanced VQA和balanced VQA。

可视化实验结果：

[17] P. Halcsy, A. Kornai, and C. Oravecz. Hunpos - an open source trigram tagger. In ACL, 2007. 5
[39] C. L. Zitnick, D. Parikh, and L. Vanderwende. Learning the Visual Interpretation of Sentences. In ICCV, 2013. 2, 3, 5

2021.02.04 Visual QA论文阅读相关推荐

2021.02.05 Visual QA论文阅读
目录 [2016][ECCV] Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Quest ...
2021.02.18 Visual QA论文阅读
目录 [2017][CVPR] Graph-Structured Representations for Visual Question Answering [2019][ICCV] Language ...
2021.02.03 Visual QA论文阅读
目录 [2016][CVPR] Stacked Attention Networks for Image Question Answering [2016][CVPR] Visual7W: Groun ...
2021.02.01 Visual QA论文阅读
目录 [2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Ans ...
2021.02.23 Visual QA论文阅读
目录 [2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answ ...
2021.01.29 Visual QA论文阅读
目录 [2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncert ...
2021.01.30 Visual QA论文阅读
目录 [2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images [2015][ ...
2021.02.02 Visual QA论文阅读
目录 [2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter P ...
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记一.Abstract 二.引言 ...

2021.02.04 Visual QA论文阅读

目录

[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering

[2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions

2021.02.04 Visual QA论文阅读相关推荐

最新文章

热门文章