目录

  • [2016][CVPR] Where To Look: Focus Regions for Visual Question Answering
  • [2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions

[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering

文章链接
本文的motivation很明确——knowing where to look。

方法上,本文只针对多项选择式VQA。首先,得到region features viv_ivi​和text feature qqq,先经过gi=(Avi+bA)T(Bq+bB)g_i = (Av_i+b^A)^T(Bq+b^B)gi​=(Avi​+bA)T(Bq+bB)和softmax(g)\text{softmax}(g)softmax(g)得到region weight sis_isi​,然后将region features viv_ivi​和text feature qqq连接,得到di=[vi,q]d_i = [v_i, q]di​=[vi​,q],最后经过z=∑i(Wdi,+bW)siz = \sum_{i}(Wd_i,+b^W)s_iz=∑i​(Wdi​,+bW)si​得到weighted average feature zzz,用于后续的分类和分数预测。

下面是在VQA数据集上的实验结果,和一些可视化的实验结果。

[2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions

文章链接
本文题目中提到阴阳,其实就是想说balance。。。作者先是从language prior的角度出发,说语言信息能够对VQA任务提供先验信息,如:对于question “Is the xxx yyy zzz?”,答案一定是yes or no。本文正是针对这类VQA问题(回答是yes or no的QA pair),作者对VQA数据集进行了balance,然后提出了一种基于visual verification的binary VQA方法。

关于作者如何balance数据集,这里就不多提了,下面简单介绍一下本文的方法。由于作者只针对binary VQA,本文的模型分为两个组成部分:① 语言解析(Language Parsing);② 视觉验证(Visual Verification)。在语言解析部分,作者使用斯坦福解析器对question进行解析,然后做一些“剪枝”操作(去除some、the等stop words,去除is、do等辅助动词),得到question的summary。如:Is the woman on couch petting the dog? → woman on couch petting dog. 然后,作者提取PRS三元组<woman on couch, petting, dog>,这部分作者使用了[17]中的方法。得到三元组后,需要将其中的P和S对应到图片中,这部分作者参考[39]中的方法,将图片中和单词(如:dog)互信息最高的部分作为referent。完成alignment后,需要进行视觉验证。视觉验证部分训练了两个模型,分别是Q-model和Tuple-model。Q-model使用image feature和question global feature(使用LSTM得到)作为输入,做一个point-wise multiplication,得到多模态表示,经过fc层得到yes or no的输出。Tuple-model使用image feature(和Q-model一样)和PRS words feature(使用word2vec得到,进行concatenation)作为输入,和Q-model做一样的后续操作。得到的两份yes or no,经过乘法(我理解的是,都为yes才是yes)得到最终答案。注意: image feature是aligned PS image feature。

实验结果分为两部分,unbalanced VQA和balanced VQA。

可视化实验结果:

[17] P. Halcsy, A. Kornai, and C. Oravecz. Hunpos - an open source trigram tagger. In ACL, 2007. 5
[39] C. L. Zitnick, D. Parikh, and L. Vanderwende. Learning the Visual Interpretation of Sentences. In ICCV, 2013. 2, 3, 5

2021.02.04 Visual QA论文阅读相关推荐

  1. 2021.02.05 Visual QA论文阅读

    目录 [2016][ECCV] Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Quest ...

  2. 2021.02.18 Visual QA论文阅读

    目录 [2017][CVPR] Graph-Structured Representations for Visual Question Answering [2019][ICCV] Language ...

  3. 2021.02.03 Visual QA论文阅读

    目录 [2016][CVPR] Stacked Attention Networks for Image Question Answering [2016][CVPR] Visual7W: Groun ...

  4. 2021.02.01 Visual QA论文阅读

    目录 [2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Ans ...

  5. 2021.02.23 Visual QA论文阅读

    目录 [2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answ ...

  6. 2021.01.29 Visual QA论文阅读

    目录 [2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncert ...

  7. 2021.01.30 Visual QA论文阅读

    目录 [2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images [2015][ ...

  8. 2021.02.02 Visual QA论文阅读

    目录 [2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter P ...

  9. Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记

    Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...

最新文章

  1. 省二c语言笔试试卷,2005年春浙省二级C语言笔试试卷.doc
  2. proc下kcore是什么文件
  3. ML_Multiple Linear Regression
  4. 【机器学习】算法模型自动超参数优化方法
  5. Self-training在目标检测任务上的实践
  6. [BUUCTF-pwn]——jarvisoj_level4
  7. iframe 页面填充
  8. spring图片转视频_一直在用的 Spring,你知道它的加载原理吗?
  9. silverlight,WPF动画终极攻略之阳光灿烂篇(Blend 4开发)
  10. 机器学习中的数学知识(part2)
  11. ubuntu ls命令
  12. TextView设置缩略显示
  13. HIT Software Construction Review Notes(0-1 Introduction to the Course)
  14. MySQL连接localhost失败
  15. 红外图像、灰度图像、深度图像对比
  16. LTE-OA系统架构图
  17. python pdf处理工具_NB,真PDF神处理工具!
  18. css特效滑动导航栏,教你做个可爱的css滑动导航条
  19. python 三维地球_python的matplotlib的模拟太阳-地球-月亮运动
  20. AUTOSAR 基础知识简介

热门文章

  1. 科大星云诗社动态20201225
  2. [云炬python3玩转机器学习]5-4向量化高效运算
  3. 科大星云诗社动态20210413
  4. 从黄昏到夜暮 2021-04-15
  5. 填表2018-11-11
  6. 系列笔记 | 深度学习连载(6):卷积神经网络基础
  7. VTK修炼之道27:图像基本操作_三维图像切片交互提取(回调函数、观察者-命令模式)
  8. VTK修炼之道9:坐标系统及空间变换(窗口-视图分割)
  9. 数据库设计与查询语句的优化
  10. delphi中的指针与C类似