目录

  • 任务描述
  • 应用领域
  • 主要问题
  • 主流框架
  • 常用数据集
  • Metrics

部分数据集介绍摘自这篇博客

任务描述

  • 输入:图片III、由nnn个单词组成的问题Q={q1,...,qn}Q=\{ q_1,...,q_n \}Q={q1​,...,qn​}
  • 输出:由mmm个单词组成的问题的答案A={a1,...,am}A=\{ a_1,...,a_m \}A={a1​,...,am​}

应用领域

  • 盲人导航
  • 图灵测试

主要问题

  • 鲁棒性差
    模型的鲁棒性差可多个方面体现,如缺乏可解释性、回答不一致等。造成这个问题的原因也是多方面的,如训练集和测试集的分布不同、语言先验等。所以鲁棒性差算是一个比较笼统、大范围的概念。
    已有方法:反事实、迁移学习、场景图等(太多方法可以提高模型的鲁棒性了)
    参考文献:[1] CVPR 2020 Towards Causal VQA Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing

  • 可解释性
    已有方法:关系推理、场景图
    参考文献:[1] CVPR 2019 Explainable and Explicit Visual Reasoning over Scene Graphs
                     [2] ICCV 2019 Language-Conditioned Graph Networks for Relational Reasoning

  • 回答一致性
    已有方法:新数据集VQA-Rephrasings、SQuINTing
    参考文献:[1] CVPR2019 Cycle-Consistency for Robust Visual Question Answering
                     [2] CVPR 2020 SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions

  • 训练集和测试集分布不一致(衍生问题:出现out-of-vocabulary answer)
    已有方法:使用Self-Critical Reasoning提高influential objects的sensitivity、迁移学习、反事实
    参考文献:[1] CVPR 2019 Self-Critical Reasoning for Robust Visual Question Answering
                     [2] CVPR 2019 Transfer Learning via Unsupervised Task Discovery
                     [3] CVPR 2020 Counterfactual Samples Synthesizing for Robust Visual Question Answering

  • 语言先验
    已有方法:问题分解
    参考文献:[1] AAAI 2020 Overcoming Language Priors in VQA via Decomposed Linguistic Representations
                     [2] CVPR 2018 Dont just assume; look and answer: Overcoming priors for visual question answering

  • 跨模态交互(新视角)
    已有方法:转化为机器阅读理解任务、提取不同模态信息的summarizations
    参考文献:[1] CVPR 2019 Visual Question Answering as Reading Comprehension
                     [2] ICCV 2019 Multi-modality Latent Interaction Network for Visual Question Answering

  • domain拓展性
    已有方法:No Questions-Answers Training(使用问题图生成问题,构造无意义的答案)
    参考文献:[1] CVPR 2020 VQA with No Questions-Answers Training

  • 组合泛化
    已有方法:NMNs、neural factor graphs
    参考文献:[1] NeurlPS 2020 Multimodal Graph Networks for Compositional Generalization in Visual Question Answering
                     [2] CVPR 2016 Neural Module Networks

主流框架

①. 使用faster rcnn提取图片中的regions
②. 使用LSTM/Transformer对question进行encode
③. 跨模态交互,得到answer

常用数据集

  • CLEVR,合成数据集,是由一些简单的几何形状构成的视觉场景。数据集中的问题总是需要一长串的推理过程,为了对推理能力进行详细评估,所有问题分为了5类:属性查询(querying attribute),属性比较(comparing attributes),存在性(existence),计数(counting),整数比较(integer comparison)。
    下载链接
    论文原文
  • VQA v1,人工标注的开放式问答数据集,但是VQAv1有很多类语言偏见(bias)。
    下载链接
    论文原文
  • VQA v2,人工标注的开放式问答数据集,相较于VQAv1尽量减少了语言偏见(为每个问题补充了图片),但是仍存在一些偏见。
    下载链接
    论文原文
  • VQA-CP v2,该数据集通过将VQA 2.0的训练集和验证集重新划分,得到新的训练集和测试集,包含219K张图像数据、658K条问题数据、6.6M答案数据。
    下载链接
    论文原文
  • FVQA,该数据集不仅有图像和QA pairs,还有外部知识(extra knowledge),知识库有193, 449个事实句子,包含图像2190张,问题5826个,整个数据集分成了5个train/test集,每个集合包含1100张训练图像和1090张测试图像,分别有2927和2899个问题,问题总共可以分成32类。
    下载链接
    论文原文
  • COCO-QA,QA pairs是由NLP算法生成的,图像来自COCO数据集,一共有78736个训练QA pairs和38948个测试QA pairs,大部分的问题是关于图像中的目标(69.84%),其他问题是关于颜色(16.59%),计数(7.47%),位置(6.10%)。所有问题的答案都是一个单词,只有435个独一无二的答案。数据集最大的缺点在于QA pairs是用NLP算法生成的,是将长句子划分成短句子处理的,这就忽视了句子中的语法和从句问题,算法结果不够智能;另外,数据集只有4类问题。
    下载链接
    论文原文
  • TDIUC,该数据集尝试解决语言偏见,将问题分成了12类。
    下载链接
    论文原文
  • Visual Genome,包含图像108077张和1445233个QA Pairs,图像来源是YFCC100M和COCO数据集,共有约540万张图像中的区域描述信息,这些信息能够达到精细的语义层次,问题类型是6W(what, where, how, when, who, why),数据集并没有对训练和测试数据进行切分。QA的收集有两种方法,一种是随意人为提问(会出现相似问题或对图像全局内容提问),另一种是针对图像中的特定区域提问。该数据集中没有二值类问题。
    下载链接
    论文原文
  • Visual7W,是Visual Genome的一个子集,包含47,300张图像。Visual7W的问题主要由What, Where, How, When, Who,Why, and Which构成。Visual7W的问题是多选问题,每个问题都有四个候选答案。
    下载链接
    论文原文
  • GQA,2019年提出的数据集,其dataset bias低,重视推理能力和组合式语言理解能力,提出了新的metric(Consistency、Validity、Plausibility、Distribution、Grounding)。
    下载链接
    论文原文
  • VQA-Rephrasing,2019年提出的数据集,注重问题回答一致性。
    下载链接
    论文原文
  • SQuINTing,2020年提出的数据集,将问题进行分类,有些问题需要回答“先验”问题,以保证模型回答的一致性。
    下载链接
    论文原文
  • EST-VQA,2020年提出的场景文本数据集。
    下载链接
    论文原文

Metrics

  • 准确率:有更细致的划分——Yes/No、Numbers、Others
  • WUPS(n)(Wu-Palmer Similarity):根据两个单词在一个分类树中的最长公共子序列来计算相似性。如果预测单词和标准答案单词的相似性低于设定的阈值(n),则候选答案的评分为0。
  • Consistency:考察模型回答问题的一致性,对于同一张图片的不同问题,回答不应该自相矛盾。
  • Validity:考察模型回答问题的有效性,如颜色相关的问题,模型的回答应该是一种颜色。
  • Plausibility:考察模型回答问题的合理性,如苹果有红色和绿色,但是没有紫色的,所以在问苹果颜色时,不能出现紫色的答案。
  • Distribution:考察预测答案的分布与真实答案的分布之间的距离,如果模型只预测那些经常出现的答案,忽略出现次数少的答案,则此分数较低。
  • Grounding:考察模型是否将attention放在了准确的区域。

Visual Question Answering概述相关推荐

  1. IQA: Visual Question Answering in Interactive Environments 心得体会

    近日看了CVPR 2018的一篇论文,IQA:Visual question answering in interactive envionments,主要描述的是用一个代理与视频内容进行交互,回答基 ...

  2. 【自然语言处理】--视觉问答(Visual Question Answering,VQA)从初始到应用

    一.前述 视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务.这一任务的定义如下: A VQA system takes as inp ...

  3. 论文笔记:Visual Question Answering as a Meta Learning Task

    Visual Question Answering as a Meta Learning Task  ECCV 2018 2018-09-13 19:58:08 Paper: http://opena ...

  4. VALSE学习(五):看图说话-Visual Question Answering as Reading Comprehension

    VALSE2019 一.Visual Question Answering as Reading Comprehension 简介:开发一种能够对图像提出智能的.面向目标的问题的方法被证明是一个难以理 ...

  5. 论文阅读Check it again:Progressive Visual Question Answering via Visual Entailment

    论文:Check it again:Progressive Visual Question Answering via Visual Entailment 代码:https://github.com/ ...

  6. Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记

    Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记 一.Abstract 二.引言 三.R ...

  7. Check It Again: Progressive Visual Question Answering via Visual Entailment

    最近要做关于VQA的项目,要读paper-这里收集了一些有关于这篇paper的资料. 资料 导读: SFFAI 130 视觉问答专题<佀庆一:中国科学院信息工程研究所在读博士> 2021: ...

  8. 《Generating Question Relevant Captions to Aid Visual Question Answering》(生成问题相关标题,以帮助视觉回答问题)论文解读

    下面是我对最近阅读的论文<Generating Question Relevant Captions to Aid Visual Question Answering>的一些简要理解 一. ...

  9. WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记

    WeaQA:Weak Supervision via Captions for Visual Question Answering论文笔记 一.Abstract 二.引言 三.相关工作 3.1 VQA ...

最新文章

  1. git stash 拉去_git操作命令符
  2. VS 2008 mfc 智能应用程序 调用 C# webservice.(二)(gsoap+wince)
  3. mybatis入门(七)之日志
  4. leetcode870. 优势洗牌(贪心算法)
  5. 进化计算-进化策略(Evolutionary Strategies,ES)前世今生与代码共享
  6. EXCEL VBA 入门与实用例子
  7. 偏最小二乘法(NIPALS经典实现--未简化)
  8. eplan中断点编号_eplan中断点怎么关联
  9. Cell:植物根系如何允许有益微生物定植的
  10. AutoCAD 2021-2022
  11. 三自由度机器人动力学(三个转动自由度+word报告+matlab代码)
  12. 浙江大学的计算机考研难度,浙江大学部分专业考研难度分析
  13. 项目:文件搜索助手(FileSeeker)
  14. 如何复制CD音乐(电脑小技巧)
  15. Win10 笔记本 解决屏幕忽明忽暗,自动降低亮度问题
  16. 多啦a梦的python代码_分享一篇文本文档画哆啦A梦代码!
  17. 毕业设计有哪些可借鉴的 GitHub 项目?
  18. 淘宝跨境电商怎么做 淘宝跨境电商注意事项
  19. 三门问三羊问题与三个思考角度
  20. Python实现基于物品的协同过滤推荐算法构建电影推荐系统

热门文章

  1. 科大星云诗社动态20210322
  2. [C++学习笔记]C++常见问题大全(二)
  3. MATLAB粒子模拟代码注释
  4. unity三维向量变化为角度_UNITY3D两个物体相对位置、角度、相对速度方向
  5. python嵌套字典代码_python – 尝试在嵌套字典中查找唯一值的总和. (见例子!)
  6. Qt修炼手册8_常用的容器类QVector和QList
  7. Savitzky-Golay 滤波器详解及C/matlab语言程序设计
  8. python-pygame激动时刻你我共享
  9. eclipse导入Java文件后出现中文乱码
  10. 搭建 Verilog 仿真环境