Visual Question Answering as a Meta Learning Task 
ECCV 2018

2018-09-13 19:58:08

Paper: http://openaccess.thecvf.com/content_ECCV_2018/papers/Damien_Teney_Visual_Question_Answering_ECCV_2018_paper.pdf

1. Introduction:

本文提出一种新的 VQA 思路,将 meta-learning 结合进来,通过支持集的形式(Support Set),让神经网络学会学习。

本文核心的技术贡献是:提供一种顶尖的 VQA模型到 meta-learning 的设定下。the resulting model 是一个深度神经网络,利用 dynamic parameters,也被称为 fast weights,依赖于 support set 在测试时决定的。

the resulting system 的一个能力是:学会产生完全新颖的答案(在 training data 中从未出现的回答)。另外一个能力是处理 rare answers 能力。因为 VQA 是严重的类别不均衡。

本文的贡献是:

1. 将 VQA 看做是 meta-learnig 的问题,在测试时,提供一个 support set 进行模仿;

2. 描述了一个神经网络结构 以及 训练过程,能够结合 meta-learning 的场景;

3. 能够产生新颖的答案。对于 rare answers 能够很好的处理,更好的采样效率;

2. VQA in a Meta Learning Setting :

1)传统的 VQA 模型

  Image I, Question Q, 答案集合 A;

2)拓展到meta-learning 应用场景下

  带有 support set S, the support set S can include novel examples S' provided at test time; S = T U S' ;

3. Proposed Model:

作者将 VQA 系统分为两个部分:第一个部分就是感知,the embedding part that encodes the input question and image;第二个部分就是,the classifier part that handles the reasoning and actural question answering;

3.1. 非线性映射 $f_{theta} (*)$

非线性映射的作用是:将问题/图像 h 的 embedding 映射到适合 classifier 的表示(is to map the embedding of the question/image h to a representation suitable for the following classifier)。

我们采用 paper 【34】的设置,利用  a gated hyperbolic tangent layer, 定义为:

其中,$\delta$ 是逻辑激活函数,W, W', b, b' 都是可学习的参数,圆圈代表了元素级相乘。我们将这些参数统一表达为 $\theta$,传统方法就是用 BP 算法以及 梯度下降的方法进行训练,这样他们得到的就是 static 的参数。而本文所提出的方法,在测试的时候,依赖于 the input h 以及 the available support set,自适应的进行参数的调整。具体的,我们利用 static parameter $\theta^s$,以及 测试时候的动态参数 $\theta^d$。其线性组合为: 其中,w 是学习权重的向量。动态权重 可以看做是根据输入 h,对 static weights 进行的调整(the dynamic weights can therefore be seen as an adjustment made to be the static ones depends on the input h)。

候选动态权重的集合,被保留在 associative memory M 中。该 memory 是一个关于 key/value pair 的集合(跟支持集一样大)。在测试的时候,我们从该 memory 中提取出合适的动态权重,通过 soft key matching:

其中,$d_{cos}$ 代表了余弦相似度函数。所以,我们得到的是一个加权的 sum,用的是 输入 h 和 memory keys $h_i^~$ 之间的相似度来加权 the memory values。

Mapping to Candidate Answers :

未完,待遇 。。。

  

==

论文笔记:Visual Question Answering as a Meta Learning Task相关推荐

  1. 论文-《Visual Question Answering as Reading Comprehension Hui》笔记

    论文下载 摘要: Visual question answering (VQA) demands simultaneous comprehension of both the image visual ...

  2. 论文-《Visual Question Answering A tutorial》重点翻译+扩展

    论文笔记 论文下载 摘要Abstract: Tremendous advances have been seen in the field of computer vision due to the ...

  3. 【论文笔记】Question Answering over Freebase with Multi-Column Convolutional Neural Networks

    一.概要   该文章发于ACL 2015,作者提出了一个基于Freebase,使用multi-column convolutional neural networks(MCCNNs)的自动问答模型,分 ...

  4. 【论文笔记】Question Answering with Subgraph Embeddings

    一.概要   该文章发于EMNLP 2014,作者提出了一个基于Freebase,根据问题中的主题词在知识库中确定候选答案,构建出一个模型来学习问题和候选答案的representation,然后通过这 ...

  5. <<视觉问答>>2021:Learning Compositional Representation for Few-shot Visual Question Answering

    目录 摘要 一.介绍. 二.RELATED WORK A. Visual Question Answering (VQA) B. Few-shot Learning C. Learning with ...

  6. Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记

    Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记 一.Abstract 二.引言 三.R ...

  7. WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记

    WeaQA:Weak Supervision via Captions for Visual Question Answering论文笔记 一.Abstract 二.引言 三.相关工作 3.1 VQA ...

  8. Visual Question Answering with Textual Representations for Images 论文笔记

    Visual Question Answering with Textual Representations for Images 论文笔记 一.Abstract 二.引言 三.方法 3.1 Lang ...

  9. LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记

    LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记 一.摘要 ...

最新文章

  1. js基础——正则表达式
  2. linux mail.rc 端口,配置mail.rc 文件并使用mail发送邮件的详细配置
  3. synchronized原理_synchronized关键字的作用、原理以及锁优化
  4. SAP Cloud Platform上Fiori launchpad tile的读取原理
  5. C语言家谱管理程序,课内资源 - 基于C语言实现的家谱管理系统
  6. Java Minor发布计划再次进行了调整
  7. uni-app阻止事件冒泡
  8. Oracle segment啥意思,关于oracle数据库段segment的小结
  9. 动态添加input_前端提效必备:动态模版生成
  10. Dart核心基础List概述
  11. VS错误的解决办法:error LNK2019: 无法解析的外部符号
  12. charset参数 sqluldr2_SQL*Loader 的使用sqlldr和sqluldr2方法详解
  13. 什么A股,B股,H股?什么是红筹股,蓝筹股?
  14. MMD导入unity中使用
  15. c#发送邮件(带抄送,密送,群发,附件)
  16. Python Behave框架学习
  17. SDCC软件开发者大会:编程马拉松团队火热招募中
  18. 实验课第四次随堂测试
  19. 【Paper Reading FedBCD: A Communication-Efficient Collaborative Learning Framework for DF
  20. 如何判断自己的网站被攻击了

热门文章

  1. html 画布 重置,html5清空画布的方法有哪些
  2. 软件测试工程师,需要达到什么水平才能顺利拿到 20k+ 无压力?
  3. 怎么设计接口测试用例更好——百度大佬“教你写用例”
  4. 5G冲击下,软件测试行业面临的新挑战和机遇
  5. 听说你不会用datetime处理时间?
  6. Lenovo ThinkPad T系列解决 VMware Workstation 打开虚拟机提示:Intel VT-x处于禁用状态问题
  7. linux 内核 网卡驱动 移植,linux内核移植步骤添加dm9000网卡驱动(设备树).docx
  8. H2K-一种鲁棒且较佳的花生叶疾病检测和分类方法
  9. 服务器android打包,Android rom解包打包工具
  10. 小米温控配置不见了_小米11值得买吗?目前看来功耗很高啊?