论文笔记:Visual Question Answering as a Meta Learning Task
Visual Question Answering as a Meta Learning Task
ECCV 2018
2018-09-13 19:58:08
Paper: http://openaccess.thecvf.com/content_ECCV_2018/papers/Damien_Teney_Visual_Question_Answering_ECCV_2018_paper.pdf
1. Introduction:
本文提出一种新的 VQA 思路,将 meta-learning 结合进来,通过支持集的形式(Support Set),让神经网络学会学习。
本文核心的技术贡献是:提供一种顶尖的 VQA模型到 meta-learning 的设定下。the resulting model 是一个深度神经网络,利用 dynamic parameters,也被称为 fast weights,依赖于 support set 在测试时决定的。
the resulting system 的一个能力是:学会产生完全新颖的答案(在 training data 中从未出现的回答)。另外一个能力是处理 rare answers 能力。因为 VQA 是严重的类别不均衡。
本文的贡献是:
1. 将 VQA 看做是 meta-learnig 的问题,在测试时,提供一个 support set 进行模仿;
2. 描述了一个神经网络结构 以及 训练过程,能够结合 meta-learning 的场景;
3. 能够产生新颖的答案。对于 rare answers 能够很好的处理,更好的采样效率;
2. VQA in a Meta Learning Setting :
1)传统的 VQA 模型:
Image I, Question Q, 答案集合 A;
2)拓展到meta-learning 应用场景下:
带有 support set S, the support set S can include novel examples S' provided at test time; S = T U S' ;
3. Proposed Model:
作者将 VQA 系统分为两个部分:第一个部分就是感知,the embedding part that encodes the input question and image;第二个部分就是,the classifier part that handles the reasoning and actural question answering;
3.1. 非线性映射 $f_{theta} (*)$ :
非线性映射的作用是:将问题/图像 h 的 embedding 映射到适合 classifier 的表示(is to map the embedding of the question/image h to a representation suitable for the following classifier)。
我们采用 paper 【34】的设置,利用 a gated hyperbolic tangent layer, 定义为:
其中,$\delta$ 是逻辑激活函数,W, W', b, b' 都是可学习的参数,圆圈代表了元素级相乘。我们将这些参数统一表达为 $\theta$,传统方法就是用 BP 算法以及 梯度下降的方法进行训练,这样他们得到的就是 static 的参数。而本文所提出的方法,在测试的时候,依赖于 the input h 以及 the available support set,自适应的进行参数的调整。具体的,我们利用 static parameter $\theta^s$,以及 测试时候的动态参数 $\theta^d$。其线性组合为: 其中,w 是学习权重的向量。动态权重 可以看做是根据输入 h,对 static weights 进行的调整(the dynamic weights can therefore be seen as an adjustment made to be the static ones depends on the input h)。
候选动态权重的集合,被保留在 associative memory M 中。该 memory 是一个关于 key/value pair 的集合(跟支持集一样大)。在测试的时候,我们从该 memory 中提取出合适的动态权重,通过 soft key matching:
其中,$d_{cos}$ 代表了余弦相似度函数。所以,我们得到的是一个加权的 sum,用的是 输入 h 和 memory keys $h_i^~$ 之间的相似度来加权 the memory values。
Mapping to Candidate Answers :
未完,待遇 。。。
==
论文笔记:Visual Question Answering as a Meta Learning Task相关推荐
- 论文-《Visual Question Answering as Reading Comprehension Hui》笔记
论文下载 摘要: Visual question answering (VQA) demands simultaneous comprehension of both the image visual ...
- 论文-《Visual Question Answering A tutorial》重点翻译+扩展
论文笔记 论文下载 摘要Abstract: Tremendous advances have been seen in the field of computer vision due to the ...
- 【论文笔记】Question Answering over Freebase with Multi-Column Convolutional Neural Networks
一.概要 该文章发于ACL 2015,作者提出了一个基于Freebase,使用multi-column convolutional neural networks(MCCNNs)的自动问答模型,分 ...
- 【论文笔记】Question Answering with Subgraph Embeddings
一.概要 该文章发于EMNLP 2014,作者提出了一个基于Freebase,根据问题中的主题词在知识库中确定候选答案,构建出一个模型来学习问题和候选答案的representation,然后通过这 ...
- <<视觉问答>>2021:Learning Compositional Representation for Few-shot Visual Question Answering
目录 摘要 一.介绍. 二.RELATED WORK A. Visual Question Answering (VQA) B. Few-shot Learning C. Learning with ...
- Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记
Check It Again: Progressive Visual Question Answering via Visual Entailment 论文笔记 一.Abstract 二.引言 三.R ...
- WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记
WeaQA:Weak Supervision via Captions for Visual Question Answering论文笔记 一.Abstract 二.引言 三.相关工作 3.1 VQA ...
- Visual Question Answering with Textual Representations for Images 论文笔记
Visual Question Answering with Textual Representations for Images 论文笔记 一.Abstract 二.引言 三.方法 3.1 Lang ...
- LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记
LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering 论文笔记 一.摘要 ...
最新文章
- js基础——正则表达式
- linux mail.rc 端口,配置mail.rc 文件并使用mail发送邮件的详细配置
- synchronized原理_synchronized关键字的作用、原理以及锁优化
- SAP Cloud Platform上Fiori launchpad tile的读取原理
- C语言家谱管理程序,课内资源 - 基于C语言实现的家谱管理系统
- Java Minor发布计划再次进行了调整
- uni-app阻止事件冒泡
- Oracle segment啥意思,关于oracle数据库段segment的小结
- 动态添加input_前端提效必备:动态模版生成
- Dart核心基础List概述
- VS错误的解决办法:error LNK2019: 无法解析的外部符号
- charset参数 sqluldr2_SQL*Loader 的使用sqlldr和sqluldr2方法详解
- 什么A股,B股,H股?什么是红筹股,蓝筹股?
- MMD导入unity中使用
- c#发送邮件(带抄送,密送,群发,附件)
- Python Behave框架学习
- SDCC软件开发者大会:编程马拉松团队火热招募中
- 实验课第四次随堂测试
- 【Paper Reading FedBCD: A Communication-Efficient Collaborative Learning Framework for DF
- 如何判断自己的网站被攻击了
热门文章
- html 画布 重置,html5清空画布的方法有哪些
- 软件测试工程师,需要达到什么水平才能顺利拿到 20k+ 无压力?
- 怎么设计接口测试用例更好——百度大佬“教你写用例”
- 5G冲击下,软件测试行业面临的新挑战和机遇
- 听说你不会用datetime处理时间?
- Lenovo ThinkPad T系列解决 VMware Workstation 打开虚拟机提示:Intel VT-x处于禁用状态问题
- linux 内核 网卡驱动 移植,linux内核移植步骤添加dm9000网卡驱动(设备树).docx
- H2K-一种鲁棒且较佳的花生叶疾病检测和分类方法
- 服务器android打包,Android rom解包打包工具
- 小米温控配置不见了_小米11值得买吗?目前看来功耗很高啊?