简介

论文链接

动机

VQA中的语言先验问题，也可以说是OOD问题（Out-Of-Distribution）。使用额外的单独分支减轻模型学得语言先验的一类方法试图消除所有的Q-A bias，作者认为这是适得其反的。而本文的出发点是让模型关注正向bias，消除负面bias。正向bias如：对于“what is the color of xxx”问题，模型应回答“颜色”类答案，负面bias如：“香蕉是黄色的”这种语言先验。

方法

在我个人看来，本文方法可视为一种数据增强。对于数据集中的一个样本<Q,I,A><Q, I, A><Q,I,A>，作者通过两种方式进行数据增强，即：<Q,I,A>→<Q^,I,A^><Q, I, A> \rightarrow <\hat{Q}, I, \hat{A}><Q,I,A>→<Q^,I,A^>和<Q,I,A>→<Q,I^,A^><Q, I, A> \rightarrow <Q, \hat{I}, \hat{A}><Q,I,A>→<Q,I^,A^>。前者代表在问题QQQ上进行改变，构造新的样本对；后者代表在图片III上进行改变，得到新的样本对。那么本文方法的核心，其实可以分为三点：① 改变III、② 改变QQQ、③ 根据改变，生成对应的答案。

改变III
对于图片的处理，作者分为两种策略，一是抹除重要的object，二是改变重要object的颜色。首先定义，如何衡量object是否重要。作者使用的策略是——在QQQ中提到的object视为重要。对于第一类，作者使用COCO数据集的mask标注随机抹除III中的mmm个object，然后使用基于GAN的inpainting方法对mask部分做一个平滑处理。对于第二类，将重要object做pixel level的换色即可。
改变QQQ
对于问题的处理，作者分为三种策略，一是对“yes/no”问题的语义取反，这通过添加“no/not”即可实现。二是使用对抗单词代替问题中的重要单词，如将“Is the lady holding the baby?”改为“Is the cat holding the baby?”，这部分作者构造了一个word list，并使用BERT计算word之间的相似度。替换时，使用III中没出现的、相似度最高的word进行替换。三是对word进行mask，使问题具有歧义性，如“Is the [MASK] holding the baby?”。
生成答案
抹除III中的object：对于计数问题，将答案减去抹去的重要object个数；对于“yes/no”问题，当所有重要object全部抹除时，答案会flip。
更改III中重要object的颜色：对于颜色问题，更改答案。
对于改变QQQ的前两种策略：直接对答案取反。
对于改变QQQ的第三种策略：作者使用k-means对数据集中的所有answer做了聚类，手动调节至50个簇，将这50个簇进行标注，作为“广义类”。如“红色、黄色、绿色”等统称为“颜色”类。

下面看一下模型的整体架构。作者将AAA和对应的<Q,I><Q, I><Q,I>多模态特征MMM投影到一个流形上，投影后的特征称为ApA_pAp和MpM_pMp。对于本文生成的样本<Q^,I,A^><\hat{Q}, I, \hat{A}><Q^,I,A^>（或<Q,I^,A^><Q, \hat{I}, \hat{A}><Q,I^,A^>）通过一样的操作得到A^p\hat{A}_pA^p和M^p\hat{M}_pM^p。通过最小化∣∣dis(Ap,Mp)−dis(A^p−M^p)∣∣||dis(A_p, M_p)-dis(\hat{A}_p-\hat{M}_p)||∣∣dis(Ap,Mp)−dis(A^p−M^p)∣∣对模型进行优化。

实验

主要看下在VQA-CP v2上的实验，结果可以说是非常好了。

EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记相关推荐

ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记
目录简介动机贡献方法实验简介本文一作是南洋理工大学的Xiaofeng Yang. 文章链接动机现有的VQA方法可以分为两类,第一类侧重于对视觉和语言的跨模态联合建模,但是由于缺乏关系 ...
ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记
目录简介动机贡献方法实验简介本文出自北航刘偲老师colab,使用语言结构引导上下文建模,用于Referring Image Segmentation. 下载链接动机解决Referri ...
EMNLP 2020论文分析：知识图谱增强语言模型或是未来的发展趋势！
在EMNLP 2020的论文投递中,知识图谱的研究热度不减,并成为继续推动NLP发展的重要动力之一. 在EMNLP 2020中,知识图谱领域有了哪些最新研究进展呢?作者从中选出了30篇文章,对未来2- ...
就算是戴上口罩，AI也知道你在说什么丨EMNLP 2020最佳论文
萧箫发自凹非寺量子位报道 | 公众号 QbitAI 吃饭的时候,想要和对面聊聊天,然而周遭嘈杂的声音,让你根本不知道ta在说什么? 又或者,想与听障人士交流,然而对方听不见你的声音? 现在,检 ...
拯救“没常识”的GPT-3得靠它了，交大ACM班校友提出“Voken” 无监督学习 | EMNLP 2020...
晓查发自凹非寺量子位报道 | 公众号 QbitAI 纵使地表最强语言模型GPT-3学习了30亿个单词的英文维基百科,但是依然会犯低级错误. 如果你问它:太阳有几只眼睛? GPT-3会说&qu ...
EMNLP 2020 | 基于Wasserstein距离的正则化序列表示
©PaperWeekly 原创 · 作者|金金单位|阿里巴巴研究实习生研究方向|推荐系统论文标题: Wasserstein Distance Regularized Sequence Repre ...
本周阅读清单：从NeurIPS 2020到EMNLP 2020
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考.在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果.如果你也希望让自己的科研成果被更多人看到, ...
直播 | EMNLP 2020：用语义分割的思路解决不完整话语重写任务
「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...
UC伯克利摘最佳论文、Hugging Face获最佳demo，EMNLP 2020奖项公布
作者|魔王.杜伟.小舟来源|机器之心刚刚,正在进行中的 EMNLP 2020 大会公布了一系列奖项,其中最佳论文奖由加州大学伯克利分校的研究者获得,爱丁堡大学华人博士生 Yanpeng Zhao ...

EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记

目录

简介

动机

方法

实验

EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记相关推荐

最新文章

热门文章