EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记
目录
- 简介
- 动机
- 方法
- 实验
简介
论文链接
动机
VQA中的语言先验问题,也可以说是OOD问题(Out-Of-Distribution)。使用额外的单独分支减轻模型学得语言先验的一类方法试图消除所有的Q-A bias,作者认为这是适得其反的。而本文的出发点是让模型关注正向bias,消除负面bias。正向bias如:对于“what is the color of xxx”问题,模型应回答“颜色”类答案,负面bias如:“香蕉是黄色的”这种语言先验。
方法
在我个人看来,本文方法可视为一种数据增强。对于数据集中的一个样本<Q,I,A><Q, I, A><Q,I,A>,作者通过两种方式进行数据增强,即:<Q,I,A>→<Q^,I,A^><Q, I, A> \rightarrow <\hat{Q}, I, \hat{A}><Q,I,A>→<Q^,I,A^>和<Q,I,A>→<Q,I^,A^><Q, I, A> \rightarrow <Q, \hat{I}, \hat{A}><Q,I,A>→<Q,I^,A^>。前者代表在问题QQQ上进行改变,构造新的样本对;后者代表在图片III上进行改变,得到新的样本对。那么本文方法的核心,其实可以分为三点:① 改变III、② 改变QQQ、③ 根据改变,生成对应的答案。
改变III
对于图片的处理,作者分为两种策略,一是抹除重要的object,二是改变重要object的颜色。首先定义,如何衡量object是否重要。作者使用的策略是——在QQQ中提到的object视为重要。对于第一类,作者使用COCO数据集的mask标注随机抹除III中的mmm个object,然后使用基于GAN的inpainting方法对mask部分做一个平滑处理。对于第二类,将重要object做pixel level的换色即可。改变QQQ
对于问题的处理,作者分为三种策略,一是对“yes/no”问题的语义取反,这通过添加“no/not”即可实现。二是使用对抗单词代替问题中的重要单词,如将“Is the lady holding the baby?”改为“Is the cat holding the baby?”,这部分作者构造了一个word list,并使用BERT计算word之间的相似度。替换时,使用III中没出现的、相似度最高的word进行替换。三是对word进行mask,使问题具有歧义性,如“Is the [MASK] holding the baby?”。生成答案
抹除III中的object:对于计数问题,将答案减去抹去的重要object个数;对于“yes/no”问题,当所有重要object全部抹除时,答案会flip。
更改III中重要object的颜色:对于颜色问题,更改答案。
对于改变QQQ的前两种策略:直接对答案取反。
对于改变QQQ的第三种策略:作者使用k-means对数据集中的所有answer做了聚类,手动调节至50个簇,将这50个簇进行标注,作为“广义类”。如“红色、黄色、绿色”等统称为“颜色”类。
下面看一下模型的整体架构。作者将AAA和对应的<Q,I><Q, I><Q,I>多模态特征MMM投影到一个流形上,投影后的特征称为ApA_pAp和MpM_pMp。对于本文生成的样本<Q^,I,A^><\hat{Q}, I, \hat{A}><Q^,I,A^>(或<Q,I^,A^><Q, \hat{I}, \hat{A}><Q,I^,A^>)通过一样的操作得到A^p\hat{A}_pA^p和M^p\hat{M}_pM^p。通过最小化∣∣dis(Ap,Mp)−dis(A^p−M^p)∣∣||dis(A_p, M_p)-dis(\hat{A}_p-\hat{M}_p)||∣∣dis(Ap,Mp)−dis(A^p−M^p)∣∣对模型进行优化。
实验
主要看下在VQA-CP v2上的实验,结果可以说是非常好了。
EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记相关推荐
- ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记
目录 简介 动机 贡献 方法 实验 简介 本文一作是南洋理工大学的Xiaofeng Yang. 文章链接 动机 现有的VQA方法可以分为两类,第一类侧重于对视觉和语言的跨模态联合建模,但是由于缺乏关系 ...
- ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记
目录 简介 动机 贡献 方法 实验 简介 本文出自北航刘偲老师colab,使用语言结构引导上下文建模,用于Referring Image Segmentation. 下载链接 动机 解决Referri ...
- EMNLP 2020论文分析:知识图谱增强语言模型或是未来的发展趋势!
在EMNLP 2020的论文投递中,知识图谱的研究热度不减,并成为继续推动NLP发展的重要动力之一. 在EMNLP 2020中,知识图谱领域有了哪些最新研究进展呢?作者从中选出了30篇文章,对未来2- ...
- 就算是戴上口罩,AI也知道你在说什么丨EMNLP 2020最佳论文
萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 吃饭的时候,想要和对面聊聊天,然而周遭嘈杂的声音,让你根本不知道ta在说什么? 又或者,想与听障人士交流,然而对方听不见你的声音? 现在,检 ...
- 拯救“没常识”的GPT-3得靠它了,交大ACM班校友提出“Voken” 无监督学习 | EMNLP 2020...
晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 纵使地表最强语言模型GPT-3学习了30亿个单词的英文维基百科,但是依然会犯低级错误. 如果你问它:太阳有几只眼睛? GPT-3会说&qu ...
- EMNLP 2020 | 基于Wasserstein距离的正则化序列表示
©PaperWeekly 原创 · 作者|金金 单位|阿里巴巴研究实习生 研究方向|推荐系统 论文标题: Wasserstein Distance Regularized Sequence Repre ...
- 本周阅读清单:从NeurIPS 2020到EMNLP 2020
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考.在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果.如果你也希望让自己的科研成果被更多人看到, ...
- 直播 | EMNLP 2020:用语义分割的思路解决不完整话语重写任务
「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...
- UC伯克利摘最佳论文、Hugging Face获最佳demo,EMNLP 2020奖项公布
作者|魔王.杜伟.小舟 来源|机器之心 刚刚,正在进行中的 EMNLP 2020 大会公布了一系列奖项,其中最佳论文奖由加州大学伯克利分校的研究者获得,爱丁堡大学华人博士生 Yanpeng Zhao ...
最新文章
- 换脸火了,我用 Python 快速入门生成模型
- 第一次使用Plesk云主机面板?5招搞定!
- 让编译器对一些警告闭嘴
- js 外部文件加载处理
- RHEL5系统下故障处理方法
- 赋能‘元宇宙’,这些企业强势破圈 | 2021AI 最佳成长榜
- WebAPI(part6)--自定义属性操作
- Linux中Shell脚本函数库的笔记
- linux一步一脚印---more、less、head、tail
- java实现把数据写入到Excel并下载
- php 整型,php整型就是整数
- 从词袋到 Transfomer,NLP 十年突破史
- php去掉字符串的最后一个字符的方法
- T^T找数字(搜索+二进制枚举)
- 第二个结对编程——UI设计
- 百亿条日志实时处理,为什么要用Flink?
- 日积(Running)月累(ZSSURE):看山不是山看水不是水,2017
- 阿里IoT云VS腾讯IoT云,相互抄袭还是一女俩嫁?
- 【九】【vlc-android】vlc-aout音频流输出端源码分析
- word 2016 脚注上方多了一行空行无法删除