简介

本文是POSTECH和Kakao合作的一篇文章。
论文链接

动机

异常检测有助于提升模型的稳定性和可靠性，也就是鲁棒性，OOD问题也可以视为一种异常。但是，单模态的异常检测（MSP）并不能轻易的使用到VQA这种多模态任务中。作者提出了一种基于attention的方法（MAP），可以对VQA中的五种异常进行检测。

方法

首先，作者将VQA任务中的异常情况分为五种，也就是五个TASK。

TASK1~TASK3
这三个TASK很好理解，就是在输入的视觉信息VVV和语言信息QQQ中，至少有一类是来自于OOD的。
TASK4
TASK4指的是：VVV和QQQ不相关。即：难以建立两个模态之间的关联。
TASK5
TASK5指的是：通过VVV和QQQ得到的AAA是OOD的。即：答案AAA是未定义的。

结合下面这几种异常示例，可以便于理解。

传统的单模态异常检测方法，使用softmax\text{softmax}softmax判断模型输出的置信度，当置信度低于阈值时，则认为发生了异常。但是这种方法不适用于VQA任务，主要有两方面原因：① 置信度是基于p(a∣v,q)p(a|v,q)p(a∣v,q)计算的，对前四种TASK无法区分；② 进行多模态特征融合后，原本的OOD可能会消失，即：VVV和QQQ的OOD在进行特征融合后表现为ID。

所以，作者提出了基于attention的异常检测方法。本质是使用VVV中每个region和QQQ中每个word的加权attention计算score。为了防止attention对异常过于strong，作者添加了正则项，显式地finetune模型。

实验

提升了模型的鲁棒性，但降低了精度。

对于OOD问题（TASK1~TASK3），检测能力具有大幅提升。

对于TASK4：

对于TASK5：

AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记相关推荐

2021：Improved RAMEN: Towards Domain Generalization for Visual Question Answering
摘要 REMAN模型通过在两种主要VQA数据集上获得最好的分数来实现领域泛化.本研究对RAMEN结构中的早/晚融合模块和聚合模块提供两种主要改善,以进一步增强领域泛化.融合模块中引入基于融合策略的向量 ...
【论文阅读】MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection --- 多模态，谣言检测，注意力机制
本博客系博主根据个人理解所写,非逐字逐句翻译,预知详情,请参阅论文原文. 论文标题:MFAN: Multi-modal Feature-enhanced Attention Networks for ...
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering
博主水平有限,大部分为机翻摘要: 最近,视觉问答(VQA)已经成为多模式学习中最重要的任务之一,因为它需要理解视觉和文本模式.现有方法主要依靠提取图像和问题特征来通过多模态融合或注意机制来学习它们的 ...
论文分享——Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
文章目录文章简介 1.背景介绍研究背景概念介绍问题描述 IC与VQA领域的主要挑战 2.相关研究 CNN+RNN体系架构 Attention mechanism Bottom-Up and T ...
自下而上和自上而下的注意力模型《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》
本文有点长,请耐心阅读,定会有收货.如有不足,欢迎交流, 另附:论文下载地址一.文献摘要介绍 Top-down visual attention mechanisms have been used ...
《Deep Modular Co-Attention Networks for Visual Question Answering》论文翻译
论文地址:https://doi.org/10.48550/arXiv.1906.10770 代码地址:GitHub - MILVLG/mcan-vqa: Deep Modular Co-Attent ...
论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
论文链接:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Bottom-Up A ...
＜＜视觉问答＞＞2021：Learning Compositional Representation for Few-shot Visual Question Answering
目录摘要一.介绍. 二.RELATED WORK A. Visual Question Answering (VQA) B. Few-shot Learning C. Learning with ...
【论文分享】Relation-Aware Graph Attention Network for Visual Question Answering
分享一篇nlp领域运用注意力机制设计视觉问答系统的文章,只是对文章进行翻译以及简单的归纳. 目录二.动机三.方法 1.问题定义 2.模型结构 2.1 图的构建 2.2 关系编码器 2.3 多模融合 ...

AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记

目录

简介

动机

方法

实验

AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记相关推荐

最新文章

热门文章