目录

  • 简介
  • 动机
  • 方法
  • 实验

简介

本文是POSTECH和Kakao合作的一篇文章。
论文链接

动机

异常检测有助于提升模型的稳定性和可靠性,也就是鲁棒性,OOD问题也可以视为一种异常。但是,单模态的异常检测(MSP)并不能轻易的使用到VQA这种多模态任务中。作者提出了一种基于attention的方法(MAP),可以对VQA中的五种异常进行检测。

方法

首先,作者将VQA任务中的异常情况分为五种,也就是五个TASK。

  • TASK1~TASK3
    这三个TASK很好理解,就是在输入的视觉信息VVV和语言信息QQQ中,至少有一类是来自于OOD的。
  • TASK4
    TASK4指的是:VVV和QQQ不相关。即:难以建立两个模态之间的关联。
  • TASK5
    TASK5指的是:通过VVV和QQQ得到的AAA是OOD的。即:答案AAA是未定义的。

结合下面这几种异常示例,可以便于理解。

传统的单模态异常检测方法,使用softmax\text{softmax}softmax判断模型输出的置信度,当置信度低于阈值时,则认为发生了异常。但是这种方法不适用于VQA任务,主要有两方面原因:① 置信度是基于p(a∣v,q)p(a|v,q)p(a∣v,q)计算的,对前四种TASK无法区分;② 进行多模态特征融合后,原本的OOD可能会消失,即:VVV和QQQ的OOD在进行特征融合后表现为ID。

所以,作者提出了基于attention的异常检测方法。本质是使用VVV中每个region和QQQ中每个word的加权attention计算score。为了防止attention对异常过于strong,作者添加了正则项,显式地finetune模型。

实验

提升了模型的鲁棒性,但降低了精度。

对于OOD问题(TASK1~TASK3),检测能力具有大幅提升。

对于TASK4:

对于TASK5:

AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记相关推荐

  1. 2021:Improved RAMEN: Towards Domain Generalization for Visual Question Answering

    摘要 REMAN模型通过在两种主要VQA数据集上获得最好的分数来实现领域泛化.本研究对RAMEN结构中的早/晚融合模块和聚合模块提供两种主要改善,以进一步增强领域泛化.融合模块中引入基于融合策略的向量 ...

  2. 【论文阅读】MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection --- 多模态,谣言检测,注意力机制

    本博客系博主根据个人理解所写,非逐字逐句翻译,预知详情,请参阅论文原文. 论文标题:MFAN: Multi-modal Feature-enhanced Attention Networks for ...

  3. R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering

    博主水平有限,大部分为机翻 摘要: 最近,视觉问答(VQA)已经成为多模式学习中最重要的任务之一,因为它需要理解视觉和文本模式.现有方法主要依靠提取图像和问题特征来通过多模态融合或注意机制来学习它们的 ...

  4. 论文分享——Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

    文章目录 文章简介 1.背景介绍 研究背景 概念介绍 问题描述 IC与VQA领域的主要挑战 2.相关研究 CNN+RNN体系架构 Attention mechanism Bottom-Up and T ...

  5. 自下而上和自上而下的注意力模型《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

    本文有点长,请耐心阅读,定会有收货.如有不足,欢迎交流, 另附:论文下载地址 一.文献摘要介绍 Top-down visual attention mechanisms have been used ...

  6. 《Deep Modular Co-Attention Networks for Visual Question Answering》论文翻译

    论文地址:https://doi.org/10.48550/arXiv.1906.10770 代码地址:GitHub - MILVLG/mcan-vqa: Deep Modular Co-Attent ...

  7. 论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

    论文链接:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Bottom-Up A ...

  8. <<视觉问答>>2021:Learning Compositional Representation for Few-shot Visual Question Answering

    目录 摘要 一.介绍. 二.RELATED WORK A. Visual Question Answering (VQA) B. Few-shot Learning C. Learning with ...

  9. 【论文分享】Relation-Aware Graph Attention Network for Visual Question Answering

    分享一篇nlp领域运用注意力机制设计视觉问答系统的文章,只是对文章进行翻译以及简单的归纳. 目录 二.动机 三.方法 1.问题定义 2.模型结构 2.1 图的构建 2.2 关系编码器 2.3 多模融合 ...

最新文章

  1. 适配iOS 13 tabbar 标题字体不显示以及返回变蓝色的为问题
  2. “万物就只是5万亿个参数”,AI模型GPT-3让人怀疑人生
  3. 利用Attribute简化Unity框架IOC注入
  4. php页面栏目访问权限,PHPCMS 栏目和内容浏览权限的解决方法
  5. der解码规则_DER编码简介
  6. System.Configuration.ConfigurationSettings.GetConfig(string)”已过时 问题的解决方法
  7. linux安装配置SVN服务器
  8. MQ产品比较-ActiveMQ-RocketMQ
  9. C#: 8.0 和 9.0 常用新特性
  10. 链表C++ | 从尾部打印头部(使用栈、递归实现)_3
  11. KVM-Arch-Figure
  12. 水晶报表下将数字转换成金额大写的公式
  13. python nltk —— 文本预处理
  14. php7异常抛出的好处,PHP7的错误与异常
  15. 模板题——贪心(2)
  16. 函数式编程-尾递归、尾调用
  17. Who is in me? -- Freeware on Windows
  18. uniapp接收服务器消息,uniapp如何请求服务器数据
  19. 读【选修计算机专业的伤与痛】
  20. 【C语言】 C 语言 关键字分析 ( 属性关键字 | 常量关键字 | 结构体关键字 | 联合体关键字 | 枚举关键字 | 命名关键字 | 杂项关键字)

热门文章

  1. cad常用字体_2300多种CAD字体免费送给你!绘图必备,一键解决你的CAD文字乱码问题...
  2. matlab神经网络1:功能特色
  3. VTK修炼之道54:图形基本操作进阶_表面重建技术(三角剖分)
  4. 空间三维散点数据的线性拟合
  5. 用Delphi进行word开发
  6. 写在中国雅虎关闭之后
  7. C++Builder如何响应消息及自定义消息
  8. sql中常用的几种连接
  9. 编写好代码的10条戒律
  10. Updatepanel与Jquery合用时的问题解决