目录

  • 简介
  • 动机
  • 方法
  • 实验

简介

本文出自张含望老师课题组。
论文链接

动机

文章的第一句就说明了本文的动机,也就是,本文提出了一个新颖的注意力机制,可以消除现有的基于注意力的视觉语言方法中的混杂效应。

混杂效应会造成有害的bias,误导注意力模块学到数据中的虚假相关,从而降低模型的泛化性。

由于混杂是不可观测的,所以作者使用了前门调整策略实现因果干预。

方法

现有的方法中通常是建模公式1:

作者认为,应该建模P(Y∣do(X))P(Y|do(X))P(Y∣do(X))。但是由于混杂的存在,P(Y∣do(X))≠P(Y∣X)P(Y|do(X)) \ne P(Y|X)P(Y∣do(X))​=P(Y∣X)。又混杂是不可观测的,无法使用后门调整,所以使用了前门调整,得到公式3:

从公式3中可以看出,此方法的难点在于如何建模IS-Sampling和CS-Sampling。作者使用NWGM近似法在特征层面上对它们进行建模,避免了采样带来的昂贵计算。

更进一步,可以使用Attention中的QKV模式建模IS-Sampling和CS-Sampling:


对IS-Sampling和CS-Sampling完成建模后,即可以使用IS-ATT Block和CS-ATT Block替换传统Attention方法中的Block。

实验

在Image Captioning上的结果:

应对Bias的性能提升:

在VQA上的实验结果:


对预训练模型的提升:

CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记相关推荐

  1. CVPR 2021 《Domain-robust VQA with diverse datasets and methods but no target labels》论文笔记

    目录 简介 动机 方法 实验 简介 论文链接 动机 由于cv中的方法通常会过拟合数据集,所以很多学者尝试让这些方法对"域变化"鲁棒.但是,这些domain adaptation方法 ...

  2. AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记

    目录 简介 动机 方法 实验 简介 本文是POSTECH和Kakao合作的一篇文章. 论文链接 动机 异常检测有助于提升模型的稳定性和可靠性,也就是鲁棒性,OOD问题也可以视为一种异常.但是,单模态的 ...

  3. CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文也是一篇poster,作者出自浙大.阿里巴巴和电科大. 本文提出了一个新的task--STVG(Spatio-Temporal Video Groundi ...

  4. CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记

    理解出错之处望不吝指正. 本文模型叫做ADNet.该模型通过强化学习产生动作序列(对bbox进行移动or尺度变换)来进行tracking.原理如下图(第一列代表初始帧,第二列和第三列代表通过RL产生的 ...

  5. CVPR 2018 Siam-RPN:《High Performance Visual Tracking with Siamese Region Proposal Network》论文笔记

    理解出错之处望不吝指正. 本文模型叫做Siam-RPN.本文将Siamese Network和RPN结合,提出了一种端到端的离线训练方法,并把tracking过程视为one-shot detectio ...

  6. 【CVPR 2021】剪枝篇(一):Network Pruning via Performance Maximization

    [CVPR 2021]剪枝篇(一):Network Pruning via Performance Maximization 论文地址: 主要问题: 主要思路: 具体实现: 基本符号: 子网络生成: ...

  7. CVPR 2021 论文和开源项目合集(Papers with Code)

    摘自:https://github.com/amusi/CVPR2021-Papers-with-Code CVPR 2021 论文和开源项目合集 CVPR 2021 论文和开源项目合集(Papers ...

  8. 汇总|CVPR 2021 自动驾驶相关论文

    在科学研究中,从方法论上来讲,都应"先见森林,再见树木".当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异.对于AI从业者来说,在广袤的知识森林中,系统梳理脉络 ...

  9. CVPR 2021论文视角:计算机视觉现状

    点击上方"机器学习与生成对抗网络",关注星标 获取有趣.好玩的前沿干货! 作者 Georgian 来源 DeepHub IMBA 编辑 极市平台 本文根据今年的CVPR录用结果总结 ...

  10. CVPR 2021 | 论文大盘点:3D目标检测

    作者丨我爱计算机视觉@知乎 来源丨https://zhuanlan.zhihu.com/p/389319123 编辑丨3D视觉工坊 本篇汇总 3D 目标检测相关论文,包含基于单目.基于深度图.基于激光 ...

最新文章

  1. python图标-python实现的简版iconv
  2. C/Cpp / STL / 类型萃取
  3. django2.2连接mysql遇到的坑(亲测)
  4. 实验详解——Cobbler自动部署最小化安装
  5. Enjoy Android
  6. 函数参数传递、数组指针、二级指针、左值、引用
  7. 就这几个简单页面APP,这混小子要我10W块?!大家评评理!
  8. 【mysql】left join on and 和 where的区别
  9. oracle查看数据库所有列,sql – 如何查看oracle数据库中表的列的所有元数据?
  10. mapreduce分组统计_如何优雅的理解MapReduce
  11. flask (三) 重定向
  12. python芙蓉数用abs函数_Python调用OpenCV阈值化
  13. 【转】JS判断SWF,JPG加载完毕、兼容(Activex,plugIn)所有浏览器
  14. 7个和尚_一位高僧对世俗问题的7个回答,非常绝妙!
  15. win7/8/10,使用WSD不能打印
  16. Win11家庭版没有本地组策略编辑器怎么办?
  17. 服务器win10系统开机慢,win10专业版系统开机启动慢 三种方法帮你敲定
  18. 已知网络号如何求子网掩码?
  19. 第四章 玩转捕获数据包
  20. 基于STM32智能人体红外和声音感应声光控开关设计

热门文章

  1. 云炬随笔20171205
  2. 1-1 什么是微信小程序
  3. extern用法详解(转)
  4. --SQL code# --创建表及字段描述信息
  5. 总结数据库设计中的14个技巧
  6. “Imperceptible,Robust,and Targeted Adversaria lExamples for Automatic Speech Recognition”
  7. 几种存储器的主要应用
  8. Servlet 单例多线程
  9. 忽略某些文件 —— Git 学习笔记 05
  10. 第15章习题解答(二)——《x86汇编语言:从实模式到保护模式》读书笔记41