CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记
目录
- 简介
- 动机
- 方法
- 实验
简介
本文出自张含望老师课题组。
论文链接
动机
文章的第一句就说明了本文的动机,也就是,本文提出了一个新颖的注意力机制,可以消除现有的基于注意力的视觉语言方法中的混杂效应。
混杂效应会造成有害的bias,误导注意力模块学到数据中的虚假相关,从而降低模型的泛化性。
由于混杂是不可观测的,所以作者使用了前门调整策略实现因果干预。
方法
现有的方法中通常是建模公式1:
作者认为,应该建模P(Y∣do(X))P(Y|do(X))P(Y∣do(X))。但是由于混杂的存在,P(Y∣do(X))≠P(Y∣X)P(Y|do(X)) \ne P(Y|X)P(Y∣do(X))=P(Y∣X)。又混杂是不可观测的,无法使用后门调整,所以使用了前门调整,得到公式3:
从公式3中可以看出,此方法的难点在于如何建模IS-Sampling和CS-Sampling。作者使用NWGM近似法在特征层面上对它们进行建模,避免了采样带来的昂贵计算。
更进一步,可以使用Attention中的QKV模式建模IS-Sampling和CS-Sampling:
对IS-Sampling和CS-Sampling完成建模后,即可以使用IS-ATT Block和CS-ATT Block替换传统Attention方法中的Block。
实验
在Image Captioning上的结果:
应对Bias的性能提升:
在VQA上的实验结果:
对预训练模型的提升:
CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记相关推荐
- CVPR 2021 《Domain-robust VQA with diverse datasets and methods but no target labels》论文笔记
目录 简介 动机 方法 实验 简介 论文链接 动机 由于cv中的方法通常会过拟合数据集,所以很多学者尝试让这些方法对"域变化"鲁棒.但是,这些domain adaptation方法 ...
- AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记
目录 简介 动机 方法 实验 简介 本文是POSTECH和Kakao合作的一篇文章. 论文链接 动机 异常检测有助于提升模型的稳定性和可靠性,也就是鲁棒性,OOD问题也可以视为一种异常.但是,单模态的 ...
- CVPR 2020 《Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences》论文笔记
目录 简介 动机 贡献 方法 实验 简介 本文也是一篇poster,作者出自浙大.阿里巴巴和电科大. 本文提出了一个新的task--STVG(Spatio-Temporal Video Groundi ...
- CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记
理解出错之处望不吝指正. 本文模型叫做ADNet.该模型通过强化学习产生动作序列(对bbox进行移动or尺度变换)来进行tracking.原理如下图(第一列代表初始帧,第二列和第三列代表通过RL产生的 ...
- CVPR 2018 Siam-RPN:《High Performance Visual Tracking with Siamese Region Proposal Network》论文笔记
理解出错之处望不吝指正. 本文模型叫做Siam-RPN.本文将Siamese Network和RPN结合,提出了一种端到端的离线训练方法,并把tracking过程视为one-shot detectio ...
- 【CVPR 2021】剪枝篇(一):Network Pruning via Performance Maximization
[CVPR 2021]剪枝篇(一):Network Pruning via Performance Maximization 论文地址: 主要问题: 主要思路: 具体实现: 基本符号: 子网络生成: ...
- CVPR 2021 论文和开源项目合集(Papers with Code)
摘自:https://github.com/amusi/CVPR2021-Papers-with-Code CVPR 2021 论文和开源项目合集 CVPR 2021 论文和开源项目合集(Papers ...
- 汇总|CVPR 2021 自动驾驶相关论文
在科学研究中,从方法论上来讲,都应"先见森林,再见树木".当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异.对于AI从业者来说,在广袤的知识森林中,系统梳理脉络 ...
- CVPR 2021论文视角:计算机视觉现状
点击上方"机器学习与生成对抗网络",关注星标 获取有趣.好玩的前沿干货! 作者 Georgian 来源 DeepHub IMBA 编辑 极市平台 本文根据今年的CVPR录用结果总结 ...
- CVPR 2021 | 论文大盘点:3D目标检测
作者丨我爱计算机视觉@知乎 来源丨https://zhuanlan.zhihu.com/p/389319123 编辑丨3D视觉工坊 本篇汇总 3D 目标检测相关论文,包含基于单目.基于深度图.基于激光 ...
最新文章
- python图标-python实现的简版iconv
- C/Cpp / STL / 类型萃取
- django2.2连接mysql遇到的坑(亲测)
- 实验详解——Cobbler自动部署最小化安装
- Enjoy Android
- 函数参数传递、数组指针、二级指针、左值、引用
- 就这几个简单页面APP,这混小子要我10W块?!大家评评理!
- 【mysql】left join on and 和 where的区别
- oracle查看数据库所有列,sql – 如何查看oracle数据库中表的列的所有元数据?
- mapreduce分组统计_如何优雅的理解MapReduce
- flask (三) 重定向
- python芙蓉数用abs函数_Python调用OpenCV阈值化
- 【转】JS判断SWF,JPG加载完毕、兼容(Activex,plugIn)所有浏览器
- 7个和尚_一位高僧对世俗问题的7个回答,非常绝妙!
- win7/8/10,使用WSD不能打印
- Win11家庭版没有本地组策略编辑器怎么办?
- 服务器win10系统开机慢,win10专业版系统开机启动慢 三种方法帮你敲定
- 已知网络号如何求子网掩码?
- 第四章 玩转捕获数据包
- 基于STM32智能人体红外和声音感应声光控开关设计
热门文章
- 云炬随笔20171205
- 1-1 什么是微信小程序
- extern用法详解(转)
- --SQL code# --创建表及字段描述信息
- 总结数据库设计中的14个技巧
- “Imperceptible,Robust,and Targeted Adversaria lExamples for Automatic Speech Recognition”
- 几种存储器的主要应用
- Servlet 单例多线程
- 忽略某些文件 —— Git 学习笔记 05
- 第15章习题解答(二)——《x86汇编语言:从实模式到保护模式》读书笔记41