论文笔记:Meta-attention for ViT-backed Continual Learning CVPR 2022
论文笔记:Meta-attention for ViT-backed Continual Learning CVPR 2022
- 论文介绍
- 论文地址以及参考资料
- Transformer 回顾
- Self-Attention
- Vision transformer
- 论文的方法
- MEta-ATtention (MEAT) --- Attention to Self-attention
- Binary attention masks - Gumbel Max技巧
论文介绍
这篇论文思想非常的新颖,其首次将增量学习(也叫终身学习)和 Vision transformer 结合在一起,想借助VIT的高性能来增强增量学习的准确度。其结合方法是加mask,这有点像PackNetPackNetPackNet如下图,有些任务用不到网络的全部节点,这样就可以做多任务了。其中作者还利用 Gumbel-max 重参数化技巧来训练mask,这一点让我非常迷惑且难受。
论文地址以及参考资料
论文地址:Meta-attention for ViT-backed Continual Learning CVPR 2022
Vision Transformer 讲解视频: B站传送门
重参数化技巧:Categorical Reparameterization with Gumbel-Softmax ICLR 2017
Transformer 回顾
首先,回忆一下Self-Attention。
Self-Attention
如上图,序列中的xix_ixi会经过一个线性层[Wq,Wk,Wv][W^q,W^k,W^v][Wq,Wk,Wv]得到qi,ki,viq_i,k_i,v_iqi,ki,vi, 这里我插一嘴,可能有人会说得到qi,ki,viq_i,k_i,v_iqi,ki,vi这三个是不是有点多啊,我就只有qi,kiq_i,k_iqi,ki行不行 (某次组会师兄被怼
论文笔记:Meta-attention for ViT-backed Continual Learning CVPR 2022相关推荐
- 【论文笔记】Gradient Episodic Memory for Continual Learning
Gradient Episodic Memory for Continual Learning(用于持续学习的梯度情景记忆) 本篇论文的贡献 创新性 Gradient of Episodic Memo ...
- 论文笔记《Incorporating Copying Mechanism in Sequence-to-Sequence Learning》
论文笔记<Incorporating Copying Mechanism in Sequence-to-Sequence Learning> 论文来源:2016 ACL 论文主要贡献:提出 ...
- 小样本论文笔记5:Model Based - [6] One-shot learning with memory-augmented neural networks.
小样本论文笔记5:Model Based - [6] One-shot learning with memory-augmented neural networks 文章目录 小样本论文笔记5:Mod ...
- 【论文笔记09】Differentially Private Hypothesis Transfer Learning 差分隐私迁移学习模型, ECMLPKDD 2018
目录导引 系列传送 Differentially Private Hypothesis Transfer Learning 1 Abstract 2 Bg & Rw 3 Setting &am ...
- 论文笔记:Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features
论文笔记:Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features(通过 ...
- 论文笔记:Attention U-Net: Learning Where to Look for the Pancreas
Abstract 我们提出了一种用于医学成像的新型注意门(AG)模型,该模型自动学习聚焦于不同形状和大小的目标结构.用AG训练的模型隐 含地学习抑制输入图像中的不相关区域,同时突出显示对特定任务有用的 ...
- 论文阅读:Oriented RepPoints for Aerial Object Detection (CVPR 2022)
paper:https://arxiv.org/abs/2105.11111 code:GitHub - LiWentomng/OrientedRepPoints: The code for &quo ...
- 交通预测论文笔记《Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting》
AAAI2019 0 摘要 交通流数据通常有很高的非线性和很复杂的特征.目前很多交通预测的方法缺乏对交通数据时空相关性的动态建模. 本文提出了一种基于注意力的时空图卷积神经网络(ASTGCN)来解决交 ...
- 论文笔记:Attention Correctness in Neural Image Captioning
Attention Correctness in Neural Image Captioning 这篇论文在attention上做足了文章,分别建立了一个有监督attention训练机制,和新的评价标 ...
最新文章
- php中输出js语句
- 碎片化趋势下手机浏览器或成赢家
- 架构重构改善既有代码的设计
- Jmeter中JDBC Connection Configuration实现MySQL JDBC Request数据库处理
- pca各个向量之间的相关度_详细推导PCA算法
- CF1047C Enlarge GCD
- 零基础怎样自学编程?初学者如何学习编程?编程学习入门指南(文章较长,需要耐心看完)
- PowerBI数据分析之Power BI Desktop数据整理
- 强世功:中美“关键十年” ——“新罗马帝国”与“新的伟大斗争”
- Bootstrap插件(一)——模态框(modal.js)
- 华为p8刷linux系统,在华为P8上轻松解锁Bootloader
- C++编程 学习笔记(六)函数(续)
- You called this URL via POST, but the URL doesn't end in a slash and you hav。。。
- NLP之文本分类:「Tf-Idf、Word2Vec和BERT」三种模型比较
- sja1000编程c语言,基于51单片机SJA1000 CAN通讯实现(C语言程序)
- 碧蓝航线服务器维护2020,《碧蓝航线》2020维护公告(5月14日10时)
- leetcode-算法基础-5、6、7、8
- CS 面试题目总结(问题+答案)
- 华为加码布局 VR/AR趁势启航
- echarts提示信息轮训