论文笔记:Meta-attention for ViT-backed Continual Learning CVPR 2022

  • 论文介绍
  • 论文地址以及参考资料
  • Transformer 回顾
    • Self-Attention
    • Vision transformer
  • 论文的方法
    • MEta-ATtention (MEAT) --- Attention to Self-attention
    • Binary attention masks - Gumbel Max技巧

论文介绍

这篇论文思想非常的新颖,其首次将增量学习(也叫终身学习)和 Vision transformer 结合在一起,想借助VIT的高性能来增强增量学习的准确度。其结合方法是加mask,这有点像PackNetPackNetPackNet如下图,有些任务用不到网络的全部节点,这样就可以做多任务了。其中作者还利用 Gumbel-max 重参数化技巧来训练mask,这一点让我非常迷惑且难受。


论文地址以及参考资料

论文地址:Meta-attention for ViT-backed Continual Learning CVPR 2022
Vision Transformer 讲解视频: B站传送门
重参数化技巧:Categorical Reparameterization with Gumbel-Softmax ICLR 2017


Transformer 回顾

首先,回忆一下Self-Attention。

Self-Attention


如上图,序列中的xix_ixi​会经过一个线性层[Wq,Wk,Wv][W^q,W^k,W^v][Wq,Wk,Wv]得到qi,ki,viq_i,k_i,v_iqi​,ki​,vi​, 这里我插一嘴,可能有人会说得到qi,ki,viq_i,k_i,v_iqi​,ki​,vi​这三个是不是有点多啊,我就只有qi,kiq_i,k_iqi​,ki​行不行 (某次组会师兄被怼

论文笔记:Meta-attention for ViT-backed Continual Learning CVPR 2022相关推荐

  1. 【论文笔记】Gradient Episodic Memory for Continual Learning

    Gradient Episodic Memory for Continual Learning(用于持续学习的梯度情景记忆) 本篇论文的贡献 创新性 Gradient of Episodic Memo ...

  2. 论文笔记《Incorporating Copying Mechanism in Sequence-to-Sequence Learning》

    论文笔记<Incorporating Copying Mechanism in Sequence-to-Sequence Learning> 论文来源:2016 ACL 论文主要贡献:提出 ...

  3. 小样本论文笔记5:Model Based - [6] One-shot learning with memory-augmented neural networks.

    小样本论文笔记5:Model Based - [6] One-shot learning with memory-augmented neural networks 文章目录 小样本论文笔记5:Mod ...

  4. 【论文笔记09】Differentially Private Hypothesis Transfer Learning 差分隐私迁移学习模型, ECMLPKDD 2018

    目录导引 系列传送 Differentially Private Hypothesis Transfer Learning 1 Abstract 2 Bg & Rw 3 Setting &am ...

  5. 论文笔记:Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features

    论文笔记:Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features(通过 ...

  6. 论文笔记:Attention U-Net: Learning Where to Look for the Pancreas

    Abstract 我们提出了一种用于医学成像的新型注意门(AG)模型,该模型自动学习聚焦于不同形状和大小的目标结构.用AG训练的模型隐 含地学习抑制输入图像中的不相关区域,同时突出显示对特定任务有用的 ...

  7. 论文阅读:Oriented RepPoints for Aerial Object Detection (CVPR 2022)

    paper:https://arxiv.org/abs/2105.11111 code:GitHub - LiWentomng/OrientedRepPoints: The code for &quo ...

  8. 交通预测论文笔记《Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting》

    AAAI2019 0 摘要 交通流数据通常有很高的非线性和很复杂的特征.目前很多交通预测的方法缺乏对交通数据时空相关性的动态建模. 本文提出了一种基于注意力的时空图卷积神经网络(ASTGCN)来解决交 ...

  9. 论文笔记:Attention Correctness in Neural Image Captioning

    Attention Correctness in Neural Image Captioning 这篇论文在attention上做足了文章,分别建立了一个有监督attention训练机制,和新的评价标 ...

最新文章

  1. php中输出js语句
  2. 碎片化趋势下手机浏览器或成赢家
  3. 架构重构改善既有代码的设计
  4. Jmeter中JDBC Connection Configuration实现MySQL JDBC Request数据库处理
  5. pca各个向量之间的相关度_详细推导PCA算法
  6. CF1047C Enlarge GCD
  7. 零基础怎样自学编程?初学者如何学习编程?编程学习入门指南(文章较长,需要耐心看完)
  8. PowerBI数据分析之Power BI Desktop数据整理
  9. 强世功:中美“关键十年” ——“新罗马帝国”与“新的伟大斗争”
  10. Bootstrap插件(一)——模态框(modal.js)
  11. 华为p8刷linux系统,在华为P8上轻松解锁Bootloader
  12. C++编程 学习笔记(六)函数(续)
  13. You called this URL via POST, but the URL doesn't end in a slash and you hav。。。
  14. NLP之文本分类:「Tf-Idf、Word2Vec和BERT」三种模型比较
  15. sja1000编程c语言,基于51单片机SJA1000 CAN通讯实现(C语言程序)
  16. 碧蓝航线服务器维护2020,《碧蓝航线》2020维护公告(5月14日10时)
  17. leetcode-算法基础-5、6、7、8
  18. CS 面试题目总结(问题+答案)
  19. 华为加码布局 VR/AR趁势启航
  20. echarts提示信息轮训

热门文章

  1. Word 恢复默认样式
  2. C语言-输出几个数的最大数
  3. html中实现简单计算器功能,js实现简易计算器功能
  4. 深度学习框架zf_深度学习十大框架比较
  5. 利用WinPcap模拟网络包伪造飞秋闪屏报文
  6. 短视频直播美颜sdk可以接入其它视频社交平台吗?
  7. iOS马甲包开发招式及规避4.3方法合集
  8. unity3d学习笔记-动画(1.Unity 中动画的基本原理)
  9. 记录一次dns劫持及其解决办法
  10. Ubuntu安装邮件服务器