参考文献 Predictive Attention Transformer: Improving Transformer with Attention Map Prediction

PA-transformer 的想法是将 QKT/NQK^T/\sqrt{N}QKT/N​ 做两种处理, 一是正常的 encode 到 下一个 encode 的 QKT/NQK^T/\sqrt{N}QKT/N​ , 另一个是使用 2D-卷积层,
两种处理的信息 以某种比例混合后用于 取值投影. 混合后的信息 也将有类似的两种处理.见下图


2D-卷积层.
AAA 是一个 N×N×KN \times N \times KN×N×K 矩阵. 过滤器为 3×33 \times 33×3 矩阵, 激活函数是 ReLU\text{ReLU}ReLU.

预测注意力映射为
A=softmax(αCNN(Alogs)+(1−α)Attention(X)logs).A=\text{softmax}(\alpha \text{CNN}(A_{logs}) +(1-\alpha)\text{Attention}(X)_{logs}). A=softmax(αCNN(Alogs​)+(1−α)Attention(X)logs​).
其中 AlogsA_{logs}Alogs​ 是 上一层的QKT/NQK^T/\sqrt{N}QKT/N​, Attention(X)logs\text{Attention}(X)_{logs}Attention(X)logs​ 是本层的QKT/NQK^T/\sqrt{N}QKT/N​.

Predictive Attention Transformer 理解相关推荐

  1. 自然语言处理模型:bert 结构原理解析——attention+transformer(翻译自:Deconstructing BERT)

    原文:Deconstructing BERT: Distilling 6 Patterns from 100 Million Parameters 关于transformer 和attention的机 ...

  2. RAAT: Relation-Augmented Attention Transformer for Relation Modeling in Document-Level 论文解读

    RAAT: Relation-Augmented Attention Transformer for Relation Modeling in Document-Level Event Extract ...

  3. Attention机制理解笔记(空间注意力+通道注意力+CBAM+BAM)

    Attention机制理解笔记 声明 Attention分类(主要SA和CA) spitial attention channel attention SA + CA(spitial attentio ...

  4. seq2seq到attention到transformer理解

    1.seq2seq 1.1 模型结构 encoder ,decoder都是用RNN实现的 所有信息共用一个语义表示C,C为隐藏状态 缺点:无法表达序列信息 句子长,效果差,丢失信息 训练时: enco ...

  5. 快速串联 RNN / LSTM / Attention / transformer / BERT / GPT

    参考: 李宏毅2021/2022春机器学习课程 王树森 RNN & Transformer 教程 Transformer 详解 文章目录 0. 背景:序列数据及相关任务 1. 早期序列模型 1 ...

  6. Transformer理解

    论文:https://arxiv.org/pdf/1706.03762.pdf 目录 论文:https://arxiv.org/pdf/1706.03762.pdf Attention注意力机制: Q ...

  7. Attention mask理解

    Transformer的矩阵维度分析和Mask详解 Transformer 中self-attention以及mask操作的原理以及代码解析

  8. Transformer 理解Tokenizer

    文章目录 1.tokenizer 1.介绍 1.1 Subword tokenization 1.Byte-Pair Encoding (BPE) 2.Byte-level BPE 3.wordpie ...

  9. ATTENTION QKV理解

    https://blog.csdn.net/u013887652/article/details/101062567?depth_1-utm_source=distribute.pc_relevant ...

最新文章

  1. Android Studio3.x上使用Lombok
  2. 批处理-取年月日、时分秒毫秒
  3. 在webstorm里面添加自定义web browsers的方法
  4. leetcode lcp2 分式化简
  5. easyui之treegrid的生成
  6. 『TensorFlow』读书笔记_TFRecord学习
  7. FREETEXTBOX
  8. 2021年软件评测师新版考试大纲
  9. STM32RTC唤醒功能配置(基于LL库)
  10. 《ffmpeg入门学习》 五 多个图片合成一张图片
  11. 2016年高校保送生拟录取名单(清华大学)
  12. arcgis剔除异常值栅格计算器_arcgis 栅格计算器(Spatial Analyst/Raster Calculator)
  13. 【离散数学】搜集、并搜集、交搜集、求A = {{Φ, 2}, {2}}的并搜集和交搜集
  14. emc re 整改 超标_CE认证EMC测试不合格,如何整改 ;
  15. 谷歌浏览器windows以及mac系统下设置跨域
  16. android打印动画,Android实用View系列------TextView实现打印机效果
  17. win10+ubuntu双系统之三步彻底删除ubuntu系统
  18. jsp全是问号_JSP response,request中文乱码(出现问号)总结
  19. 测试用例(功能用例)——完整demo(一千多条测试用例)
  20. 如何准备将您的 Mac 升级到 macOS Monterey?

热门文章

  1. 行为树 Behavior3go
  2. Android TableLayout的使用
  3. 你再这样我就不喜欢你了
  4. 有什么推荐的开源erp?
  5. java继承实验_第八周JAVA实验之继承
  6. 第三方平台对接订单+票+款
  7. Unauthorized
  8. 解决 Could not build wheels for pandas, which is required to install pyproject.toml-based projects
  9. fetch 服务器不响应,Fetch 常见的使用问题
  10. [附源码]java毕业设计图书馆自习室管理系统