DL之self-attention:self-attention自注意力机制的简介、应用之详细攻略

目录

self-attention的简介

1、self-attention的影响

2、self-attention模块思路的8个步骤及其代码实现

self-attention的应用领域


参考文章
一文读懂自注意力机制:8大步骤图解+代码

相关文章
DL之Attention:Attention的简介、应用领域之详细攻略
DL之self-attention:self-attention的简介、应用之详细攻略

self-attention的简介

一个self-attention模块接收n个输入,然后返回n个输出。这个模块中发生了什么呢?用外行人的话说,self-attention机制允许输入与输入之间彼此交互(“self”),并找出它们应该更多关注的对象(“attention”)。输出是这些交互和注意力得分的总和。

1、self-attention的影响

BERT, RoBERTa, ALBERT, SpanBERT, DistilBERT, SesameBERT, SemBERT, MobileBERT, TinyBERT, CamemBERT……共同之处是BERT,但是最底层则是self-attention。
       “BERT”的架构,更准确地说是基于Transformer的架构。基于Transformer的架构主要用于建模语言理解任务,避免了神经网络中的递归,而是完全依赖于self-attention机制来绘制输入和输出之间的全局依赖关系。

2、self-attention模块思路的8个步骤及其代码实现

DL之self-attention:self-attention模块思路的8个步骤及其代码实现

1、准备输入

2、初始化权重

每个输入必须有三个表示(见下图)。这些表示称为键(key,橙色)查询(query,红色)值(value,紫色)。在本例中,我们假设这些表示的维数是3。因为每个输入的维数都是4,这意味着每组权重必须是4×3。

注:在神经网络设置中,这些权重通常是很小的数字,使用适当的随机分布(例如高斯、Xavier和Kaiming分布)进行随机初始化。

3、推导key, query 和 value

注:在实践中,偏差向量(bias vector )可以添加到矩阵乘法的乘积。

4、计算输入1的注意力得分

为了获得注意力得分,我们首先在输入1的查询(红色)和所有(橙色)之间取一个点积。因为有3个表示(因为有3个输入),我们得到3个注意力得分(蓝色)。

从查询1中计算注意力得分(蓝色)

5、计算softmax

在所有注意力得分中使用softmax(蓝色)。

6、将分数与值相乘

每个输入的softmaxed attention 分数(蓝色)乘以相应的值(紫色)。结果得到3个对齐向量(黄色)。在本教程中,我们将它们称为加权值

由值(紫色)和分数(蓝色)的相乘推导出加权值表示(黄色)

7、将权重值相加,得到输出1

将所有加权值(黄色)按元素指向求和,结果向量[2.0,7.0,1.5](深绿色)是输出1,该输出基于输入1与所有其他键(包括它自己)进行交互的查询表示。

8、对输入2和输入3重复步骤4-7

已经完成了输出1,我们对输出2和输出3重复步骤4到7。

self-attention的应用领域

更新……

DL之self-attention:self-attention自注意力机制的简介、应用之详细攻略相关推荐

  1. DL之InceptionV4/ResNet:InceptionV4/Inception-ResNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

    DL之InceptionV4/ResNet:InceptionV4/Inception-ResNet算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略 目录 InceptionV4/Inc ...

  2. DL框架之Tensorflow:深度学习框架Tensorflow的简介、安装、使用方法之详细攻略

    DL框架之Tensorflow:深度学习框架Tensorflow的简介.安装.使用方法之详细攻略 目录 Tensorflow的简介 1.描述 2.TensorFlow的六大特征 3.了解Tensorf ...

  3. DL之Attention:Attention注意力机制的简介、应用领域之详细攻略

    DL之Attention:Attention注意力机制的简介.应用领域之详细攻略 目录 Attention的简介 1.Why Attention? 2.Attention机制的分类 3.Attenti ...

  4. DL之Attention:Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展,理解,本质,变种)、案例应用(CV/NLP)之详细攻略

    DL之Attention:Attention注意力机制算法的起源与盛行及其长距离有效的原因.概述(背景/本质/与ED框架关系/架构/优缺点/扩展,理解,本质,变种).案例应用(CV/NLP)之详细攻略 ...

  5. NLP之PTM:自然语言处理领域—预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transfo→GPT系列/BERT系列等)、关系梳理、模型对比之详细攻略

    NLP之PTM:自然语言处理领域-预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transformer→GPT系列/BERT系列等).关系梳理.模型对比之 ...

  6. DL之FasterR-CNN:Faster R-CNN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

    DL之FasterR-CNN:Faster R-CNN算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略 目录 Faster R-CNN算法的简介(论文介绍) 1.实验结果 2.三者架构对 ...

  7. DL之SegNet:SegNet图像分割/语义分割算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

    DL之SegNet:SegNet图像分割/语义分割算法的简介(论文介绍).架构详解.案例应用等配图集合之详细攻略 导读 基于CNN的神经网络SegNet算法可进行高精度地识别行驶环境. 目录 SegN ...

  8. DL之AlexNet:AlexNet算法的架构详解、损失函数、网络训练和学习之详细攻略

    DL之AlexNet:AlexNet算法的架构详解.损失函数.网络训练和学习之详细攻略 相关文章 Dataset:数据集集合(CV方向数据集)--常见的计算机视觉图像数据集大集合(建议收藏,持续更新) ...

  9. DL之DNN优化技术:GD、SGD、Momentum、NAG、Ada系列、RMSProp各种代码实现之详细攻略

    DL之DNN优化技术:GD.SGD.Momentum.NAG.Ada系列.RMSProp各种代码实现之详细攻略 目录 GD算法的三种细分 1.1.bGD 1.2.SGD 1.3.MbGD 1.4.SG ...

最新文章

  1. 学以致提高学生操作计算机能力,【学以致用】提供学习平台,提升学生实际应用能力...
  2. 【PAT乙级】1014 福尔摩斯的约会 (20 分)【模拟 / 很坑】
  3. MFC 线程的退出方法
  4. 化鲲为鹏,我有话说 ,鲲鹏ARM架构的优势
  5. 实时体积云渲染(地平线):二.Perlin噪声和Worley噪声
  6. 纯野今日之最:面试谈
  7. 【线性系统】五、稳定性
  8. VMware Workstation Pro 16 安装win7
  9. 中国古典学名著选读网课考试题2021版答案
  10. Spring Cloud (五):路由网关(Zuul)
  11. java 各种编码间转换
  12. qq邮箱里面html的图片无法显示,QQ邮箱如何不显示图片? QQ邮箱如何不显示图片?...
  13. 女神青涩时纤毫毕现,腾讯 AI 模型 GFPGAN 火上 GitHub 热榜第一,Demo 在线可玩
  14. 陶陶摘苹果编程(C语言)
  15. Android课程设计倒计时app,999倒计时计时器课程设计.docx
  16. 推荐系统实践读书笔记-01好的推荐系统
  17. matlab imresize算法详解,为何 MATLAB imresize 函数和 OpenCV resize 函数结果不同
  18. PN结正向压降温度特性的研究
  19. LibZXing二维码工具
  20. php 生成拼音缩写,用PHP生成中文拼音代码

热门文章

  1. 4kyu Path Finder #1: can you reach the exit?
  2. flex 关键词过滤 2.5.35
  3. 17、加密解密技术介绍
  4. 瞬发大量并发连接 造成MySQL连接不响应的分析
  5. log4j配置及正确使用方式
  6. SQL Server中Rollup关键字使用技巧
  7. UEFI引导的系统下装双系统解决方案
  8. 从String中移除空白字符的多种方式!?差别竟然这么大!
  9. 为了做到微服务的高可用,鬼知道我出了多少张牌
  10. Dubbo 序列化协议 5 连问,你接得住不?