通俗易懂:8大步骤图解注意力机制
【导读】这是一份用图片和代码详解自注意力机制的指南,请收好。
图解
代码
拓展到 Transformer
准备输入
初始化权重
派生密钥,查询和值
计算输入 1 的注意力得分
计算 softmax
将分数与值相乘
总和加权值以获得输出 1
对输入 2 和输入 3 重复步骤4–7
注意:实际上,数学运算是矢量化的,即所有输入都经过数学运算。我们稍后会在“代码”部分中看到这一点。
输入1:[1,0,1,0]
输入2:[0,2,0,2]
输入3:[1,1,1,1]
注意:我们稍后将看到值的维数也是输出的维数。
[[0,0,1],
[1,1,0],
[0,1,0],
[1,1,0]]
[[1,0,1],
[1,0,0],
[0,0,1],
[0,1,1]]
[[0,2,0],
[0,3,0],
[1,0,3],
[1,1,0]]
注意:在神经网络设置中,这些权重通常是小数,使用适当的随机分布(如高斯,Xavier和Kaiming分布)随机初始化。
[0,0,1]
[1,0,1,0] x [1,1,0] = [0,1,1]
[0,1,0]
[1,1,0]
[0,0,1]
[0,2,0,2] x [1,1,0] = [4,4,0]
[0,1,0]
[1,1,0]
[0,0,1]
[1,1,1,1] x [1,1,0] = [2,3,1]
[0,1,0]
[1,1,0]
[0,0,1]
[1,0,1,0] [1,1,0] [0,1,1]
[0,2,0,2] x [0,1,0] = [4 ,4,0]
[1,1,1,1] [1,1,0] [2,3,1]
[0,2,0]
[1,0,1,0] [0,3,0] [1,2,3]
[0,2,0,2] x [1,0,3] = [2 ,8,0]
[1,1,1,1] [1,1,0] [2,6,3]
[1,0,1]
[1,0,1,0] [1,0,0] [1,0,2]
[0,2,0,2] x [0,0,1] = [2 ,2,2]
[1,1,1,1] [0,1,1] [2,1,3]
注意:实际上,可以将偏差向量添加到矩阵乘法的乘积中。
[0,4,2]
[1,0,2] x [1,4,3] = [2,4,4]
[1,0,1]
注意:以上操作被称为点产品注意,它是几种评分功能其中之一。其他评分功能包括缩放点积和添加/合并数组。
softmax([2,4,4])= [0.0,0.5,0.5]
1:0.0 * [1、2、3] = [0.0、0.0、0.0]
2:0.5 * [2、8、0] = [1.0、4.0、0.0]
3:0.5 * [2、6、3] = [1.0、3.0、1.5]
[0.0,0.0,0.0]
+ [1.0,4.0,0.0]
+ [1.0,3.0,1.5]
-----------------
= [2.0,7.0,1.5]
注意:由于点积分数功能,查询和键的维必须始终相同。但是,值的维数可能不同于 查询和键。结果输出将遵循值的维度。
import torch
x = [
[1, 0, 1, 0], # Input 1
[0, 2, 0, 2], # Input 2
[1, 1, 1, 1] # Input 3
]
x = torch.tensor(x, dtype=torch.float32)
w_key = [
[0, 0, 1],
[1, 1, 0],
[0, 1, 0],
[1, 1, 0]
]
w_query = [
[1, 0, 1],
[1, 0, 0],
[0, 0, 1],
[0, 1, 1]
]
w_value = [
[0, 2, 0],
[0, 3, 0],
[1, 0, 3],
[1, 1, 0]
]
w_key = torch.tensor(w_key, dtype=torch.float32)
w_query = torch.tensor(w_query, dtype=torch.float32)
w_value = torch.tensor(w_value, dtype=torch.float32)
keys = x @ w_key
querys = x @ w_query
values = x @ w_value
print(keys)
# tensor([[0., 1., 1.],
# [4., 4., 0.],
# [2., 3., 1.]])
print(querys)
# tensor([[1., 0., 2.],
# [2., 2., 2.],
# [2., 1., 3.]])
print(values)
# tensor([[1., 2., 3.],
# [2., 8., 0.],
# [2., 6., 3.]
attn_scores = querys @ keys.T
# tensor([[ 2., 4., 4.], # attention scores from Query 1
# [ 4., 16., 12.], # attention scores from Query 2
# [ 4., 12., 10.]]) # attention scores from Query 3
步骤5:计算softmax
from torch.nn.functional import softmax
attn_scores_softmax = softmax(attn_scores, dim=-1)
# tensor([[6.3379e-02, 4.6831e-01, 4.6831e-01],
# [6.0337e-06, 9.8201e-01, 1.7986e-02],
# [2.9539e-04, 8.8054e-01, 1.1917e-01]])
# For readability, approximate the above as follows
attn_scores_softmax = [
[0.0, 0.5, 0.5],
[0.0, 1.0, 0.0],
[0.0, 0.9, 0.1]
]
attn_scores_softmax = torch.tensor(attn_scores_softmax
weighted_values = values[:,None] * attn_scores_softmax.T[:,:,None]
# tensor([[[0.0000, 0.0000, 0.0000],
# [0.0000, 0.0000, 0.0000],
# [0.0000, 0.0000, 0.0000]],
#
# [[1.0000, 4.0000, 0.0000],
# [2.0000, 8.0000, 0.0000],
# [1.8000, 7.2000, 0.0000]],
#
# [[1.0000, 3.0000, 1.5000],
# [0.0000, 0.0000, 0.0000],
# [0.2000, 0.6000, 0.3000]]])
outputs = weighted_values.sum(dim=0)
# tensor([[2.0000, 7.0000, 1.5000], # Output 1
# [2.0000, 8.0000, 0.0000], # Output 2
# [2.0000, 7.8000, 0.3000]]) # Output 3
注意:PyTorch 为此提供了一个 API nn.MultiheadAttention。但是,此 API 要求你输入键、查询并估算 PyTorch 张量。此外,该模块的输出经过线性变换。
尺寸
Bias
嵌入模块
位置编码
截断
掩蔽
多头
层堆叠
线性变换
层范数
Attention Is All You Need https://arxiv.org/abs/1706.03762
Transfomer 图解:https://jalammar.github.io/illustrated-transformer/(jalammar.github.io)
(*本文为AI科技大本营翻译文章,转载请微信联系1092722531)
◆
精彩推荐
◆
开幕倒计时10天|2019 中国大数据技术大会(BDTC)即将震撼来袭!豪华主席阵容及百位技术专家齐聚,十余场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读。6.6 折票限时特惠(立减1400元),学生票仅 599 元!
高三学生发表AI论文,提出针对网络暴力问题的新模型AdaGCN
15篇论文全面概览BERT压缩方法
敲代码月薪 4 万?真相使我差点丢了性命!
这段 Python 代码让程序员赚 300W,公司已确认!网友:神操作!
2097352GB地图数据,AI技术酷炫渲染,《微软飞行模拟器》游戏即将上线
用Go重构C语言系统,这个抗住春晚红包的百度转发引擎承接了万亿流量
日均350000亿接入量,腾讯TubeMQ性能超过Kafka
看完这篇还不了解Nginx,那我就哭了!
网易患病员工被保安赶出公司,程序员该如何应对中年危机?
2019 年,C# 还值得学习吗?
区块链世界里不能信什么?
你点的每个“在看”,我都认真当成了AI
通俗易懂:8大步骤图解注意力机制相关推荐
- spoon无法初始化至少一个步骤_通俗易懂:8大步骤图解注意力机制
BERT.RoBERTa.ALBERT.SpanBERT.DistilBERT.SesameBERT.SemBERT.MobileBERT.TinyBERT和CamemBERT的共同点是什么? 答案并 ...
- 小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法...
雷锋网(公众号:雷锋网) AI 科技评论按:小米近期发布了自己的 AI 音箱,加入了智能家居的战局.正当我们觉得小米会不会只是蹭"人工智能"热点的时候,小米的这篇论文证明了自己真的 ...
- DL之self-attention:self-attention自注意力机制的简介、应用之详细攻略
DL之self-attention:self-attention自注意力机制的简介.应用之详细攻略 目录 self-attention的简介 1.self-attention的影响 2.self-at ...
- 万字长文解析CV中的注意力机制(通道/空间/时域/分支注意力)
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复[transformer综述]获取2022最新ViT综述论文! 注意 ...
- 万字长文解读计算机视觉中的注意力机制(附论文和代码链接)
文中论文和代码已经整理,如果需要,点击下方公号关注,领取,持续传达瓜货 所向披靡的张大刀 注意力机制是机器学习中嵌入的一个网络结构,主要用来学习输入数据对输出数据贡献:注意力机制在NLP和CV中均有使 ...
- Deep Reading | 从0到1再读注意力机制,此文必收藏!
译者 | forencegan 编辑 | 琥珀 出品 | AI科技大本营(ID: rgznai100) [AI科技大本营导语]注意力机制(Attention)已经成为深度学习必学内容之一,无论是计算机 ...
- 战场态势感知中的注意力机制探析
摘要:战场态势感知是指挥决策的基础.开展对战场态势感知机制的研究,可以从理论上厘清机理, 为将来设计智能认知模型与算法,辅助指挥员进行态势感知奠定基础.从注意力机制入手,综述了 心理学和态势感知理论中 ...
- 全网最通俗易懂的 Self-Attention自注意力机制 讲解
目录 前言 非常非常基础的知识 键值对(Key-Value)注意力 Q K V矩阵 的意义 结语 前言 因工作需要,不得不再次将Transformer从尘封的记忆中取出. 半年前学Transform ...
- TensorFlow LSTM 注意力机制图解
TensorFlow LSTM Attention 机制图解 深度学习的最新趋势是注意力机制.在接受采访时,现任OpenAI研究主管的Ilya Sutskever提到,注意力机制是最令人兴奋的进步之一 ...
最新文章
- engineering department induction ppt
- vba quit此文件正由另一个应用程序或用户使用_VBA|如何添加外部对象库(或控件)引用来扩展VBA功能...
- 为什么软件测试需要变革?
- 论坛分页频繁更新帖子缓存_如何实现频繁更改内容的“可缓存”分页
- 一主多备几影响 oracle,Oracle 10g 一主多备的搭建技巧
- Android 异步任务
- python货币转换代码_python将人民币转换大写的脚本代码 | 学步园
- CronTrigger表达式
- 方正飞鸿ES2007SOA工作流开发平台视频演示材料目录
- access_token VS refresh_token
- 漫谈中国数字电视标准的诞生
- 【数据库】ER图进行描述某系统之学习七
- R计算两列数据的相关系数_Python+pandas计算数据相关系数(person、Kendall、spearman)...
- 工业4.0 资产管理壳学习笔记(1)
- DEFCON CTF 2017圆满收关,三支中国战队闯入全球前五
- 15组。政务一体化平台
- vue3+ts实现 家谱树
- JVM性能调优1_享学课堂
- Spring Boot与安全(安全、Spring Security)
- Java笔记018-抽象类、抽象类最佳实践-模板设计模式、接口、内部类
热门文章
- spring+ (activeMQ) 实现queue与topic
- MyBatis开发入门二:一对多连表查询
- 注意!Linux glibc再曝漏洞,可导致Linux软件劫持
- 域名年龄-SEO搜索引擎优化
- Linux内置的审计跟踪工具:last命令
- Android UI系列-----CheckBox和RadioButton(1)
- matlab视频保存为图片
- Spring事务管理 与 SpringAOP
- Mysql 多表使用 Case when then 遇到的坑
- Vue报错:Uncaught RangeError: Maximum call stack size exceeded