多头注意力机制的理解

先来看图：

从图片中可以看出V K Q 是固定的单个值，而Linear层有3个，Scaled Dot-Product Attention 有3个，即3个多头；最后cancat在一起，然后Linear层转换变成一个和单头一样的输出值；类似于集成；多头和单头的区别在于复制多个单头，但权重系数肯定是不一样的；类比于一个神经网络模型与多个一样的神经网络模型，但由于初始化不一样，会导致权重不一样，然后结果集成；（初步理解）

证明：attention函数来自于 attention is all you need，如下所示：

多头注意力机制函数：

从第二张图中可以多头函数看出：attention函数输入为由原来的Q，K，V变成了QW（上标为Q，下标为i），KW（上标为K，下标为i），VW（上标为V，下标为i）；即3个W都不相同；将Q，K，V由原来的512维度变成了64维度（因为采取了8个多头）；然后再拼接在一起变成512维，通过W(上标为O)进行线性转换；得到最终的多头注意力值；

个人最终认为：多头的本质是多个独立的attention计算，作为一个集成的作用，防止过拟合；从attention is all your need论文中输入序列是完全一样的；相同的Q,K,V，通过线性转换，每个注意力机制函数只负责最终输出序列中一个子空间，即1/8，而且互相独立；

多头注意力机制的理解相关推荐

【Transformer 相关理论深入理解】注意力机制、自注意力机制、多头注意力机制、位置编码
目录前言一.注意力机制:Attention 二.自注意力机制:Self-Attention 三.多头注意力机制:Multi-Head Self-Attention 四.位置编码:Positiona ...
Pytorch：Transformer(Encoder编码器-Decoder解码器、多头注意力机制、多头自注意力机制、掩码张量、前馈全连接层、规范化层、子层连接结构、pyitcast) part1
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) Encoder编码器-Decoder解码器框架 + Atten ...
融合多头注意力机制的网络恶意流量检测
摘要 [目的]现有的网络恶意流量检测方法依赖统计特征进行建模,忽略了网络流量本身所具备的时序特征,通过对时序特征的提取.学习.建模,可以进一步提高网络恶意流量检测精度.[方法]将网络流量以会话为基本单 ...
transformer学习之多头注意力机制
文章目录题目注意力机制多头注意力机制为什么要使用多头注意力机制代码实现题目 transformer学习之多头注意力机制注意力机制详细了解 ➡️ 注意力机制之前我们也学习过了Seq2S ...
动手学深度学习（五十）——多头注意力机制
文章目录 1. 为什么用多头注意力机制 2. 什么是多头注意力机制 3. 多头注意力机制模型和理论计算 4. 动手实现多头注意力机制层小结练习 1. 为什么用多头注意力机制所谓自注意力机制就是通 ...
基于多头注意力机制LSTM股价预测模型
1.多头注意力机制层的构建 class MultiHeadAttention(tf.keras.layers.Layer):def __init__(self, num_heads, d_model) ...
通过7个版本的attention的变形，搞懂transformer多头注意力机制
--1-- Transformer模型架构 Transformer 由两个独立的模块组成,即Encoder和Decoder Encoder 编码器是一个堆叠N个相同的层.每层由两个子层组成,第一个是多 ...
Transformer、多头注意力机制学习笔记：Attention is All You Need.
文章目录相关参考连接: https://blog.csdn.net/hpulfc/article/details/80448570 https://blog.csdn.net/weixin_4239 ...
注意力机制QKV理解
注意力机制说白了就是要通过训练得到一个加权,自注意力机制就是要通过权重矩阵来自发地找到词与词之间的关系.因此肯定需要给每个input定义tensor,然后通过tensor间的乘法来得到input之间的 ...

多头注意力机制的理解

多头注意力机制的理解相关推荐

最新文章

热门文章