自注意力机制Self-attention（1）

2024-06-05 12:57:59

目录：
自注意力机制Self-attention（1）
自注意力机制Self-attention（2）

本文是对李宏毅老师的课程进行了整理。
视频地址为：
https://www.bilibili.com/video/BV1Wv411h7kN?p=23

1 问题引入

问：为什么要引入自注意力机制？
答：输入一个向量，经过Model预测后得到一个分类结果/数值型结果；当输入一组向量，经过Model预测后有三种可能的输出，第一种输出是一个分类结果/数值型结果，第二种输出是每个向量输出一个分类结果/数值型结果（有多少个输入向量，就有多少个分类结果），第三种输出是多种分类结果/数值型结果（输入向量个数和输出分类结果个数不相同），例如句子"I saw a saw (我看到了一个锯子)"中判断"saw"的词性，第一个是动词，第二个是名词，如果没有上下文，很难判断"saw"的词性。

问：哪些应用场景会有一组向量的输入呢？
答：
（1）一段文字：

（2）一段语音：

（3）social network：

(4) 药物发现：

2 方法介绍

问：如何利用输入的一组向量a1a^1a1，a2a^2a2，a3a^3a3，a4a^4a4，得到输出b1b^1b1，b2b^2b2，b3b^3b3，b4b^4b4？
答：首先通过目标向量a1a^1a1，找到关联的a2a^2a2，a3a^3a3，a4a^4a4；然后只要知道怎么计算出b1b^1b1，就同理知道b2b^2b2，b3b^3b3，b4b^4b4计算了。

问：如何得到注意力分数？
答：这个模块是自注意力机制的核心模块。
上图介绍了两种方法来计算注意力分数。
左边方法为：用一个矩阵WqW^qWq乘上左边的向量得到一个向量qqq，再用另外一个矩阵WkW^kWk乘上左右边的向量得到向量kkk；注意力分数α=q⋅k\alpha = q \cdot kα=q⋅k。
右边方法为：用一个矩阵WqW^qWq乘上左边的向量得到一个向量qqq，再用另外一个矩阵WkW^kWk乘上左右边的向量得到向量kkk；注意力分数α=Wtanh⁡(q+k)\alpha = W \tanh (q + k)α=Wtanh(q+k)。
李老师在本次课程采用的是左边的方法。

query： q1=Wqa1q^1 = W^q a^1q1=Wqa1（备注：transform）
key：k2=Wka2k^2 = W^k a^2k2=Wka2（备注：transform）
attention score：α1,2=q1⋅k2\alpha_{1,2} = q^1 \cdot k^2α1,2=q1⋅k2

Soft-max：α1,i′=exp⁡(α1,i)∑jexp⁡(α1,j)\alpha_{1,i}^{'} = \frac{\exp(\alpha_{1,i})}{\sum_j \exp(\alpha_{1,j})}α1,i′=∑jexp(α1,j)exp(α1,i)

自注意力机制Self-attention（1）相关推荐

深入理解注意力机制（Attention Mechanism）和Seq2Seq
学习本部分默认大家对RNN神经网络已经深入理解了,这是基础,同时理解什么是时间序列,尤其RNN的常用展开形式进行画图,这个必须理解了. 这篇文章整理有关注意力机制(Attention Mechanis ...
注意力机制（Attention Mechanism）-ECANet
引言神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案.在神经网络学习中,一般而言模型的参 ...
在RNN模型中引入注意力机制（Attention）
此前的文章介绍过Seq2seq模型,并将其用于机器翻译.Seq2seq模型的一个问题在于随着输入句子越来越长,更早输入的单词就很大可能会被忘掉.于是,随着输入句子中单词数变多,翻译质量就会很快劣化.改 ...
注意力机制（Attention Mechanism）-SENet
引言神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案.在神经网络学习中,一般而言模型的参 ...
深入理解深度学习——注意力机制（Attention Mechanism）：带掩码的多头注意力（Masked Multi-head Attention）
分类目录:<深入理解深度学习>总目录相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...
深入理解深度学习——注意力机制（Attention Mechanism）：注意力评分函数（Attention Scoring Function）
分类目录:<深入理解深度学习>总目录相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...
注意力机制～Attention Mechanism
目录背景 1. Attention Function 2. Scaled Dot-Product Attention 3. Multi-attention --> Q, K=V 4. self ...
深度学习【注意力机制（Attention）原理和实现】
文章目录一 Attention的原理和实现 1. Attention的介绍 2. Attenion的实现机制 2.1 Attention的实现过程 2.2 不同Attention的介绍 2.2.1 ...
注意力机制（Attention）
注意力机制分类包括软注意力机制(Soft Attention)和硬注意力机制(Hard Attention). 硬注意力机制指随机选择某个信息作为需要注意的目标,是一个随机过程,不方便用梯度反向传播 ...
注意力机制（attention)学习记录（二）
前面曾经记录过注意力机制的学习过程,今天则是在学习的过程中对其有了其他的理解,便将其记录下来. Attention Model 概述深度学习里的Attention model其实模拟的是人脑的注意力 ...

最新文章

热门文章