注意力机制与外部记忆

引言
注意力
注意力机制
- 注意力机制的变体
- - 硬性注意力
  - 键值对注意力
  - 多头注意力
  - 小结
  - 指针网络
自注意力模型
人脑中的记忆
记忆增强神经网络
- 端到端的记忆网络
- 神经图灵机
基于神经动力学的联想记忆
- Hopfield网络
总结

神经网络的能力 通用近似原理{前馈神经网络 → \rightarrow → 循环神经网络：有界区间连续函数 → \rightarrow → 非线性动力系统}，然而 优化算法和计算力限制 实践中很难达到通用近似的能力（泛化）

减少计算复杂度：局部连接、权重共享、汇聚操作 {卷积神经网络开始引入}来简化神经网络结构

依然希望在不“过度”增加模型复杂度（主要是模型参数）的情况下来提高模型的表达能力

引言

以有限的算力来应对相对复杂的模型的解决方案

就视觉来说，眼睛每秒钟都会发送千万比特的信息给视觉神经系统．人脑在有限的资源下，并不能同时处理这些过载的输入信息．大脑神经系统有两个重要机制可以解决信息过载问题：注意力和记忆机制．

我们可以借鉴人脑解决信息过载的机制，从两方面来提高神经网络处理信息的能力．

一方面是注意力，通过 自上而下的信息选择机制 来过滤掉大量的无关信息；
另一方面是引入额外的外部记忆， 优化神经网络的记忆结构来提高神经网络存储信息的容量．

注意力

人脑可以有意或无意地从这些大量输入信息中选择小部分的有用信息来重点处理，并忽略其他信息．这种能力就叫作注意力（Attention）

注意力一般分为两种：

自上而下的有意识的注意力，称为聚焦式注意力（Focus Attention）．聚焦式注意力也常称为选择性注意力（Selective Attention）．聚焦式注意力是指有预定目的、依赖任务的，主动有意识地聚焦于某一对象的注意力．
自下而上的无意识的注意力，称为 基于显著性 的注意（Saliency Based Attention）．基于显著性的注意力是 由外界刺激驱动的注意 ，不需要主动干预，也和任务无关

鸡尾酒会效应:
当一个人在吵闹的鸡尾酒会上和朋友聊天时，尽管周围噪音干扰很多，他还是可以听到朋友的谈话内容，而忽略其他人的声音（聚焦式注意力）．同时，如果背景声中有重要的词（比如他的名字），他会马上注意到（显著性注意力）．

聚焦式注意力一般会随着环境、情景或任务的不同而选择不同的信息．

比如当要从人群中寻找某个人时，我们会专注于每个人的脸部；而当要统计人群的人数时，我们只需要专注于每个人的轮廓．

基于显著性的注意力：最大汇聚、门控机制

以下主要考虑自上而下的有意识的注意力，称为聚焦式注意力 \tiny{以下主要考虑自上而下的有意识的注意力，称为聚焦式注意力} 以下主要考虑自上而下的有意识的注意力，称为聚焦式注意力

注意力机制

在计算能力有限的情况下，注意力机制（Attention Mechanism）作为一种
资源分配方案， 将有限的计算资源用来处理更重要的信息，是解决信息超载问题的主要手段．

Query-Key-Value

用 X = [ x 1 , . . . , x N ] ∈ R D × N X=[x_1,...,x_N]\in R^{D\times N} X=[x1,...,xN]∈RD×N 表示 N N N 组输入信息，其中 D D D 维向量 x n ∈ R D , n ∈ [ 1 , N ] x_n\in R^D,\enspace n\in[1,N] xn∈RD,n∈[1,N] 表示一组输入信息．
为了节省计算资源，不需要将所有信息都输入神经网络，只需要从 X X X 中选择一些和任务相关的信息 选出 ! ! ! \tiny{选出!!!} 选出!!!．

注意力机制的计算可以分为两步：

在所有输入信息上计算注意力分布， okay
根据注意力分布来计算输入信息的加权平均．

注意力分布 为了从 N N N 个输入向量 [ x 1 , . . . , x N ] [x_1,...,x_N] [x1,...,xN] 中选择出和某个特定任务相关的信息，我们需要引入一个和任务相关的表示，称为查询向量（Query Vector），并通过一个打分函数来计算每个输入向量和查询向量之间的相关性．

注意力分布–概率计算：给定一个和任务相关的查询向量 q q q,我们用注意力变量 z ∈ [ 1 , N ] z\in[1,N] z∈[1,N] 来表示被选择信息的索引位置．
为了方便计算，我们采用一种“软性”的信息选择机制．首先计算在给定 q q q 和 X X X 下，选择第 i 个输入向量的概率 α n \alpha_n αn，

α n = p ( z = n ∣ X , q ) = s o f t m a x ( s ( x n , q ) ) = e x p ( s ( x n , q ) ) ∑ j = 1 N e x p ( s ( x j , q ) ) \begin{aligned} \alpha_n &= p(z=n \vert X,q)\\ &= softmax(s(x_n,q))\\ &= \frac{exp(s(x_n,q))} {\sum_{j=1}^{N}{exp(s(x_j,q))}} \end{aligned} αn=p(z=n∣X,q)=softmax(s(xn,q))=∑j=1Nexp(s(xj,q))exp(s(xn,q))

s ( x , q ) \mathbf{s(x,q)} s(x,q) 为注意力打分函数

注意力打分函数

Model	Info	comprehension
加性模型	s ( x , q ) = v T tanh ⁡ ( W x + U q ) \mathbf{s(x,q)}=v^T\tanh(Wx+Uq) s(x,q)=vTtanh(Wx+Uq)	加性模型和点积模型的复杂度差不多
点积模型	s ( x , q ) = x T q \mathbf{s(x,q)}=x^Tq s(x,q)=xTq	更好地利用矩阵乘积，从而计算效率更高．
缩放点积模型	s ( x , q ) = x T q D \mathbf{s(x,q)}=\frac {x^Tq} {\sqrt{D}} s(x,q)=D xTq	当输入向量的维度 D D D 比较高时，点积模型的值通常有比较大的方差，从而导致Softmax函数的梯度会比较小．因此，缩放点积模型可以较好地解决这个问题．
双线性模型	s ( x , q ) = x T W q \mathbf{s(x,q)}=x^TWq s(x,q)=xTWq	双线性模型是一种泛化的点积模型． W = U T V W=U^TV W=UTV ，双线性模型可以写为 s ( x , q ) = x T U T V q = ( U x ) T ( V q ) \mathbf{s(x,q)}=x^TU^TVq={(Ux)}^T(Vq) s(x,q)=xTUTVq=(Ux)T(Vq)，即分别对 x x x 和 q q q 进行线性变换后计算点积．相比点积模型，双线性模型在计算相似度时引入了非对称性．

其中 W , U , v W,U,v W,U,v 为可学习的参数训练调参、优化 \tiny{训练调参、优化} 训练调参、优化， D D D 为输入向量的维度

加权平均 注意力分布 α n \alpha_n αn 可以解释为在给定任务相关的查询

注意力机制与外部记忆相关推荐

《神经网络与深度学习》-注意力机制与外部记忆
注意力机制与外部记忆 1. 认知神经学中的注意力 2. 注意力机制 2.1 注意力机制的变体 2.1.1 硬性注意力 2.1.2 键值对注意力 2.1.3 多头注意力 2.1.4 结构化注意力 2.1 ...
第八章注意力机制与外部记忆
第八章注意力机制与外部记忆第八章注意力机制与外部记忆注意力认知神经学中的注意力人工神经网络中的注意力机制注意力机制的变体硬性注意力键值对注意力多头注意力结构化注意力注意力机制的 ...
神经网络中的注意力机制与外部记忆
神经网络中的注意力机制与外部记忆文章目录神经网络中的注意力机制与外部记忆什么是注意力神经网络中的注意力机制注意力机制的实现注意力机制模型简易理解注意力分布注意力机制的软硬模式自注意力 ...
第8章注意力机制与外部记忆
系列文章目录第1章绪论第2章机器学习概述第3章线性模型第4章前馈神经网络第5章卷积神经网络第6章循环神经网络第7章网络优化与正则化第8章注意力机制与外部记忆第9章无 ...
第8章、注意力机制与外部记忆
神经网络中可以存储的信息量称为网络容量(Network Capacity).一般来讲,利用一组神经元来存储信息时,其存储容量和神经元的数量以及网络的复杂度成正比.要存储的信息越多,神经元数量就要越多或 ...
深度学习：注意力机制与外部记忆
前言神经网络中可以存储的信息量称为网络容量(Network Capacity). 一般来讲,其存储容量和神经元的数量以及网络的复杂度成正比. 如果要存储越多的信息,神经元数量就要越多或者网络要越复杂 ...
（2022，MoCA）Few-shot 图像生成的原型记忆（Prototype Memory）和注意力机制
Prototype Memory and Attention Mechanisms for Few Shot Image Generation 公众号:EDPJ 目录 0. 摘要 1. 简介 2. 相 ...
Deepmind讲座:深度学习中的记忆和注意力注意力机制发展史与详解
DeepMind x UCL | Deep Learning Lectures | 8/12 | Attention and Memory in Deep Learning(机翻讲稿) 图片外链失效, ...
基于注意力机制的双向长短期记忆网络的关系分类
Attention-Based Bidirectional Long Short-Term Memory Networks forRelation Classification 论文来源:https: ...

注意力机制与外部记忆

引言

注意力

注意力机制

注意力机制与外部记忆相关推荐

最新文章

热门文章