• 引言
  • 注意力
  • 注意力机制
    • 注意力机制的变体
      • 硬性注意力
      • 键值对注意力
      • 多头注意力
      • 小结
      • 指针网络
  • 自注意力模型
  • 人脑中的记忆
  • 记忆增强神经网络
    • 端到端的记忆网络
    • 神经图灵机
  • 基于神经动力学的联想记忆
    • Hopfield网络
  • 总结

神经网络的能力 通用近似原理{前馈神经网络 → \rightarrow → 循环神经网络:有界区间连续函数 → \rightarrow → 非线性动力系统}, 然而 优化算法和计算力限制 实践中很难达到通用近似的能力 (泛化)

减少计算复杂度:局部连接、权重共享、汇聚操作 {卷积神经网络开始引入}来简化神经网络结构

依然希望在不“过度”增加模型复杂度(主要是模型参数)的情况下来提高模型的表达能力

引言

以有限的算力来应对相对复杂的模型的解决方案

就视觉来说,眼睛每秒钟都会发送千万比特的信息给视觉神经系统.人脑在有限的资源下,并不能同时处理这些过载的输入信息.大脑神经系统有两个重要机制可以解决信息过载问题:注意力记忆机制.

我们可以借鉴人脑解决信息过载的机制,从两方面来提高神经网络处理信息的能力.

  • 一方面是注意力,通过 自上而下的信息选择机制 来过滤掉大量的无关信息;
  • 另一方面是引入额外的外部记忆, 优化神经网络的记忆结构来提高神经网络存储信息的容量.

注意力

人脑可以有意或无意地从这些大量输入信息中选择小部分的有用信息来重点处理,并忽略其他信息.这种能力就叫作注意力(Attention)

注意力一般分为两种:

  1. 自上而下的有意识的注意力,称为聚焦式注意力(Focus Attention). 聚焦式注意力也常称为选择性注意力(Selective Attention). 聚焦式注意力是指有预定目的、依赖任务的,主动有意识地聚焦于某一对象的注意力.
  2. 自下而上的无意识的注意力,称为 基于显著性 的注意(Saliency Based Attention).基于显著性的注意力是 由外界刺激驱动的注意 ,不需要主动干预,也和任务无关

鸡尾酒会效应:
当一个人在吵闹的鸡尾酒会上和朋友聊天时,尽管周围噪音干扰很多,他还是可以听到朋友的谈话内容,而忽略其他人的声音(聚焦式注意力).同时,如果背景声中有重要的词(比如他的名字),他会马上注意到(显著性注意力).

聚焦式注意力一般会随着环境、情景或任务的不同而选择不同的信息.

比如当要从人群中寻找某个人时,我们会专注于每个人的脸部;而当要统计人群的人数时,我们只需要专注于每个人的轮廓.

基于显著性的注意力:最大汇聚、门控机制

以 下 主 要 考 虑 自 上 而 下 的 有 意 识 的 注 意 力 , 称 为 聚 焦 式 注 意 力 \tiny{以下主要考虑自上而下的有意识的注意力,称为聚焦式注意力} 以下主要考虑自上而下的有意识的注意力,称为聚焦式注意力

注意力机制

在计算能力有限的情况下,注意力机制(Attention Mechanism)作为一种
资源分配方案, 将有限的计算资源用来处理更重要的信息,是解决信息超载问题的主要手段.

Query-Key-Value

用 X = [ x 1 , . . . , x N ] ∈ R D × N X=[x_1,...,x_N]\in R^{D\times N} X=[x1​,...,xN​]∈RD×N 表示 N N N 组输入信息,其中 D D D 维向量 x n ∈ R D , n ∈ [ 1 , N ] x_n\in R^D,\enspace n\in[1,N] xn​∈RD,n∈[1,N] 表示一组输入信息.
为了节省计算资源,不需要将所有信息都输入神经网络,只需要从 X X X 中选择一些和任务相关的信息 选 出 ! ! ! \tiny{选出!!!} 选出!!!.

注意力机制的计算可以分为两步:

  1. 在所有输入信息上计算注意力分布, okay
  2. 根据注意力分布来计算输入信息的加权平均.

注意力分布 为了从 N N N 个输入向量 [ x 1 , . . . , x N ] [x_1,...,x_N] [x1​,...,xN​] 中选择出和某个特定任务相关的信息,我们需要引入一个和任务相关的表示,称为查询向量(Query Vector),并通过一个打分函数来计算每个输入向量和查询向量之间的相关性

注意力分布–概率计算:给定一个和任务相关的查询向量 q q q,我们用注意力变量 z ∈ [ 1 , N ] z\in[1,N] z∈[1,N] 来表示被选择信息的索引位置.
为了方便计算,我们采用一种“软性”的信息选择机制.首先计算在给定 q q q 和 X X X 下,选择第 i 个输入向量的概率 α n \alpha_n αn​,

α n = p ( z = n ∣ X , q ) = s o f t m a x ( s ( x n , q ) ) = e x p ( s ( x n , q ) ) ∑ j = 1 N e x p ( s ( x j , q ) ) \begin{aligned} \alpha_n &= p(z=n \vert X,q)\\ &= softmax(s(x_n,q))\\ &= \frac{exp(s(x_n,q))} {\sum_{j=1}^{N}{exp(s(x_j,q))}} \end{aligned} αn​​=p(z=n∣X,q)=softmax(s(xn​,q))=∑j=1N​exp(s(xj​,q))exp(s(xn​,q))​​

s ( x , q ) \mathbf{s(x,q)} s(x,q) 为注意力打分函数

注意力打分函数

Model Info comprehension
加性模型 s ( x , q ) = v T tanh ⁡ ( W x + U q ) \mathbf{s(x,q)}=v^T\tanh(Wx+Uq) s(x,q)=vTtanh(Wx+Uq) 加性模型和点积模型的复杂度差不多
点积模型 s ( x , q ) = x T q \mathbf{s(x,q)}=x^Tq s(x,q)=xTq 更好地利用矩阵乘积,从而计算效率更高.
缩放点积模型 s ( x , q ) = x T q D \mathbf{s(x,q)}=\frac {x^Tq} {\sqrt{D}} s(x,q)=D ​xTq​ 当输入向量的维度 D D D 比较高时, 点积模型的值通常有比较大的方差,从而导致Softmax函数的梯度会比较小.因此,缩放点积模型可以较好地解决这个问题.
双线性模型 s ( x , q ) = x T W q \mathbf{s(x,q)}=x^TWq s(x,q)=xTWq 双线性模型是一种 泛化的点积模型 . W = U T V W=U^TV W=UTV ,双线性模型可以写为 s ( x , q ) = x T U T V q = ( U x ) T ( V q ) \mathbf{s(x,q)}=x^TU^TVq={(Ux)}^T(Vq) s(x,q)=xTUTVq=(Ux)T(Vq),即分别对 x x x 和 q q q 进行线性变换后计算点积.相比点积模型,双线性模型在计算相似度时 引入了非对称性.

其中 W , U , v W,U,v W,U,v 为可学习的参数 训 练 调 参 、 优 化 \tiny{训练调参、优化} 训练调参、优化, D D D 为输入向量的维度

加权平均 注意力分布 α n \alpha_n αn​ 可以解释为在给定任务相关的查询

注意力机制与外部记忆相关推荐

  1. 《神经网络与深度学习》-注意力机制与外部记忆

    注意力机制与外部记忆 1. 认知神经学中的注意力 2. 注意力机制 2.1 注意力机制的变体 2.1.1 硬性注意力 2.1.2 键值对注意力 2.1.3 多头注意力 2.1.4 结构化注意力 2.1 ...

  2. 第八章 注意力机制与外部记忆

    第八章 注意力机制与外部记忆 第八章 注意力机制与外部记忆 注意力 认知神经学中的注意力 人工神经网络中的注意力机制 注意力机制的变体 硬性注意力 键值对注意力 多头注意力 结构化注意力 注意力机制的 ...

  3. 神经网络中的注意力机制与外部记忆

    神经网络中的注意力机制与外部记忆 文章目录 神经网络中的注意力机制与外部记忆 什么是注意力 神经网络中的注意力机制 注意力机制的实现 注意力机制模型简易理解 注意力分布 注意力机制的软硬模式 自注意力 ...

  4. 第8章 注意力机制与外部记忆

    系列文章目录 第1章 绪论 第2章 机器学习概述 第3章 线性模型 第4章 前馈神经网络 第5章 卷积神经网络 第6章 循环神经网络 第7章 网络优化与正则化 第8章 注意力机制与外部记忆 第9章 无 ...

  5. 第8章、注意力机制与外部记忆

    神经网络中可以存储的信息量称为网络容量(Network Capacity).一般来讲,利用一组神经元来存储信息时,其存储容量和神经元的数量以及网络的复杂度成正比.要存储的信息越多,神经元数量就要越多或 ...

  6. 深度学习:注意力机制与外部记忆

    前言 神经网络中可以存储的信息量称为网络容量(Network Capacity). 一般来讲,其存储容量和神经元的数量以及网络的复杂度成正比. 如果要存储越多的信息,神经元数量就要越多或者网络要越复杂 ...

  7. (2022,MoCA)Few-shot 图像生成的原型记忆(Prototype Memory)和注意力机制

    Prototype Memory and Attention Mechanisms for Few Shot Image Generation 公众号:EDPJ 目录 0. 摘要 1. 简介 2. 相 ...

  8. Deepmind讲座:深度学习中的记忆和注意力 注意力机制发展史与详解

    DeepMind x UCL | Deep Learning Lectures | 8/12 | Attention and Memory in Deep Learning(机翻讲稿) 图片外链失效, ...

  9. 基于注意力机制的双向长短期记忆网络的关系分类

    Attention-Based Bidirectional Long Short-Term Memory Networks forRelation Classification 论文来源:https: ...

最新文章

  1. 10 个最值得 Python 新人练手的有趣项目
  2. 哥德尔90年前的「不完备性定理」,奠定了计算机与AI的理论基础
  3. centos和ubuntu安装卸载软件(rpm/dpkg)
  4. WIN7建立网络映射磁盘
  5. PAT甲级1041 Be Unique :[C++题解]模拟、哈希表
  6. vue3.x案例 购物车
  7. 合肥工业大学计算机与信息学院学生会宗旨,计算机与信息学院举办第一期“AIE计划”实验室招新宣讲会...
  8. 多表查询中的一些概念
  9. kcbzps oracle_Oracle 11g DRCP配置与使用(上)
  10. 编写高质量代码的50条黄金守则-Day 03(首选is或as而不是强制类型转换)
  11. google地图 反向地址解析(地址查询)
  12. 《交互式程序设计 第2版》一2.2 代码的本质
  13. groovy学习(四)io
  14. 富斯FS_I6六通道遥控器玩转APM飞控失控保护
  15. java实现同步的几种方式(总结)
  16. 【推荐】智慧数字城管执法综合应用平台可视化系统建设架构解决方案合集(共202份,920M)
  17. uni-app表情包实现
  18. 经纬度转换 gcj02转wgs84
  19. iphone通过iTunes12.7怎么设置铃声
  20. iPhone下mp4视频无法播放和部分手机只有声音没有画面

热门文章

  1. android大版本ota,Android OTA升级新旧版本任意升级
  2. 考研路上的那些一战二战三战成功与失败的故事系列之十一
  3. 联想新计算机开机黑屏,win10联想笔记本电脑开机黑屏进不去系统怎么办
  4. db2 快速清空表数据
  5. windows无法打开chm帮助文件的问题
  6. msys2 vscode go 环境搭建
  7. 聚力优创:拼多多可以拒绝退款吗?
  8. 有它裸睡都不怕!不到2毛钱的神器,只需要轻轻一放99%的螨虫轻松去除!
  9. 3·8 妇女节特别策划 | 对话开源社里的“半边天”:多彩的她们,有别样的力量~...
  10. 基于ARM架构的柔性塑料芯片诞生了