目录:
自注意力机制Self-attention(1)
自注意力机制Self-attention(2)

本文是对李宏毅老师的课程进行了整理。
视频地址为:
https://www.bilibili.com/video/BV1Wv411h7kN?p=23

1 问题引入


问:为什么要引入自注意力机制?
答:输入一个向量,经过Model预测后得到一个分类结果/数值型结果;当输入一组向量,经过Model预测后有三种可能的输出,第一种输出是一个分类结果/数值型结果,第二种输出是每个向量输出一个分类结果/数值型结果(有多少个输入向量,就有多少个分类结果),第三种输出是多种分类结果/数值型结果(输入向量个数和输出分类结果个数不相同),例如句子"I saw a saw (我看到了一个锯子)"中判断"saw"的词性,第一个是动词,第二个是名词,如果没有上下文,很难判断"saw"的词性。

问:哪些应用场景会有一组向量的输入呢?
答:
(1)一段文字:

(2)一段语音:

(3)social network:

(4) 药物发现:

2 方法介绍


问:如何利用输入的一组向量a1a^1a1,a2a^2a2,a3a^3a3,a4a^4a4,得到输出b1b^1b1,b2b^2b2,b3b^3b3,b4b^4b4?
答:首先通过目标向量a1a^1a1,找到关联的a2a^2a2,a3a^3a3,a4a^4a4;然后只要知道怎么计算出b1b^1b1,就同理知道b2b^2b2,b3b^3b3,b4b^4b4计算了。

问:如何得到注意力分数?
答:这个模块是自注意力机制的核心模块。
上图介绍了两种方法来计算注意力分数。
左边方法为:用一个矩阵WqW^qWq乘上左边的向量得到一个向量qqq,再用另外一个矩阵WkW^kWk乘上左右边的向量得到向量kkk;注意力分数α=q⋅k\alpha = q \cdot kα=q⋅k。
右边方法为:用一个矩阵WqW^qWq乘上左边的向量得到一个向量qqq,再用另外一个矩阵WkW^kWk乘上左右边的向量得到向量kkk;注意力分数α=Wtanh⁡(q+k)\alpha = W \tanh (q + k)α=Wtanh(q+k)。
李老师在本次课程采用的是左边的方法。

query: q1=Wqa1q^1 = W^q a^1q1=Wqa1(备注:transform)
key:k2=Wka2k^2 = W^k a^2k2=Wka2(备注:transform)
attention score:α1,2=q1⋅k2\alpha_{1,2} = q^1 \cdot k^2α1,2​=q1⋅k2

Soft-max:α1,i′=exp⁡(α1,i)∑jexp⁡(α1,j)\alpha_{1,i}^{'} = \frac{\exp(\alpha_{1,i})}{\sum_j \exp(\alpha_{1,j})}α1,i′​=∑j​exp(α1,j​)exp(α1,i​)​

自注意力机制Self-attention(1)相关推荐

  1. 深入理解注意力机制(Attention Mechanism)和Seq2Seq

    学习本部分默认大家对RNN神经网络已经深入理解了,这是基础,同时理解什么是时间序列,尤其RNN的常用展开形式进行画图,这个必须理解了. 这篇文章整理有关注意力机制(Attention Mechanis ...

  2. 注意力机制(Attention Mechanism)-ECANet

    引言 神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案.在神经网络学习中,一般而言模型的参 ...

  3. 在RNN模型中引入注意力机制(Attention)

    此前的文章介绍过Seq2seq模型,并将其用于机器翻译.Seq2seq模型的一个问题在于随着输入句子越来越长,更早输入的单词就很大可能会被忘掉.于是,随着输入句子中单词数变多,翻译质量就会很快劣化.改 ...

  4. 注意力机制(Attention Mechanism)-SENet

    引言 神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案.在神经网络学习中,一般而言模型的参 ...

  5. 深入理解深度学习——注意力机制(Attention Mechanism):带掩码的多头注意力(Masked Multi-head Attention)

    分类目录:<深入理解深度学习>总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...

  6. 深入理解深度学习——注意力机制(Attention Mechanism):注意力评分函数(Attention Scoring Function)

    分类目录:<深入理解深度学习>总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...

  7. 注意力机制~Attention Mechanism

    目录 背景 1. Attention Function 2. Scaled Dot-Product Attention 3. Multi-attention --> Q, K=V 4. self ...

  8. 深度学习【注意力机制(Attention)原理和实现】

    文章目录 一 Attention的原理和实现 1. Attention的介绍 2. Attenion的实现机制 2.1 Attention的实现过程 2.2 不同Attention的介绍 2.2.1 ...

  9. 注意力机制(Attention)

    注意力机制分类 包括软注意力机制(Soft Attention)和硬注意力机制(Hard Attention). 硬注意力机制指随机选择某个信息作为需要注意的目标,是一个随机过程,不方便用梯度反向传播 ...

  10. 注意力机制(attention)学习记录(二)

    前面曾经记录过注意力机制的学习过程,今天则是在学习的过程中对其有了其他的理解,便将其记录下来. Attention Model 概述 深度学习里的Attention model其实模拟的是人脑的注意力 ...

最新文章

  1. 汇编语言--寄存器(cpu工作原理)
  2. 【Linux】1.shell各个命令
  3. python怎么输出结果_python中打印输出date信息
  4. weblogic线程阻塞性能调优(图解)转
  5. Secondary NameNode:它究竟有什么作用?(转自:http://blog.csdn.net/xh16319/article/details/31375197)
  6. Spring是如何校验XML的
  7. 传递数组到 Shader
  8. [Unity脚本运行时更新]C#5新特性
  9. 用JS实现的常见几种排序算法
  10. tcpdf最新版 6.2版
  11. Vijos P1911 珠心算测验【序列处理】
  12. dojo省份地市级联之地市Dao接口类(四)
  13. 【算法基础三】算法如何入门?零基础入门算法应该学些什么?
  14. 曼德博集合|最直观的数学之美——用Python看到“上帝的指纹”
  15. 关于eclipse发送桌面快捷方式后打不开的问题
  16. RIFT Multi-Modal Image Matching Based on Radiation-Variation Insensitive Feature Transform
  17. 悠哈牛奶糖为什么有五种味道单独装的,而不是混合装的
  18. 没有iphone上架appstore怎么截屏
  19. Kerberos (一) --------- Kerberos 部署
  20. IBM服务器端口IP设置

热门文章

  1. NSOperationQueue简介
  2. Objective-c格式化输出格式
  3. php 去年年初和年底时间,PHP 日期与时间
  4. jq 通过标签名称获取标签_如何快速通过今日头条原创标签的审核?
  5. JAVA进阶开发之(String字符串的存储原理)
  6. 群晖 root_最新群晖DSM7.0降级教程
  7. oracle (+)的可读性,Oracle基础笔记一
  8. 宇宙人工智能计算机程序,由人工智能推理出:整个宇宙会变成一个玄计算机,宇宙是虚拟的...
  9. 【LeetCode笔记】406. 根据身高重建队列(Java、偏数学)
  10. 【学习笔记】MOOC 数学文化赏析 笔记【补档】