自注意力机制Self-attention(1)
目录:
自注意力机制Self-attention(1)
自注意力机制Self-attention(2)
本文是对李宏毅老师的课程进行了整理。
视频地址为:
https://www.bilibili.com/video/BV1Wv411h7kN?p=23
1 问题引入
问:为什么要引入自注意力机制?
答:输入一个向量,经过Model预测后得到一个分类结果/数值型结果;当输入一组向量,经过Model预测后有三种可能的输出,第一种输出是一个分类结果/数值型结果,第二种输出是每个向量输出一个分类结果/数值型结果(有多少个输入向量,就有多少个分类结果),第三种输出是多种分类结果/数值型结果(输入向量个数和输出分类结果个数不相同),例如句子"I saw a saw (我看到了一个锯子)"中判断"saw"的词性,第一个是动词,第二个是名词,如果没有上下文,很难判断"saw"的词性。
问:哪些应用场景会有一组向量的输入呢?
答:
(1)一段文字:
(2)一段语音:
(3)social network:
(4) 药物发现:
2 方法介绍
问:如何利用输入的一组向量a1a^1a1,a2a^2a2,a3a^3a3,a4a^4a4,得到输出b1b^1b1,b2b^2b2,b3b^3b3,b4b^4b4?
答:首先通过目标向量a1a^1a1,找到关联的a2a^2a2,a3a^3a3,a4a^4a4;然后只要知道怎么计算出b1b^1b1,就同理知道b2b^2b2,b3b^3b3,b4b^4b4计算了。
问:如何得到注意力分数?
答:这个模块是自注意力机制的核心模块。
上图介绍了两种方法来计算注意力分数。
左边方法为:用一个矩阵WqW^qWq乘上左边的向量得到一个向量qqq,再用另外一个矩阵WkW^kWk乘上左右边的向量得到向量kkk;注意力分数α=q⋅k\alpha = q \cdot kα=q⋅k。
右边方法为:用一个矩阵WqW^qWq乘上左边的向量得到一个向量qqq,再用另外一个矩阵WkW^kWk乘上左右边的向量得到向量kkk;注意力分数α=Wtanh(q+k)\alpha = W \tanh (q + k)α=Wtanh(q+k)。
李老师在本次课程采用的是左边的方法。
query: q1=Wqa1q^1 = W^q a^1q1=Wqa1(备注:transform)
key:k2=Wka2k^2 = W^k a^2k2=Wka2(备注:transform)
attention score:α1,2=q1⋅k2\alpha_{1,2} = q^1 \cdot k^2α1,2=q1⋅k2
Soft-max:α1,i′=exp(α1,i)∑jexp(α1,j)\alpha_{1,i}^{'} = \frac{\exp(\alpha_{1,i})}{\sum_j \exp(\alpha_{1,j})}α1,i′=∑jexp(α1,j)exp(α1,i)
自注意力机制Self-attention(1)相关推荐
- 深入理解注意力机制(Attention Mechanism)和Seq2Seq
学习本部分默认大家对RNN神经网络已经深入理解了,这是基础,同时理解什么是时间序列,尤其RNN的常用展开形式进行画图,这个必须理解了. 这篇文章整理有关注意力机制(Attention Mechanis ...
- 注意力机制(Attention Mechanism)-ECANet
引言 神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案.在神经网络学习中,一般而言模型的参 ...
- 在RNN模型中引入注意力机制(Attention)
此前的文章介绍过Seq2seq模型,并将其用于机器翻译.Seq2seq模型的一个问题在于随着输入句子越来越长,更早输入的单词就很大可能会被忘掉.于是,随着输入句子中单词数变多,翻译质量就会很快劣化.改 ...
- 注意力机制(Attention Mechanism)-SENet
引言 神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案.在神经网络学习中,一般而言模型的参 ...
- 深入理解深度学习——注意力机制(Attention Mechanism):带掩码的多头注意力(Masked Multi-head Attention)
分类目录:<深入理解深度学习>总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...
- 深入理解深度学习——注意力机制(Attention Mechanism):注意力评分函数(Attention Scoring Function)
分类目录:<深入理解深度学习>总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...
- 注意力机制~Attention Mechanism
目录 背景 1. Attention Function 2. Scaled Dot-Product Attention 3. Multi-attention --> Q, K=V 4. self ...
- 深度学习【注意力机制(Attention)原理和实现】
文章目录 一 Attention的原理和实现 1. Attention的介绍 2. Attenion的实现机制 2.1 Attention的实现过程 2.2 不同Attention的介绍 2.2.1 ...
- 注意力机制(Attention)
注意力机制分类 包括软注意力机制(Soft Attention)和硬注意力机制(Hard Attention). 硬注意力机制指随机选择某个信息作为需要注意的目标,是一个随机过程,不方便用梯度反向传播 ...
- 注意力机制(attention)学习记录(二)
前面曾经记录过注意力机制的学习过程,今天则是在学习的过程中对其有了其他的理解,便将其记录下来. Attention Model 概述 深度学习里的Attention model其实模拟的是人脑的注意力 ...
最新文章
- 汇编语言--寄存器(cpu工作原理)
- 【Linux】1.shell各个命令
- python怎么输出结果_python中打印输出date信息
- weblogic线程阻塞性能调优(图解)转
- Secondary NameNode:它究竟有什么作用?(转自:http://blog.csdn.net/xh16319/article/details/31375197)
- Spring是如何校验XML的
- 传递数组到 Shader
- [Unity脚本运行时更新]C#5新特性
- 用JS实现的常见几种排序算法
- tcpdf最新版 6.2版
- Vijos P1911 珠心算测验【序列处理】
- dojo省份地市级联之地市Dao接口类(四)
- 【算法基础三】算法如何入门?零基础入门算法应该学些什么?
- 曼德博集合|最直观的数学之美——用Python看到“上帝的指纹”
- 关于eclipse发送桌面快捷方式后打不开的问题
- RIFT Multi-Modal Image Matching Based on Radiation-Variation Insensitive Feature Transform
- 悠哈牛奶糖为什么有五种味道单独装的,而不是混合装的
- 没有iphone上架appstore怎么截屏
- Kerberos (一) --------- Kerberos 部署
- IBM服务器端口IP设置
热门文章
- NSOperationQueue简介
- Objective-c格式化输出格式
- php 去年年初和年底时间,PHP 日期与时间
- jq 通过标签名称获取标签_如何快速通过今日头条原创标签的审核?
- JAVA进阶开发之(String字符串的存储原理)
- 群晖 root_最新群晖DSM7.0降级教程
- oracle (+)的可读性,Oracle基础笔记一
- 宇宙人工智能计算机程序,由人工智能推理出:整个宇宙会变成一个玄计算机,宇宙是虚拟的...
- 【LeetCode笔记】406. 根据身高重建队列(Java、偏数学)
- 【学习笔记】MOOC 数学文化赏析 笔记【补档】