self-attention

attention 机制主要是为了解决在一句话中让机器学会和人类一样有关注的重点。

那么，在NLP中，Attention机制是什么呢？从直觉上来说，与人类的注意力分配过程类似，就是在信息处理过程中，对不同的内容分配不同的注意力权重。下面我们详细看看，在自然语言处理中，注意力机制是怎么实现的。
https://mp.weixin.qq.com/s/_rP-0WgqRCyKq5toXLCEvw

RNN hard to parallel
using CNN to replace RNN
self-attention layer

attention is all you need

在计算attention时主要分为三步，
第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；
然后第二步一般是使用一个softmax函数对这些权重进行归一化；
最后将权重和相应的键值value进行加权求和得到最后的attention。
目前在NLP研究中，key和value常常都是同一个，即key=value。
Q K V R如何计算的
然后使用 q和k 去计算得到a 然后使用softmax计算得到a冒，然后再与每个v计算得到b
下面是矩阵如何计算的，

矩阵计算部分，对于q k v 计算是根据分别的W 和a的相乘计算得到数据。

a 计算中 k是有个转置，然后才能与q相乘，得到a

如上图所示， A通过softmax 得到A 冒。。

V 与A相乘得到O 即为输出O

总结一下，就是如上图所示，I （一大锥a）与Wq 等相乘得到 Q K V ,
Q与K相乘得到 A 再softmax 得到A冒， V再与A冒相乘得到输出O 也是一大锥 b

其中每个都是自己和自己的计算，和其他没有太大关系。
多head 计算中，就是每个head 可能计算关注点不一样所看的不一样

把位置信息加进去，在原来Xi
后面加入一个Pi
Wp 如图所示

add 就是把a和b作合
feed forward 就是多做处理

if you can use seq2seq , you can use transformer

深度方向上用 RNN

https://blog.csdn.net/luoxiaolin_love/article/details/82258069

3.《Attention Is All You Need》

self-attention相关推荐

attention seq2seq transformer bert 学习总结 _20201107
https://blog.csdn.net/weixin_44388679/article/details/102575223 Seq2Seq原理详解一文读懂BERT(原理篇) 2018年的10月1 ...
“Attention is All You Need 翻译
<p><img src="output_0_0.png" alt="png"></p> "Attention is ...
《attention is all you need》解读
Motivation: 靠attention机制,不使用rnn和cnn,并行度高通过attention,抓长距离依赖关系比rnn强创新点: 通过self-attention,自己和自己做atten ...
浅谈Transformer 及Attention网络
1 Transformer 模型结构处理自然语言序列的模型有 rnn, cnn(textcnn),但是现在介绍一种新的模型,transformer.与RNN不同的是,Transformer直接把一句 ...
Attention is all your need 谷歌的超强特征提取网络——Transformer
过年放了七天假,每年第一件事就是立一个flag--希望今年除了能够将技术学扎实之外,还希望能够将所学能够用来造福社会,好像flag立得有点大了.没关系,套用一句电影台词为自己开脱一下--人没有梦想,和 ...
《Attention is All You Need》浅读（简介+代码）
2017年中,有两篇类似同时也是笔者非常欣赏的论文,分别是FaceBook的<Convolutional Sequence to Sequence Learning>和Google的< ...
seq2seq与Attention机制
学习目标目标掌握seq2seq模型特点掌握集束搜索方式掌握BLEU评估方法掌握Attention机制应用应用Keras实现seq2seq对日期格式的翻译 4.3.1 seq2seq se ...
什么是self-attention、Multi-Head Attention、Transformer
本文紧接<什么是Encoder-Decoder.Seq2Seq.Attention?>,目的是从输入输出.以及内部数据流和详细的计算过程角度,去剖析self-attention.Multi ...
谷歌NIPS论文Transformer模型解读：只要Attention就够了
作者 | Sherwin Chen 译者 | Major,编辑 | 夕颜出品 | AI科技大本营(ID:rgznai100) 导读:在 NIPS 2017 上,谷歌的 Vaswani 等人提出了 T ...
图解 Attention（完整版）！
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货译者:张贤,哈尔滨工程大学,Datawhale原创作者本文约4000字 ...

self-attention

self-attention相关推荐

最新文章

热门文章