1 提出背景

针对attention model不能平行化，且忽略了输入句中文字间和目标句中文字间的关系，google在2017年《Attention is all you need》一文提出了Transformer模型。Transformer最大的特点就是完全抛弃了RNN、CNN架构。模型中主要的概念有2项：1. Self attention（代替RNN）：解决输入句中文字间和目标句中文字间的关系被忽略的问题
2. Multi-head：解決平行化和计算复杂度过高的问题

2 模型架构

transformer和Seq2seq模型皆包含2部分：Encoder和Decoder。不同的是，transformer中的Encoder是由6个Encoder堆积而成，Deocder亦然。

3 Attention model中的Decoder公式改写

用Query, Key, Value解释如何计算attention model中的语义向量

输入句中的每个文字是由一系列成对的 <地址Key, 元素Value>所构成，即word embedding vector
输出句中的每个文字是Query

4 Scaled Dot-Product Attention

transformer计算 attention score的方法和attention model如出一辙，但 transformer还要除上分母 $dk\sqrt{d_k}$

，目的是避免内积过大造成softmax的结果非0即1。

5 transformer计算attention的3种方式

Encoder中的self attention在计算时，key, value, query都是来自encoder前一层的输出，Decoder亦然。
为了避免在解码的时候，还在翻译前半段时，就突然翻译到后半段的句子，在计算decode self attention的softmax前先mask掉未来的位置(设定成-∞)，确保在预测位置i的时候只能根据i之前位置的输出
Encoder-Decoder Attention和Encoder/Decoder self attention不一样，它的Query来自于decoder self-attention，而Key、Value则是encoder的output。
从输入文字的序列给Encoder开始，Encoder的output会变成attention vectors的Key、Value，接着传送到encoder-decoder attention layer，帮助Decoder该将注意力摆在输入文字序列的哪个位置进行解码。

6 Multi-head attention

有趣的是，如果我们只计算一个attention，很难捕捉输入句中所有空间的讯息，为了优化模型，提出了Multi-head attention，概念是不要只用d_{model}维度的key, value, query计算一个attention，而是把key, value, query们线性投射到不同空间h次，分別变成维度d_{q}, d_{k} and d_{v}，再各自做attention，其中，d_{k}=d_{v}=d_{model}/h=64，概念就是投射到h个head上。

参考教程

Seq2seq pay Attention to Self Attention: Part 2(中文版)
https://medium.com/@bgg/seq2seq-pay-attention-to-self-attention-part-2-中文版-ef2ddf8597a4

【DL小结5】Transformer模型与self attention相关推荐

transformer 模型（self-attention自注意力）
transformer模型在<Attention is all you need>论文中提出这篇论文主要亮点在于:1)不同于以往主流机器翻译使用基于RNN的seq2seq模型框架,该论文 ...
谷歌NIPS论文Transformer模型解读：只要Attention就够了
作者 | Sherwin Chen 译者 | Major,编辑 | 夕颜出品 | AI科技大本营(ID:rgznai100) 导读:在 NIPS 2017 上,谷歌的 Vaswani 等人提出了 T ...
论文《Attention Is All You Need》及Transformer模型
目录 1. Introduction 2. 模型结构 2.1 Transformer模型 2.2 输入层 2.3 位置向量:给单词赋予上下文语境 2. ...
图解Transformer模型(Multi-Head Attention)
本文内容主要源于Attention is all you need: https://arxiv.org/abs/1706.03762 由于本人最近在研究文本的判别式模型,如文本分类任务,所以学习了T ...
Paper：Transformer模型起源—2017年的Google机器翻译团队—《Transformer：Attention Is All You Need》翻译并解读
Paper:Transformer模型起源-2017年的Google机器翻译团队-<Transformer:Attention Is All You Need>翻译并解读目录 <T ...
我们可以无损放大一个Transformer模型吗？
©PaperWeekly 原创 · 作者 | 苏剑林单位 | 追一科技研究方向 | NLP.神经网络看了标题,可能读者会有疑惑,大家不都想着将大模型缩小吗?怎么你想着将小模型放大了?其实背景是这 ...
可以这样理解视觉Transformer模型中patch交互的关系
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 01 研究问题随着计算机视觉领域的不断发展,基础视觉任务研究中受自然语言处理(NLP)的模型结构设计(Tr ...
深度学习原理学习小结 - Self-Attention/Transformer
文章目录深度学习原理学习小结 - Self-Attention/Transformer Self-Attention基本原理引入核心概念计算方法 Transformer基本原理知识补充编码 ...
熬了一晚上，我从零实现了Transformer模型，把代码讲给你听
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达作者丨伟大是熬出来的@知乎(已授权) 来源丨https://zhua ...
Transformer模型有多少种变体？复旦邱锡鹏教授团队做了全面综述
视学算法报道转载自:机器之心编辑:Liyuan.杜伟自提出至今,Transformer 模型已经在自然语言处理.计算机视觉以及其他更多领域「大展拳脚」,学界也提出了各种各样基于原始模型的变体.但 ...

【DL小结5】Transformer模型与self attention