transformer--变形金刚

bert就是无监督训练的transformer

transformer :seq2seq model with “self-attention”

单向的RNN:
在输出b⁴的时候，已经看了a¹~a⁴
在输出b³的时候，已经看了a¹~a³
双向的RNN:
在输出每一个bⁱ的时候，已经看了a¹~a⁴
RNN的优点：
可以考虑到长距离的依赖
RNN的缺点：
不能实现并行化

也可以用CNN来处理序列数据，图中每一个三角代表一个filter
CNN的优点：如果想要考虑长距离依赖，需要叠加多层filter
CNN的优点：可以实现并行运算（所有的黄色三角可以同时进行，黄色和橙色也可以同时进行）

计算attention的做法就是取两个向量qⁱ和k^j,得到一个向量α_ij，代表qⁱ和k^j的相似程度

soft-max 的作用：归一化处理

self-attention不仅可以考虑global information，还可以考虑local information. 如果要考虑local information 只要让α_ijhead为0，就可以不考虑它对应的V^j(α_ijhead和V^j的乘积为0)

self-attention做的事情和RNN是一样的，只是self-attention中 b¹~b⁴的计算可以同时进行，实现并行化

self-attention都是通过矩阵进行计算的

对A(A中的每一个元素都是input中两两position的attention)的每一个column做softmax得到 A head

最后O就是self-attention layer的输出

从矩阵的角度，self-attention layer做了什么
gpu可以加速矩阵乘法

每一个head的关注点不一样，各司其职
每两两input vector 做 attention, 每一个input vector 对其他input vector 都有“天涯若比邻”的效果，所以对于self-attention layer来说，不能感知到输入数据的序列。“A打了B”和“B打了A”对于self-attention来说是一样的。

在Xⁱ上concat一个pⁱ, pⁱ是独热编码，标志了Xⁱ在输入中的位置
W^p不是learn出来的（在learn的过程中发现效果不好），是人手设的，用公式推导出来的
W^p的样子，感觉很神奇，矩阵还可以用图显示出来

transformer是一个seq2seq model

用seq2seq的地方，都可以用transformer来取代

transformer--变形金刚相关推荐

H5+CSS3之变型
变型核心属性: transform transform 变型 transformer 变形金刚一个盒子可以携带多个变型,多个变型之间以空格分隔. 变型变的是坐标系,下一个变型是在上一个变型完成后, ...
C++结构型模式-装饰模式
1.1 基本概念装饰器模式(Decorator Pattern):动态地给一个对象增加一些额外的职责,就增加功能来说,装饰器比生成子类实现更为灵活. 装饰器可以在不改变对象本身的基础上给对象增加额外 ...
Transformer（“变形金刚”）
上一篇博客里面,我们讲解了self-attention机制.而self-attention机制最早是在"Attenion Is All Your Need"这篇论文中提出的.而se ...
Transformer讲解（三）- CV变形金刚-ViT知识介绍
VIT (Vision Transformer) 模型论文+代码从零详细解读,看不懂来打我_哔哩哔哩_bilibili公众号[NLP从入门到放弃]后台回复[VIT]获取对应的PPT和代码https:/ ...
transformer（”变形金刚“）
Background Transformer发明的背景是在循环神经网络业已成熟阶段,但是成熟的循环神经网络例如LSTM和RNNS等对于长文本的分析效果并不是很理想.当时已经将注意力机制引入了编码器-解 ...
transformer是什么变形金刚
transformer和bert有非常强烈的关系 transformer是什么呢就是句子到句子的转化的一个好用的模型model 输出的句子的长度由机器自己决定在语音识别中speech recogn ...
简单有趣的变形金刚网络（VIT） Vision Transformer（可以直接替换自己数据集）-直接放置自己的数据集就能直接跑（网络结构详解+详细注释代码+核心思想讲解）——pytorch实现
论文题目: An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale 原论文下载链接:https://arx ...
攻克 Transformer 之代码精讲+实战，以及《变形金刚》结构
Transformer模型完全基于注意力机制,没有任何卷积层或循环神经网络层.尽管transformer最初是应⽤于在⽂本数据上的序列到序列学习,但现在已经推广到各种现代的深度学习中,例如语⾔.视觉. ...
变形金刚——Transformer入门刨析详解
Transformer是什么呢? \qquadTransformer最早起源于论文Attention is all your need,是谷歌云TPU推荐的参考模型. \qquad目前,在NLP领域当 ...
变形金刚Transformer详解
写了上一篇,就必有这一篇~ 1. TRM在做啥? 我们输入一个I love you,输出我爱你,输入一段声音,输出得到你真美.输入长度跟输出长度没有决定性的关系,由机器决定输出的是什么. 2. TRM ...

transformer--变形金刚

transformer--变形金刚相关推荐

最新文章

热门文章