PyTorch笔记 - Attention Is All You Need (4)

Transformer：

模型结构：
- Encoder：
  - Position Embedding：引入位置信息，DNN结构，默认没有考虑位置信息
  - Multi-head Self-attention：模型中计算量最大的部分，Head(头)的数量是8，任意两两字符之间，计算相关性。
  - LayerNorm & Residual：层归一化，和残差连接
  - Feedforward Nenual Network：Self-attention位置混合，FFN通道混合，类似通道分离卷积(空间混合)和1x1卷积(通道混合)，第1层2028，第2层512
- Decoder：Teacher Forcing
  - Casual(因果) Multi-head Self-attention，下三角矩阵
  - Memory-base Multi-head Cross-attention，Decoder是Query，Encoder是Key和Value，Key是转置
使用类型：
- Encoder only：BERT、分类任务、非流式任务
- Decoder only：GPT(Generative Pre-trained Transformer) 系列、语言建模、自回归生成任务、流式任务
- Encoder-Decoder：机器翻译、语音识别
特定：
- 无先验假设，例如局部关联性、有序建模
- 核心在于自注意力机制，平方复杂度
- 数据量的要求与先验假设的程度成反比

先验假设(归纳偏置) 与 数据(样本)量，成反比：

归纳偏置(Inductive Bias)：在学习算法中，当学习器去预测其未遇到过的输入结果时，所做的一些假设的集合。
Transformer计算量以序列长度的平方成正比。
基于先验假设，优化模型，例如降低计算量，要注入先验假设。
Transformer长时建模性长，并行计算，对比与RNN或LSTM

Transformer的Loss函数

交叉熵：torch.nn.CrossEntropyLoss

PyTorch中，CrossEntropy的输入，期望Class放在第2维，Batch放在第1维，可以是类别索引(Class indices)，也可以是类别的概率(Probabilities for each class)。

reduction默认是mean，例如6个单词的平均交叉熵。reduction是none，默认交叉熵：先做softmax，再做-ln(prob)

参考：CLIP算法的Loss详解和交叉熵CrossEntropy实现

# 定义softmax函数
def softmax(x):return np.exp(x) / np.sum(np.exp(x))# 利用numpy计算
def cross_entropy_np(x, y):x_softmax = [softmax(x[i]) for i in range(len(x))]x_log = [np.log(x_softmax[i][y[i]]) for i in range(len(y))]loss = - np.sum(x_log) / len(y)return loss# 测试逻辑
x = [[1.9269, 1.4873, 0.9007, -2.1055]]
y = [[2]]
v1 = cross_entropy_np(x, y)
print(f"v1:{v1}")x = torch.unsqueeze(torch.Tensor(x), dim=0)
x = x.transpose(1, 2)  # CrossEntropy输入期望: Class放在第2维，Batch放在第1维y = torch.Tensor(y)
y = y.to(torch.long)  # label的类型为longv2 = F.cross_entropy(x, y, reduction="none")
print(f"v2:{v2}")

随机种子：torch.manual_seed(42)，每个rand之前，都需要添加

构建序列建模的Mask，如下：

import torch
import torch.nn as nn
import torch.nn.functional as Fimport random
import numpy as np# batch_size=2, seqlen=3, vocab_size=4
torch.manual_seed(42)
logits = torch.randn(2, 3, 4)
logits = logits.transpose(1, 2)
print(f'[Info] logits.shape:{logits.shape}')
print(f'[Info] logits: \n{logits}')# logits_softmax = F.softmax(logits, dim=1)
# print(f'[Info] logits_softmax: \n{logits_softmax}')# batch_size=2, vocab_size=4
torch.manual_seed(42)
label = torch.randint(0, 4, (2, 3))
print(f'[Info] label.shape:{label.shape}')
print(f'[Info] label: \n{label}')
# loss: torch.nn.CrossEntropyLoss -> F.cross_entropy
# (2x4x3) + (2x3) = (2x3)
val = F.cross_entropy(logits, label, reduction="none")
print(f"[Info] val.shape:{val.shape}")
print(f"[Info] val: \n{val}")# 在loss中, 增加mask, 与ignore_index参数功能类似，默认值是-100
tgt_len = torch.Tensor([2,3]).to(torch.int32)
mask = [F.pad(torch.ones(L), (0, max(tgt_len)-L)) for L in tgt_len]
mask = torch.stack(mask)
print(f"[Info] mask: \n{mask}")
val = F.cross_entropy(logits, label, reduction="none") * mask
print(f"[Info] val.shape:{val.shape}")
print(f"[Info] val: \n{val}")# 与ignore_index参数功能类似，默认值是-100
label[0, 2] = -100
val = F.cross_entropy(logits, label, reduction="none")
print(f"[Info] val.shape:{val.shape}")
print(f"[Info] val: \n{val}")

PyTorch笔记 - Attention Is All You Need (4)相关推荐

PyTorch笔记 - Attention Is All You Need (1)
CNN: 权重共享:平移不变形.可并行计算滑动窗口:局部关联性建模.依赖多层堆积来进行长程建模对相对位置敏感,对绝对位置不敏感 RNN:依次有序递归建模对顺序敏感串行计算耗时长程建模能力弱 ...
PYTORCH笔记 actor-critic （A2C）
理论知识见:强化学习笔记:Actor-critic_UQI-LIUWJ的博客-CSDN博客由于actor-critic是policy gradient和DQN的结合,所以同时很多部分和policy ...
pytorch笔记：policy gradient
本文参考了策略梯度PG( Policy Gradient) 的pytorch代码实现示例 cart-pole游戏_李莹斌XJTU的博客-CSDN博客_策略梯度pytorch 在其基础上添加了注释和自 ...
pytorch 笔记：手动实现AR （auto regressive）
1 导入库& 数据说明 import numpy as np import torch import matplotlib.pyplot as plt from tensorboardX im ...
pytorch 笔记：tensorboardX
1 SummaryWriter 1.1 创建首先,需要创建一个 SummaryWriter 的示例: from tensorboardX import SummaryWriter#以下是三种不同的初 ...
pytorch 笔记：DataLoader 扩展：构造图片DataLoader
数据来源:OneDrive for Business 涉及内容:pytorch笔记:Dataloader_UQI-LIUWJ的博客-CSDN博客 torchvision 笔记:ToTensor()_U ...
pytorch 笔记：torchsummary
作用:打印神经网络的结构以pytorch笔记:搭建简易CNN_UQI-LIUWJ的博客-CSDN博客中搭建的CNN为例 import torch from torchsummary import ...
（d2l-ai/d2l-zh）《动手学深度学习》pytorch 笔记（2）前言（介绍各种机器学习问题）以及数据操作预备知识Ⅰ
开源项目地址:d2l-ai/d2l-zh 教材官网:https://zh.d2l.ai/ 书介绍:https://zh-v2.d2l.ai/ 笔记基于2021年7月26日发布的版本,书及代码下载地址在 ...
torch的拼接函数_从零开始深度学习Pytorch笔记（13）—— torch.optim
前文传送门: 从零开始深度学习Pytorch笔记(1)--安装Pytorch 从零开始深度学习Pytorch笔记(2)--张量的创建(上) 从零开始深度学习Pytorch笔记(3)--张量的创建(下) ...

PyTorch笔记 - Attention Is All You Need (4)

PyTorch笔记 - Attention Is All You Need (4)相关推荐

最新文章

热门文章