文章目录

  • 10.2. 注意力汇聚:Nadaraya-Watson 核回归
    • 10.2.1. 生成数据集
    • 10.2.2. 平均汇聚
    • 10.2.3. 非参数注意力汇聚
    • 10.2.4. 带参数注意力汇聚
      • 10.2.4.1. 批量矩阵乘法
      • 10.2.4.2. 定义模型
      • 10.2.4.3. 训练
    • 10.2.5. 小结

10.2. 注意力汇聚:Nadaraya-Watson 核回归

查询(自主提示)和键(非自主提示)之间的交互形成了注意力汇聚, 注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出.
本节中,我们将介绍注意力汇聚的更多细节, 以便从宏观上了解注意力机制在实践中的运作方式。
具体来说,1964年提出的Nadaraya-Watson核回归模型 是一个简单但完整的例子,可以用于演示具有注意力机制的机器学习。

import torch
from torch import nn
from d2l import torch as d2l

10.2.1. 生成数据集

# 成了个训练样本和个测试样本。 为了更好地可视化之后的注意力模式,我们将训练样本进行排序。
n_train = 50  # 训练样本数
x_train, _ = torch.sort(torch.rand(n_train) * 5)   # 排序后的训练样本def f(x):return 2 * torch.sin(x) + x**0.8y_train = f(x_train) + torch.normal(0.0, 0.5, (n_train,))  # 训练样本的输出
x_test = torch.arange(0, 5, 0.1)  # 测试样本
y_truth = f(x_test)  # 测试样本的真实输出
n_test = len(x_test)  # 测试样本数
n_test# result
50# 下面的函数将绘制所有的训练样本(样本由圆圈表示), 不带噪声项的真实数据生成函数(标记为“Truth”), 以及学习得到的预测函数(标记为“Pred”)
def plot_kernel_reg(y_hat):d2l.plot(x_test, [y_truth, y_hat], 'x', 'y', legend=['Truth', 'Pred'],xlim=[0, 5], ylim=[-1, 5])d2l.plt.plot(x_train, y_train, 'o', alpha=0.5);

10.2.2. 平均汇聚

先使用最简单的估计器来解决回归问题: 基于平均汇聚来计算所有训练样本输出值的平均值

y_hat = torch.repeat_interleave(y_train.mean(), n_test)
plot_kernel_reg(y_hat)

10.2.3. 非参数注意力汇聚

值得注意的是,Nadaraya-Watson核回归是一个非参数模型。
因此是 非参数的注意力汇聚(nonparametric attention pooling)模型。
接下来,我们将基于这个非参数的注意力汇聚模型来绘制预测结果。
你会发现新的模型预测线是平滑的,并且比平均汇聚的预测更接近真实。

# X_repeat的形状:(n_test,n_train),
# 每一行都包含着相同的测试输入(例如:同样的查询)
X_repeat = x_test.repeat_interleave(n_train).reshape((-1, n_train))
# x_train包含着键。attention_weights的形状:(n_test,n_train),
# 每一行都包含着要在给定的每个查询的值(y_train)之间分配的注意力权重
attention_weights = nn.functional.softmax(-(X_repeat - x_train)**2 / 2, dim=1)
# y_hat的每个元素都是值的加权平均值,其中的权重是注意力权重
y_hat = torch.matmul(attention_weights, y_train)
plot_kernel_reg(y_hat)

10.2.4. 带参数注意力汇聚

非参数的Nadaraya-Watson核回归具有一致性(consistency)的优点: 如果有足够的数据,此模型会收敛到最优结果。
尽管如此,我们还是可以轻松地将可学习的参数集成到注意力汇聚中。

10.2.4.1. 批量矩阵乘法

为了更有效地计算小批量数据的注意力, 我们可以利用深度学习开发框架中提供的批量矩阵乘法。

X = torch.ones((2, 1, 4))
Y = torch.ones((2, 4, 6))
torch.bmm(X, Y).shape# result
torch.Size([2, 1, 6])# 在注意力机制的背景中,我们可以使用小批量矩阵乘法来计算小批量数据中的加权平均值。
weights = torch.ones((2, 10)) * 0.1
values = torch.arange(20.0).reshape((2, 10))
torch.bmm(weights.unsqueeze(1), values.unsqueeze(-1))# result
tensor([[[ 4.5000]],[[14.5000]]])

10.2.4.2. 定义模型

带参数的注意力汇聚,使用小批量矩阵乘法, 定义Nadaraya-Watson核回归的带参数版本为

class NWKernelRegression(nn.Module):def __init__(self, **kwargs):super().__init__(**kwargs)self.w = nn.Parameter(torch.rand((1,), requires_grad=True))def forward(self, queries, keys, values):# queries和attention_weights的形状为(查询个数,“键-值”对个数)queries = queries.repeat_interleave(keys.shape[1]).reshape((-1, keys.shape[1]))self.attention_weights = nn.functional.softmax(-((queries - keys) * self.w)**2 / 2, dim=1)# values的形状为(查询个数,“键-值”对个数)return torch.bmm(self.attention_weights.unsqueeze(1),values.unsqueeze(-1)).reshape(-1)

10.2.4.3. 训练

接下来,将训练数据集变换为键和值用于训练注意力模型。
在带参数的注意力汇聚模型中, 任何一个训练样本的输入都会和除自己以外的所有训练样本的“键-值”对进行计算, 从而得到其对应的预测输出。

# X_tile的形状:(n_train,n_train),每一行都包含着相同的训练输入
X_tile = x_train.repeat((n_train, 1))
# Y_tile的形状:(n_train,n_train),每一行都包含着相同的训练输出
Y_tile = y_train.repeat((n_train, 1))
# keys的形状:('n_train','n_train'-1)
keys = X_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))
# values的形状:('n_train','n_train'-1)
values = Y_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))# 训练带参数的注意力汇聚模型时,使用平方损失函数和随机梯度下降。
net = NWKernelRegression()
loss = nn.MSELoss(reduction='none')
trainer = torch.optim.SGD(net.parameters(), lr=0.5)
animator = d2l.Animator(xlabel='epoch', ylabel='loss', xlim=[1, 5])for epoch in range(5):trainer.zero_grad()l = loss(net(x_train, keys, values), y_train)l.sum().backward()trainer.step()print(f'epoch {epoch + 1}, loss {float(l.sum()):.6f}')animator.add(epoch + 1, float(l.sum()))

如下所示,训练完带参数的注意力汇聚模型后,我们发现: 在尝试拟合带噪声的训练数据时, 预测结果绘制的线不如之前非参数模型的平滑。

# keys的形状:(n_test,n_train),每一行包含着相同的训练输入(例如,相同的键)
keys = x_train.repeat((n_test, 1))
# value的形状:(n_test,n_train)
values = y_train.repeat((n_test, 1))
y_hat = net(x_test, keys, values).unsqueeze(1).detach()
plot_kernel_reg(y_hat)

为什么新的模型更不平滑了呢? 我们看一下输出结果的绘制图: 与非参数的注意力汇聚模型相比, 带参数的模型加入可学习的参数后, 曲线在注意力权重较大的区域变得更不平滑。

d2l.show_heatmaps(net.attention_weights.unsqueeze(0).unsqueeze(0),xlabel='Sorted training inputs',ylabel='Sorted testing inputs')

10.2.5. 小结

  • Nadaraya-Watson核回归是具有注意力机制的机器学习范例。

  • Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看,分配给每个值的注意力权重取决于将值所对应的键和查询作为输入的函数。

  • 注意力汇聚可以分为非参数型和带参数型。

10.2. 注意力汇聚:Nadaraya-Watson 核回归相关推荐

  1. 注意力汇聚:Nadaraya-Watson 核回归

    Nadaraya-Watson核回归是具有注意力机制的机器学习范例. Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均.从注意力的角度来看,分配给每个值的注意力权重取决于将 ...

  2. 注意力机制 - 注意力汇聚:Nadaraya-Watson核回归

    文章目录 注意力汇聚:Nadaraya-Watson核回归 1 - 生成数据集 2 - 平均汇聚 3 - 非参数注意力汇聚 4 - 带参数注意力汇聚 批量矩阵乘法 定义模型 训练 5 - 小结 注意力 ...

  3. 注意力机制(一):注意力提示、注意力汇聚、Nadaraya-Watson 核回归

    专栏:神经网络复现目录 注意力机制 注意力机制(Attention Mechanism)是一种人工智能技术,它可以让神经网络在处理序列数据时,专注于关键信息的部分,同时忽略不重要的部分.在自然语言处理 ...

  4. 89. 注意力机制以及代码实现Nadaraya-Waston 核回归

    1. 心理学 动物需要在复杂环境下有效关注值得注意的点 心理学框架:人类根据随意线索和不随意线索选择注意点 随意:随着自己的意识,有点强调主观能动性的意味. 2. 注意力机制 2. 非参注意力池化层 ...

  5. d2l Nadaraya-Waston核回归

    注意力机制里面的非参数注意力汇聚 目录 1.目标任务 2.数据生成 2.1构造原始数值 3.非参数注意力汇聚 4.对注意力机制的理解 1.目标任务 使用y_train(有噪声),拟合y_truth(没 ...

  6. 10.1 LED灯实验(A7核和M4核)

    文章目录 LED灯实验 分析 原理图 芯片手册 RCC章节 GPIO章节 实现代码 A7核 gpio.h gpio.c main.c M4核 实验现象 LED灯实验 分析 原理图 LED灯的丝印为LD ...

  7. 10年以后,Google Labs再次回归!VR部门负责人任新leader

      视学算法报道   编辑:LRS [新智元导读]十年前,Google Labs由于种种原因在Google内部被裁撤,成立期间为Android生态构造了许多有价值的创新应用,并且很多项目至今仍是Goo ...

  8. 文献阅读笔记10——ECA注意力机制

    0 写在前面 第一部分内容更针对于精度的提升,第二部分就需要找到一些方法针对速度的提升. 1 ECA注意力机制 天津大学在2020CVPR发表的一篇文章 1.1 Abstract+Conclusion ...

  9. 注意力机制详解(脉络版)

    10.1 注意力提示 att有价值 人类对att的使用 10.1.1 生物学中的注意力 心理学中的双组件 非自主性提示 自主性提示 10.1.2 查询.键和值 非自主性提示:使用 FC 或者是 非参数 ...

最新文章

  1. 人脸识别技术有哪些新的发展_疫情下,旅游景区人脸识别技术可以应用在哪些场景?...
  2. c语言程序题是如何判分的,C语言编程题判分系统的研究与实现
  3. 【数据库系统】数据库系统的模式分层与数据独立性
  4. Java、Android、oc冒泡排序算法随笔
  5. rest framework 节流
  6. P1103 书本整理
  7. 理解TCP/IP协议
  8. model中的数据如何显示在html上,django – 使用DRF ModelViewSet和TemplateHTMLRenderer时如何访问模板中的数据?...
  9. 开源的SNMP网管系统LibreNMS
  10. IIS7整站下载器的使用总结
  11. 楚留香服务器维护时间,【9月28日维护公告】
  12. 牛逼!你竟然把VSCode玩成了IDEA的效果,有点哇塞。。。
  13. 解决Linux无法读写U盘中的NTFS问题
  14. 网页设计 颜色搭配
  15. 作为一名IT工程师该如何提前预防职业病
  16. 【CXY】JAVA基础 之 GUI
  17. JavaCV人脸识别三部曲之三:识别和预览
  18. Procreate iPad绘画教程
  19. 绘制地铁线路html,基于HTML5技术绘制上海地铁图
  20. GB28181协议开发介绍

热门文章

  1. 中单链型刮板输送机设计
  2. URLUtil(在url上往后追加参数和取出指定的参数)
  3. “*** error 65: access violation at 0x0000000C : no 'read' permission”错误的解决
  4. Mongodb创建用户角色
  5. 通信协议篇——SPI通信
  6. echarts的使用
  7. compareTo 时间比较
  8. Jquery插件jqprint-0.3.js实现打印
  9. 在asp.net中 利用雅虎天气API做天气预报功能
  10. mysql 5.6 1067_window 安装Mysql 5.6 发生系统错误 1067