论文标题:Talking-Heads Attention - Arxiv2020

原文传送门:

https://arxiv.org/abs/2003.02436https://arxiv.org/abs/2003.02436%E2%80%8Barxiv.org

1. Abstract & Introduction

作者引入了一种MultiHead变种 —“talking-heads attention”:在 softmax 之前和之后,跨注意力头维度的引入线性映射。虽然只附加了少量参数和适量计算,其会带来掩码语言建模任务的更好困惑度,以及在迁移学习到语言理解和问答任务时的更好质量。

3 Multi-Head Attention

4 Talking-Heads Attention

7 Experiments

7.1 Text-to-Text Transfer Transformer (T5)

选择迁移学习上[Raffel et al., 2019],测试MultiHead Attn和Talking-heads Attn,在 SQUAD [Rajpurkar et al., 2016]、GLUE [Wang et al., 2018] 和 SuperGlue [Wang et al., 2019] 的示例上对每个模型进行微调。

结论:对于每个头数,在所有质量指标上,谈话头注意力都优于多头注意力。

7.2 ALBERT

[Lan et al., 2019] 介绍了 ALBERT,和 BERT的主要区别在于:

1) ALBERT 在所有层之间共享层参数,显着减少了参数数量。

2) ALBERT 将词嵌入分解为两个基数较小的矩阵的乘积,再次显着减少了参数计数。

3) ALBERT 还使用句序预测(SOP)来代替 BERT 中的下一句预测(NSP)。

数据集:the English Wikipedia and book corpus datasets [Devlin et al., 2018]

任务:the SQuAD task (SQuAD1.1, SQuAD2.0 dev set) and various tasks (MNLI, SST-2, RACE) from the GLUE benchmark

结论:随着头数超过12 ,并且键和值的维度小于64,MultiHead Attn的性能会下降,而Talking-heads Attn的性能不断提高。

消融实验表明: logit和weight映射缺一不可,单独用不会带来显著改善。

7.3 BERT

数据集:与 [Devlin et al., 2018] 相同的数据集

设置:预训练 12 个 Transformer 层, 简化的相对位置嵌入 [Raffel et al., 2019]

任务:对 SQuAD1.1 任务和来自 GLUE 数据集的 MNLI 进行微调。

结论:将头数增加到 768,并将键和值的维度降低到1时,质量还在提高。

7.4 Visualizing the Projection Matrices of Talking-Heads

为了说明不同头部如何相互交换信息,可视化12 层 BERT 的投影矩阵(Pl, Pw 和Pl × Pw):

几点发现:

1. 投影矩阵的主对角线没有比其他条目显着更大的值。(个人理解:token没有出现只focus自己情况)

2. 所有投影矩阵均分布良好,行列式大于10-9,最小特征值大于10-3。(个人理解:保证任意token均或多或少被关注到)

3. 未出现对角线或稀疏矩阵,表明不同注意力头之间存在重要的数据交换。

8 Conclusions and Future Work

1. Talking-heads Attn 性能极具希望;

2. 需要优化大维度矩阵乘法;

----构建更擅长小维矩阵乘法的硬件;

----减少为每个查询位置考虑的内存位置的数量; (线性和稀疏Self-attn范畴)

【1】Talking-Heads Attention相关推荐

  1. 【KGAT】Knowledge Graph Attention Network for Recommendation

    note KGAT结合KG和GAT,在知识图谱三元组基础上,利用GAT进行消息传递,聚合出物品向量后与用户向量进行计算得到预测值.其实不结合KG,何向南团队之前也直接使用GNN做了NGCF和Light ...

  2. 【GNN】GAT:Attention 在 GNN 中的应用

    今天学习的是剑桥大学的同学 2017 年的工作<GRAPH ATTENTION NETWORKS>,目前引用数量超过 1100 次. Attention 机制在 NLP CV 等领域被广泛 ...

  3. 【CV】ECCV2020图像分割开源论文合集

    编辑丨极市平台 极市导读 本文整理了ECCV2020目前开源的分割方向的全部论文,涵盖实例分割.语义分割.点云分割.目标跟踪与分割以及视频目标分割等多个方向,并对每一篇论文进行了简要介绍,文末附论文打 ...

  4. 【NLP】Attention Model(注意力模型)学习总结

    最近一直在研究深度语义匹配算法,搭建了个模型,跑起来效果并不是很理想,在分析原因的过程中,发现注意力模型在解决这个问题上还是很有帮助的,所以花了两天研究了一下. 此文大部分参考深度学习中的注意力机制( ...

  5. 【NLP】 聊聊NLP中的attention机制

    本篇介绍在NLP中各项任务及模型中引入相当广泛的Attention机制.在Transformer中,最重要的特点也是Attention.首先详细介绍其由来,然后具体介绍了其编解码结构的引入和原理,最后 ...

  6. 【TGRS】Ship Detection in Large-Scale SAR Images Via Spatial Shuffle-Group Enhance Attention译读笔记

    论文信息 Ship Detection in Large-Scale SAR Images Via Spatial Shuffle-Group Enhance Attention 摘要 使用SAR进行 ...

  7. UVA545 LA5263 Heads【对数】

    The probability of n heads in a row tossing a fair coin is 2−n Input The first line of the input con ...

  8. 【论文简读】Diffusion Kernel Attention Network for Brain Disorder Classification用于脑疾病分类的扩散核注意力网络

    期刊:MIA 2022 early accept 作者:Jianjia Zhang, Luping Zhou, Lei Wang, Mengting Liu and Dinggang Shen 摘要 ...

  9. 【ReID】Harmonious Attention Network for Person Re-Identification

    [ReID]Harmonious Attention Network for Person Re-Identification 模型 实验 写作 问题 参考文献 阅读了Harmonious Atten ...

  10. 【ARXIV2202】Visual Attention Network

    [ARXIV2202]Visual Attention Network 论文地址:https://arxiv.org/abs/2202.09741 代码地址:https://github.com/Vi ...

最新文章

  1. 写时复制,写时拷贝,写时分裂,Copy on write
  2. python3 统计文件夹下文件(含文件夹)的个数
  3. 设计模式——桥梁模式
  4. 使用git 添加远程仓库 或者 从远程仓库克隆的两种实现
  5. 一文读懂什么是P问题、NP问题和NPC问题
  6. 快速幂||取余运算【模板】(洛谷P1226题题解,Java语言描述)
  7. LabVIEW I/O服务器创建时的相关问题汇总
  8. django开发 遇到的问题解决
  9. HDU 3081Marriage Match II(二分法+并检查集合+网络流量的最大流量)
  10. (可更新)计算机算法设计与分析 第4版 (王晓东) 课后答案[1-9章]
  11. gxworks2使用指令手册_编程软件GX-Works2简单工程功能块篇操作手册三菱GX-Works2手册 - 广州凌控...
  12. qq空间把android改成iphone,qq空间利用代码修改iPhone6 Plus qq空间修改手机型号教程...
  13. python小说爬虫练习
  14. 微信小程序组件之间传值
  15. IMPDP和ORA-31684
  16. 基于JAVA校园爱心志愿系统计算机毕业设计源码+数据库+lw文档+系统+部署
  17. NOIP2016普及组复赛第一题——买铅笔
  18. 自定义NavigationBar的思路
  19. 【钉钉-场景化能力包】企业系统和钉钉工作流打通
  20. hexo 修改index.html,hexo--新建页面、修改主页

热门文章

  1. 英语口语七十四之[喘口气]
  2. 我跪着看完了这些神仙渗透测试面试题!
  3. vue怎么实现office,PDF,图片,OFD文件预览
  4. Android6.0权限管理-PermissionsDispatcher
  5. “十年内难以落地”的无人驾驶,第一站会在哪里?
  6. MSIL简介 - Part 2 - 使用局部变量
  7. 安装win10+ubuntu18.04双系统(用U盘启动)
  8. 3.2 天天向上的力量
  9. 哎宽带账号密码忘记了老king来帮你解决
  10. Google Earth Engine ——在 GEE 中聚合网格化人口数据