Self-Attention Attribution: Interpreting Information Interactions Inside Transformer(AAAI21)

一元@炼丹笔记

在之前大家对于Transformer的理解都是,Transformer的成功得益于强大Multi-head自注意机制,从输入中学习token之间的依赖关系以及编码上下文信息。我们都很难解释输入特性如何相互作用以实现预测的。Attention计算得到的分数也并不能完美的解释这些交互作用,本文提出一种自我注意归因方法来解释Transformer内部的信息交互。我们以Bert为例进行研究。首先,我们利用自我注意归因来识别重要的注意头,其它注意头会随着边际效果的下降而被剪掉。此外,我们提取了每个层中最显著的依赖关系,构造了一个属性树,揭示了Transformer内部的层次交互。最后,我们证明了归因结果可以作为对抗模式来实现对BERT的非目标攻击。

那么该方案是怎么做的呢?

上图左侧是微调后的BERT中一个头部的注意力分数。我们观察到:

  • 注意力得分矩阵是相当密集的,虽然只有一个12个head。这很难让我们去理解单词在Transformer中是如何相互作用的。
  • 此外,即使注意力分数很大,也不意味着这对词对决策建模很重要;
  • 相比之下,我们的目标是将模型决策归因于自我注意关系,如果交互作用对最终预测的贡献更大,那么自我注意关系往往会给出更高的分数。

attribution分数可以通过积分的Riemman近似来计算得到,具体地说,我们在从零注意矩阵到原始注意权重A的直线路径上以足够小的间隔出现的点处求梯度的和。

其中m为近似的步数,后续实验中,我们将其设置为20。

我们再看一下下面这张图:

我们发现:

  • 更大的注意分数并不意味着对最终预测的贡献更大。SEP标记与其它标记之间的注意得分相对较大,但获得的归因得分较少。
  • 对contradiction类的预测,最主要的是第一节中的“don't”与第二节中的“I know”之间的联系,这种联系更容易解释。

我们发现:

  • 归因得分修剪头部会对模型效果可以产生更显著的影响。
  • 在每一层中只修剪Top2的两个归因分数的头部会导致模型精度的极大降低。相比之下,保留它们有助于模型达到近97%的准确率。即使每层只保留两个heads,模型仍然可以有很强的性能。
  • 和attention分数相比,使用attention分数裁剪heads的影响不是非常明显,这也充分证明了我们方法的有效性。

2.实验对比

  • 使用我们的方法进行裁剪的效果是最好的。

本文提出了自我注意归因(ATTATTR),它解释了Transformer内部的信息交互,使自我注意机制更易于解释。文章进行了定量分析,证明了ATTATTR的有效性。此外,利用本文提出的方法来识别最重要的注意head,从而提出了一种新的头部剪枝算法。然后利用属性得分得到交互树,从而可视化变压器的信息流。本文的方法非常有参考价值。

AAAI21最佳论文Runners Up!Transformer的归因探索!

AAAI21最佳论文Runners Up!Transformer的归因探索!相关推荐

  1. 【NLP】AAAI21最佳论文Runners Up!Transformer的归因探索!

    作者:一元,四品炼丹师 Self-Attention Attribution: Interpreting Information Interactions Inside Transformer(AAA ...

  2. AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器???

    Informer:最强最快的序列预测神器??? AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器! 01 简介 在很多实际应用问题中,我们需要对长序列时间序列进行预 ...

  3. AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!

    Informer:最强最快的序列预测神器 AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器! 作者:一元,公众号:炼丹笔记 01 简介 在很多实际应用问题中,我们需 ...

  4. 详解NLP和时序预测的相似性【附赠AAAI21最佳论文INFORMER的详细解析】

    摘要:本文主要分析自然语言处理和时序预测的相似性,并介绍Informer的创新点. 前言 时序预测模型无外乎RNN(LSTM, GRU)以及现在非常火的Transformer.这些时序神经网络模型的主 ...

  5. 直播 | AAAI 2021最佳论文:比Transformer更有效的长时间序列预测

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  6. 【论文解读】AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!

    炼丹笔记干货 作者:一元,四品炼丹师 Informer:最强最快的序列预测神器 01 简介 在很多实际应用问题中,我们需要对长序列时间序列进行预测,例如用电使用规划.长序列时间序列预测(LSTF)要求 ...

  7. 北航成AAAI 2021最大赢家,两篇一作斩获最佳论文、提名奖,研究皆与Transformer相关...

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 当地时间2月4日,AAAI 2021最佳论文奖出炉! 由AAAI 2021程序委员会主席Mausam在开幕式上宣布,共有3篇论文获得了最佳论 ...

  8. AAAI 2021 最佳论文出炉!华人包揽 4 奖,北航成最大赢家,Transformer变热门

    作者:周寅张皓.梦佳.贾伟 2 月 4 日,人工智能顶会 AAAI 2021(第 35 届 AAAI 大会)以在线虚拟会议的形式正式拉开序幕,并将持续到 2 月 9 日结束. 本届AAAI大会投稿量再 ...

  9. 7 Papers Radios | NeurIPS 2020最佳论文;全卷积网络实现E2E目标检测

    机器之心 & ArXiv Weekly Radiostation 参与:杜伟.楚航.罗若天 本周的重要研究包括 NeurIPS 2020最佳论文以及抛弃 Transformer 使用全卷积网络 ...

最新文章

  1. 创建bdlink密码是数字_如何创建实际上是安全的密码
  2. Spring第二弹—–搭建与测试Spring的开发环境
  3. 【python图像处理】python绘制灰度直方图
  4. 从民宅到独栋大厦 我们搬家啦!
  5. Atitit.技术管理者要不要自己做开发??
  6. mysql hex函数性能_mysql hex与unhex 函数的妙用
  7. 物联网时代,隐私还有救吗?
  8. ArcGIS 栅格函数在线调用详解
  9. pku1063 Flip and Shift严格证明
  10. 第二步_安装samba服务器
  11. jedate change事件监控,使用jedate无法使用change事件
  12. CAD快捷键怎么恢复默认设置?
  13. 我们需要“第二人生”吗?[Second life]
  14. MongoDB填充因子和更新优化
  15. Android百度地图之位置定位和附近查找代码简单实现 (上)
  16. 英语口语语音评测方法
  17. Qt开发的开源项目DBA技术介绍
  18. macbookpro安装ch340驱动
  19. RFID仓库管理系统之售后产品的管理-新导智能
  20. CRM适用于什么企业?

热门文章

  1. fabricjs 高级篇(自定义类型)
  2. 一个还不错的源码解析网站
  3. JS 之 数据类型转换
  4. Visual Subst - 简单将任意文件夹挂载模拟成驱动器盘符硬盘分区的小工具
  5. STL(一)Containers
  6. [翻译]XNA 3.0 Game Programming Recipes之twenty-one
  7. QT解析 JSON 格式的数据
  8. python做平面设计有前途吗_现在学平面设计还有发展前景吗?
  9. SLAM学习--2D激光SLAM-圣经-概率机器人学各种扩展
  10. windows下程序开机自启动(任务计划程序)