Human Parity on CommonsenseQA: Augmenting Self-Attention with External Attention

论文链接:https://www.microsoft.com/en-us/research/uploads/prod/2021/12/CSQA_KEAR.pdf

Abstract

目前大多数都专注在self-attention 和Transformer架构来提升性能。

本文:使用外部attention机制来增强Transformer架构,将上下文与外部知识结合。将外部信息整合到预测过程。提出了Knowledgeable External Attention for commonsense Reasoning (KEAR)常识推理的知识外部注意,在开放的 CommonsenseQA 研究基准上达到人类同等水平,准确度为 89.4%,而人类准确度为 88.9%

Introduction

Transformer模型开发过程中规模较大的模型往往具有更好地学习能力,尤其是与大规模数据结合。但大量研究表明,这些巨大模型的相应理解和生成能力仍然落后于人类(Bommasani et al., 2021)。此外,这些模型的庞大规模已经在利用、部署、解释和环境影响方面带来了严重的实际挑战,因此基于Transformer的NLP建模的“放大”方法受到质疑。

self-attention机制旨在让模型更好地分析输入数据内部结构,并训练模型使其参数掌握并记住训练数据的所有内容和模式。当给模型一个新的输入 X 时,参数中隐含存储的相关信息知识被激活,以促进对 X 的分析。这可以部分解释为什么用更多数据预训练的较大模型在性能上具有优势。

虽然Transformer模型通过self-attention机制look inward处理输入,但本文通过为模型提供各种来源的相关上下文和知识来使模型look outward;然后让模型对输入进行self-attention,同时计算对知识的外部关注(如图1)

(上下文和知识通常可以以非参数和符号的方式存储(例如,纯文本、知识图和字典条目))

 Figure 1: Our proposed method of Knowledgeable External Attention for commonsense Reasoning (KEAR).Related knowledge is retrieved from external sources, e.g., knowledge graph, dictionary and training data, using the input as key and then integrated with the input. While additional external attention layers can be added to the Transformer blocks, we adopt text-level concatenation for external attention, incurring no structural change to the model architecture.

给定一个常识性问题和一个选择,从三个外部来源检索知识:知识图(ConceptNet)、字典(Wiktionary)和标记的训练数据(CommonsenseQA 和 16 个相关的 QA 数据集)

检索到的知识直接附加到输入并发送到语言模型,而无需对底层架构进行修改。

本文方法优于commonsense reasoning(常识推理)

首先,外部注意力极大地减少了我们系统对大规模模型的依赖,即通过高达 1.5B 参数的模型实现了人类平等。其次,外部信息是通过信息检索和单词匹配等计算效率高的方法获得的,增加了很少主模型的计算成本。最后,输入和知识的文本级连接不会导致 Transformer 模型发生变化,使现有系统能够轻松采用这种新的外部注意机制。

外部注意力的另一个好处是,由于相关知识存储在模型之外,可以轻松地更新知识源以改变其模型。

Method

外部注意力框架

第一个 Transformer 层的输入通常是标记化输入文本的嵌入,表示为

本文将文本格式的外部知识输入表示为

本文将知识连接到输入=

优点是不需要修改现有的模型架构。

外部知识源(以补充输入的问题及选择)

(1)如果实体 有到实体 的直接边r,则选择三元组

否则检索所有源自的三元组,选择其中权重最高的,KG中的知识格式化为:

(2)字典可以为单词提供准确的语义解释,本文将问答概念的维基词典定义用作外部知识。

的定义文本,的定义文本。

(3)本文从训练数据中检索相关问题和答案作为附加知识,对于从训练数据中检索到的每个问题,删除知识部分并将检索到的问题及其真实答案用作外部知识。

假设检索到的问题和答案是

本文将训练数据中的知识格式化为:

最终,将三个来源检索到的知识连接起来形成最终的知识输入

Experiments

Data:CommonsenseQA

(单体模型与集成模型)

比之前最好的 DEKCOR 模型高出 6% 以上,并且比人类表现 (88.9%) 高出 0.5%。

【论文笔记】在CommonsenseQA 上追平人类: 通过External Attention 增强 Self-Attention相关推荐

  1. 论文笔记:Unsteady Multi-Element Time Series Analysis and Prediction Based on Spatial-Temporal Attention

    2020 MDPI 0 摘要 有害藻华(HABs)往往对渔业生产和人类生命安全造成极大危害.因此,HABs的检测和预测成为一个重要的课题. 机器学习在国内外越来越多地用于预测HAB.然而,很少有人能够 ...

  2. 年度活跃用户数超过京东后,拼多多在市值上再次追平京东

    在年度活跃用户数超过京东后,拼多多在市值方面也即将追平京东. 截至周四美股收盘,创办3年的拼多多(NASDAQ:PDD)股价上涨7.76%至每股28.74美元,市值达到318亿美元,这一数值即将追平创 ...

  3. Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记

    论文笔记 1 引子 ​ 在本文中,我们提出了一种新颖的协作时空(CoST)特征学习操作,它与权重共享共同学习时空特征. ​ 给定3D体积视频张量,我们通过从不同角度观看它们,将其展平为三组2D图像. ...

  4. 论文笔记【A Comprehensive Study of Deep Video Action Recognition】

    论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...

  5. 3D U-Net论文笔记

    3D U-Net论文笔记 原文地址:Learning Dense Volumetric Segmentation from Sparse Annotation Abstract 本文介绍了一种从稀疏标 ...

  6. 论文笔记(五)《explaining and harnessing adversarial examples》

    2020.03.23陆陆续续的在读论文了,参考了其他人分享的读书笔记,但是还是没怎么读懂,理不清思路.继续读吧 <解释和利用对抗样本> 基础知识 abstract 包括神经网络在内的几个机 ...

  7. 《基于机器视觉测量系统的工业在线检测研究》论文笔记

    <基于机器视觉测量系统的工业在线检测研究>论文笔记 原文链接:Research on Industrial Online Detection Based on Machine Vision ...

  8. GAN for NLP (论文笔记及解读

    GAN 自从被提出以来,就广受大家的关注,尤其是在计算机视觉领域引起了很大的反响."深度解读:GAN模型及其在2016年度的进展"[1]一文对过去一年GAN的进展做了详细介绍,十分 ...

  9. 图像内复制粘贴篡改取证matlab_[论文笔记] 篡改检测:RGB-N

    [论文笔记] Learning Rich Features for Image Manipulation Detection 说在前面 个人心得: 第一次关注篡改检测,最常见的篡改方式是拼接.复制移动 ...

  10. 神经稀疏体素场论文笔记

    论文地址:https://proceedings.neurips.cc/paper/2020/file/b4b758962f17808746e9bb832a6fa4b8-Paper.pdf Githu ...

最新文章

  1. 图片基础知识梳理(3) BitmapBitmapFactory 解析
  2. php代码样式,PHP代码样式
  3. 微信开发者工具 出现 Error:unable to verify the first cert?
  4. 从去除毛刺的策略看开运算opening_circle和闭运算closing_circle的异同
  5. 搭建网站必不可少的知识14
  6. leetcode - 1105. 填充书架
  7. Laravel Carbon获取 某个时间后N个月的时间
  8. 报表中判断字段中是否包含某字符串
  9. Raki的读paper小记:ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS
  10. 下载 针式PKM V9.08 版
  11. 基于STM32的超声波HC-SR04和红外测距模块测量距离的实验对比(HAL库)
  12. ad中那个快捷键是重复上一部_7个高手常用的快捷键,你应该收藏!
  13. 练习题 斐波那契数列
  14. bzoj-1135 Lyz
  15. 重学TCP协议(8) TCP的11种状态
  16. MongoDB分片实战
  17. 哈尔滨苹果手机iphone不开机维修
  18. ai论文调研——PAMI Popular Articles (December 2015)
  19. 什么是redis?为什么要用redis?(redis的概述)
  20. SpringBoot的学习资源 尚硅谷 蚂蚁学院

热门文章

  1. 通过 Docker 化一个博客网站来开启我们的 Docker 之旅
  2. CF1528B Kavi on Pairing Duty(dp)
  3. 关于web站点的欢迎界面
  4. android 反编译改log,android 反编译,逆向,注入LOG
  5. LSD-SLAM论文总结
  6. InfluxDB使用HTTP的API编写数据
  7. 《动手学深度学习》(PyTorch版)代码注释 - 48 【Multi-scale_target_detection】
  8. 上传图片预览图片方向错误
  9. [博创智联]创新创客智能硬件平台——三轴加速度传感器
  10. android 文件管理 ca,安卓Android手机添加根证书