Abstract & Introduction & Related Work

  • 研究任务

    • 预训练语言模型
  • 已有方法和相关工作
    • BERT, RoBERTa
  • 面临挑战
  • 创新思路
    • disentangled attention mechanism :每个词用两个向量表示,分别编码其内容和位置,而词之间的注意力权重则分别用关于其内容和相对位置的分解矩阵来计算。
    • enhanced mask decoder :用于在解码层中加入绝对位置,以预测模型预训练中的掩码符号
    • 此外,一个新的虚拟对抗训练方法被用来进行微调,以提高模型的泛化能力
  • 实验结论
    sota,大DeBERTa在superGLUE上首次超越了人类的宏平均分数

THE DEBERTA ARCHITECTURE

DISENTANGLED ATTENTION: A TWO-VECTOR APPROACH TO CONTENT AND POSITION EMBEDDING

token之间的注意力分数计算:

标准注意力机制,相当于用公式2的内容-内容,内容-位置两项,我们认为,位置-内容项也很重要,因为一个词对的注意权重不仅取决于它们的内容,还取决于它们的相对位置,这只能用内容-位置项和位置-内容项来完全建模。由于我们使用的是相对位置嵌入,位置到位置项并没有提供太多额外的信息,因此在我们的实施中从方程2中删除

用k来表示最大相对距离

DeBERTa注意力计算公式:

参数的一些解释
Ai,j~\tilde{A_{i,j}}Ai,j~ 是注意力矩阵的一个元素,代表token i 到token j 的注意力分数
QciQ_c^iQci 上标代表第i行,KjcK_j^cKjc 上标代表第c行

训练过程,总体来说没有什么复杂的地方

EFFICIENT IMPLEMENTATION

预训练中,使用512作为最大相对距离
一些减少复杂度的操作,通过这种方式不需要我们不需要分配内存来存储每个查询的相对位置嵌入

训练过程,总体来说没有什么复杂的地方

ENHANCED MASK DECODER ACCOUNTS FOR ABSOLUTE WORD POSITIONS

给出一个句子 “新商场旁边开了一家新店”,其中的 "店 "和 "商场 "两个词被掩盖起来进行预测。仅仅使用局部语境(如相对位置和周围的词)不足以让模型区分这个句子中的商店和商场,因为两者都在新词后面,相对位置相同。为了解决这一局限性,该模型需要考虑绝对位置,作为相对位置的补充信息。例如,该句的主语是 "商店 "而不是 “商场”。这些句法上的细微差别在很大程度上取决于这些词在句子中的绝对位置

有两种纳入绝对位置的方法。BERT模型在输入层中加入了绝对位置。在DeBERTa中,我们在所有Transformer层之后,但在用于mask token预测的softmax层之前纳入它们,如图2所示。通过这种方式,DeBERTa抓住了所有Transformer层中的相对位置,而在解码被掩盖的单词时只使用绝对位置作为补充信息。因此,我们称DeBERTa的解码组件为增强型屏蔽解码器(EMD)。在实证研究中,我们比较了这两种纳入绝对位置的方法,观察到EMD的效果要好得多。我们猜想,BERT使用的早期纳入绝对位置的方法可能会不适当地妨碍模型学习足够的相对位置信息

SCALE INVARIANT FINE-TUNING

本节介绍了一种新的虚拟对抗训练算法Scale-invariant-Fine-Tuning(SiFT),是Miyato等人(2018);Jiang等人(2020)中描述的算法的变体,用于微调。

虚拟对抗训练是一种提高模型泛化能力的正则化方法。它通过提高模型对对抗性例子的鲁棒性来实现,对抗性例子是通过对输入进行小幅扰动而产生的。模型被正则化,以便当给定一个特定任务的例子时,模型产生的输出分布与它在该例子的对抗性扰动中产生的输出分布相同。

对于NLP任务,扰动被应用于单词嵌入而不是原始单词序列。然而,嵌入向量的值范围(规范)在不同的词和模型中是不同的。对于具有数十亿参数的大型模型来说,方差会变大,从而导致对抗性训练的一些不稳定性

EXPERIMENT





CONCLUSIONS

本文提出了一个新的模型架构DeBERTa(Decoding-enhanced BERT with disentangled attention),它利用两种新技术改进了BERT和RoBERTa模型。第一个是分解注意力机制,每个词用两个向量表示,分别编码其内容和位置,而词之间的注意力权重则分别用关于其内容和相对位置的分解矩阵来计算。第二种是增强型掩码解码器,它在解码层中加入了绝对位置,以预测模型预训练中的掩码标记。此外,一种新的虚拟对抗训练方法被用来进行微调,以提高模型在下游任务中的泛化能力。

我们通过全面的实证研究表明,这些技术大大改善了模型预训练的效率和下游任务的性能。拥有15亿个参数的DeBERTa模型在SuperGLUE基准测试中的宏观平均得分方面首次超过了人类的表现

DeBERTa在SuperGLUE上的表现超过了人类的表现,标志着走向通用人工智能的一个重要里程碑。尽管在SuperGLUE上取得了可喜的成绩,但该模型绝没有达到人类水平的NLU智能。人类非常善于利用从不同任务中学到的知识来解决一个新的任务,而不需要或很少需要特定任务的演示。这被称为成分泛化,即对熟悉的成分(子任务或基本问题解决技能)的新成分(新任务)进行泛化的能力。展望未来,值得探索的是如何使DeBERTa以更明确的方式纳入组成结构,这可以使自然语言的神经和符号计算相结合,类似于人类的做法

Remark

我的评价是建议RoBERTa,XLNet,Electra,DeBERTa融合一起用成为超级无敌模型!

Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION相关推荐

  1. Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models

    Abstract&Introduction&Related Work 研究任务 基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战 基于判别模型的预训练模型的f ...

  2. Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)

    Abstract & Introduction & Related Work 研究任务 无标注数据NER学习 已有方法和相关工作 Unsupervised domain adaptat ...

  3. Raki的读paper小记:OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK

    Abstract&Introduction&Related Work 研究任务 多模式预训练的统一范式 包括图像生成.visual-grounding(visual grounding ...

  4. Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

    Abstract&Introduction&Related Work 研究任务 语言+视觉模态预训练任务 已有方法和相关工作 masked data已经成为一种主流 面临挑战 现有的多 ...

  5. Raki的读paper小记:Forget-free Continual Learning with Winning Subnetworks

    Abstract&Introduction&Related Work 研究任务 用子网络做CL 已有方法和相关工作 彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...

  6. Raki的读paper小记:Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets

    Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作 面临挑战 创新思路 利用持续学习过程中的持续稀 ...

  7. DEBERTA(Decoding-enhanced BERT with disentangled attention) 论文笔记

    目录 1. 论文简介 2. 贡献 2.1. 解耦注意机制(Disentangled attention) why How 2.2. 增强的掩码解码器(Enhanced mask decoder) Wh ...

  8. Stetman读paper小记:ATTEQ-NN

    注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...

  9. DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION

    Paper: https%3A//arxiv.org/pdf/2006.03654.pdf Code: https%3A//github.com/microsoft/DeBERTa 在DeBerta中 ...

  10. Stetman读paper小记:BackdoorBench - A Comprehensive Benchmark of Backdoor Learning

    之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要 这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...

最新文章

  1. 【物料钢卷识别与定位】:1.读取数据(获取原始数据)
  2. 如何彻底卸载mysql(xp)
  3. 单链表的建立,插入和释放
  4. python中print的用法_Python2与Python3中print用法总结
  5. Android补间动画笔记
  6. Java 位运算- 十进制数值转十六进制(内存中的数据)
  7. 嵌入式Linux基础学习笔记-文件IO编程-I/O多路复用
  8. vue/cli 3.0 font-size随屏幕大小变化而变化 rem设置
  9. js(Dom+Bom)第五天(1)
  10. linux 内核入口地址,linux内核的加载地址和入口地址
  11. 1月3日 升 级gazebo7
  12. Nand Flash驱动程序分析
  13. excel 查找重复值方法
  14. 动态数据的表格页面展示
  15. 11.LVS调度器详解
  16. 像点坐标的系统误差及其改正
  17. Android进阶之光 读书笔记
  18. 北斗GPS同步时钟(授时系统)技术原理详解
  19. 组合数学之隔板法:多元一次方程组解的统计
  20. 牛听听 总是获取音频流出错_如果被骚扰是女人的错 | 德国2分钟讽刺短片(双语视频)...

热门文章

  1. xsehll不能删除字符的解决方案
  2. python创建列表副本的方法_Python之列表方法
  3. iphone数据传输已取消怎么办_消失的3.5mm接口:厂商真好心取消3.5mm接口?其实大家全都是韭菜...
  4. 水电缴费系统php源码_php简易扫码付教育收费系统 v1.2
  5. JS 打印 data数据_用D3.js 十分钟实现字符跳动效果
  6. java replace三个参数_javascript replace()第二个参数为函数时的参数用法
  7. 【2019杭电多校第一场1002 = HDU6579】Operation(在线线性基区间最大异或值查询)
  8. 【洛谷P1256】公路修建(问题分析+最小生成树prim法)
  9. linux拷贝多行 y a b,copy /b命令无缝合并多个文件
  10. 计算机一级选择题比大小,科学网—【2年前写的】全国计算机等级考试 【三级网络】考试经验 - 钱世杰的博文...