Abstract & Introduction & Related Work

研究任务
- 预训练语言模型
已有方法和相关工作
- BERT, RoBERTa
面临挑战
创新思路
- disentangled attention mechanism ：每个词用两个向量表示，分别编码其内容和位置，而词之间的注意力权重则分别用关于其内容和相对位置的分解矩阵来计算。
- enhanced mask decoder ：用于在解码层中加入绝对位置，以预测模型预训练中的掩码符号
- 此外，一个新的虚拟对抗训练方法被用来进行微调，以提高模型的泛化能力
实验结论
sota，大DeBERTa在superGLUE上首次超越了人类的宏平均分数

THE DEBERTA ARCHITECTURE

DISENTANGLED ATTENTION: A TWO-VECTOR APPROACH TO CONTENT AND POSITION EMBEDDING

token之间的注意力分数计算：

标准注意力机制，相当于用公式2的内容-内容，内容-位置两项，我们认为，位置-内容项也很重要，因为一个词对的注意权重不仅取决于它们的内容，还取决于它们的相对位置，这只能用内容-位置项和位置-内容项来完全建模。由于我们使用的是相对位置嵌入，位置到位置项并没有提供太多额外的信息，因此在我们的实施中从方程2中删除

用k来表示最大相对距离

DeBERTa注意力计算公式：

参数的一些解释
$Ai,j~\tilde{A_{i,j}}$ 是注意力矩阵的一个元素，代表token i 到token j 的注意力分数
$Q_c^i$ 上标代表第i行， $K_j^c$ 上标代表第c行

训练过程，总体来说没有什么复杂的地方

EFFICIENT IMPLEMENTATION

预训练中，使用512作为最大相对距离
一些减少复杂度的操作，通过这种方式不需要我们不需要分配内存来存储每个查询的相对位置嵌入

训练过程，总体来说没有什么复杂的地方

ENHANCED MASK DECODER ACCOUNTS FOR ABSOLUTE WORD POSITIONS

给出一个句子 “新商场旁边开了一家新店”，其中的 "店 "和 "商场 "两个词被掩盖起来进行预测。仅仅使用局部语境（如相对位置和周围的词）不足以让模型区分这个句子中的商店和商场，因为两者都在新词后面，相对位置相同。为了解决这一局限性，该模型需要考虑绝对位置，作为相对位置的补充信息。例如，该句的主语是 "商店 "而不是 “商场”。这些句法上的细微差别在很大程度上取决于这些词在句子中的绝对位置

有两种纳入绝对位置的方法。BERT模型在输入层中加入了绝对位置。在DeBERTa中，我们在所有Transformer层之后，但在用于mask token预测的softmax层之前纳入它们，如图2所示。通过这种方式，DeBERTa抓住了所有Transformer层中的相对位置，而在解码被掩盖的单词时只使用绝对位置作为补充信息。因此，我们称DeBERTa的解码组件为增强型屏蔽解码器（EMD）。在实证研究中，我们比较了这两种纳入绝对位置的方法，观察到EMD的效果要好得多。我们猜想，BERT使用的早期纳入绝对位置的方法可能会不适当地妨碍模型学习足够的相对位置信息

SCALE INVARIANT FINE-TUNING

本节介绍了一种新的虚拟对抗训练算法Scale-invariant-Fine-Tuning（SiFT），是Miyato等人（2018）；Jiang等人（2020）中描述的算法的变体，用于微调。

虚拟对抗训练是一种提高模型泛化能力的正则化方法。它通过提高模型对对抗性例子的鲁棒性来实现，对抗性例子是通过对输入进行小幅扰动而产生的。模型被正则化，以便当给定一个特定任务的例子时，模型产生的输出分布与它在该例子的对抗性扰动中产生的输出分布相同。

对于NLP任务，扰动被应用于单词嵌入而不是原始单词序列。然而，嵌入向量的值范围（规范）在不同的词和模型中是不同的。对于具有数十亿参数的大型模型来说，方差会变大，从而导致对抗性训练的一些不稳定性

EXPERIMENT

CONCLUSIONS

本文提出了一个新的模型架构DeBERTa（Decoding-enhanced BERT with disentangled attention），它利用两种新技术改进了BERT和RoBERTa模型。第一个是分解注意力机制，每个词用两个向量表示，分别编码其内容和位置，而词之间的注意力权重则分别用关于其内容和相对位置的分解矩阵来计算。第二种是增强型掩码解码器，它在解码层中加入了绝对位置，以预测模型预训练中的掩码标记。此外，一种新的虚拟对抗训练方法被用来进行微调，以提高模型在下游任务中的泛化能力。

我们通过全面的实证研究表明，这些技术大大改善了模型预训练的效率和下游任务的性能。拥有15亿个参数的DeBERTa模型在SuperGLUE基准测试中的宏观平均得分方面首次超过了人类的表现

DeBERTa在SuperGLUE上的表现超过了人类的表现，标志着走向通用人工智能的一个重要里程碑。尽管在SuperGLUE上取得了可喜的成绩，但该模型绝没有达到人类水平的NLU智能。人类非常善于利用从不同任务中学到的知识来解决一个新的任务，而不需要或很少需要特定任务的演示。这被称为成分泛化，即对熟悉的成分（子任务或基本问题解决技能）的新成分（新任务）进行泛化的能力。展望未来，值得探索的是如何使DeBERTa以更明确的方式纳入组成结构，这可以使自然语言的神经和符号计算相结合，类似于人类的做法

Remark

我的评价是建议RoBERTa，XLNet，Electra，DeBERTa融合一起用成为超级无敌模型！

Raki的读paper小记：DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION相关推荐

Raki的读paper小记：Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
Abstract&Introduction&Related Work 研究任务基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战基于判别模型的预训练模型的f ...
Raki的读paper小记：Named Entity Recognition without Labelled Data: A Weak Supervision Approach（半成品）
Abstract & Introduction & Related Work 研究任务无标注数据NER学习已有方法和相关工作 Unsupervised domain adaptat ...
Raki的读paper小记：OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务多模式预训练的统一范式包括图像生成.visual-grounding(visual grounding ...
Raki的读paper小记：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务语言+视觉模态预训练任务已有方法和相关工作 masked data已经成为一种主流面临挑战现有的多 ...
Raki的读paper小记：Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务用子网络做CL 已有方法和相关工作彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
Raki的读paper小记：Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作面临挑战创新思路利用持续学习过程中的持续稀 ...
DEBERTA(Decoding-enhanced BERT with disentangled attention) 论文笔记
目录 1. 论文简介 2. 贡献 2.1. 解耦注意机制(Disentangled attention) why How 2.2. 增强的掩码解码器(Enhanced mask decoder) Wh ...
Stetman读paper小记：ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION
Paper: https%3A//arxiv.org/pdf/2006.03654.pdf Code: https%3A//github.com/microsoft/DeBERTa 在DeBerta中 ...
Stetman读paper小记：BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...

Raki的读paper小记：DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION