Abstract & Introduction & Related Work

研究任务
- 预训练语言模型
已有方法和相关工作
面临挑战
- 越来越大的模型需要更多的计算资源和时间去训练
创新思路
- 因子化嵌入参数化
- 跨层参数共享
- 用SOP替换NSP
实验结论
- sota

ALBERT用了两个很重要的技术来减少参数规模

因子化嵌入参数化。通过将大的词汇嵌入矩阵分解成两个小矩阵，我们将隐藏层的大小与词汇嵌入的大小分开。这种分离使得在不大幅增加词汇嵌入的参数大小的情况下，更容易增长隐藏的大小。
跨层参数共享。这种技术可以防止参数随着网络的深度而增长。这两种技术都大大减少了BERT的参数数量而不严重损害性能，从而提高了参数效率。类似于BERT-large的ALBERT配置的参数数量减少了18倍，训练速度可以提高约1.7倍。减少参数的技术也作为一种正则化的形式，稳定了训练
为了进一步提高ALBERT的性能，我们还引入了一个用于句序预测的自监督损失（SOP）。SOP主要关注的是句间连贯性，旨在解决原始BERT中提出的下句预测（NSP）损失的无效性（Yang等人，2019；Liu等人，2019）

THE ELEMENTS OF ALBERT

MODEL ARCHITECTURE CHOICES

Factorized embedding parameterization

BERT,RoBERTa，XLNet用的都是wordpiece embedding，E的大小与隐藏层的大小H相联系

出于建模和实际的原因，这一决定似乎是次优的，具体如下

从建模的视角，wordpiece embedding意思是去学习上下文独立的表示，但是隐藏层的embedding是学习上下文依赖的表示

正如关于语境长度的实验所表明的那样（Liu等人，2019），类似BERT的表征的力量来自于使用语境来提供学习这种依赖语境的表征的信号。因此，将WordPiece嵌入大小E与隐藏层大小H分开，可以使我们更有效地使用总的模型参数，这是由建模需求决定的，H>>E

从实践的角度，NLP往往需要一个大的vocab size V，如果E=H，在嵌入矩阵中，V * E的矩阵大小很容易导致数十亿的参数量，大部分在训练阶段的更新都很稀疏

因此把embedding矩阵从 $\times E)$ 分解成 $\times E + E \times H)$ ，E<<H。

我们选择对所有的wordpiece使用相同的E，因为与whole-word embedding相比，它们在文档中的分布更加均匀，在whole-word embedding中，不同的词有不同的嵌入大小（Grave等人（2017）；Baevski & Auli（2018）；Dai等人（2019））是重要的

Cross-layer parameter sharing

ALBERT的默认跨层共享所有参数

图1显示了使用BERT-large和ALBERT-large配置的每一层的输入和输出嵌入的L2距离和余弦相似度（见表1）。我们观察到，ALBERT的层与层之间的过渡要比BERT的平滑得多。这些结果表明，权重共享对稳定网络参数有一定的影响。尽管与BERT相比，两个指标都有下降，但即使在24层之后，它们也没有收敛到0。这表明，ALBERT参数的解空间与DQE发现的空间有很大不同

Inter-sentence coherence loss

我们推测NSP任务作用不大是因为它过于简单，因为负样例是从不同的文档采样过来的

我们坚持认为，句间建模是语言理解的一个重要方面，但我们提出了一个主要基于连贯性的损失。也就是说，对于ALBERT，我们使用了一个句序预测（SOP）损失，它避免了主题预测，而是专注于句子间的连贯性建模。SOP损失使用与BERT相同的技术（来自同一文件的两个连续片段）作为正样例，并使用相同的两个连续片段作为负样例，但其顺序被调换。这迫使模型学习关于话语层面一致性属性的更精细的区分。正如我们在第4.6节中所显示的，事实证明NSP根本不能解决SOP的任务（也就是说，它最终学习了更容易的话题预测信号，并在SOP任务中表现为随机水平），而SOP可以在合理的程度上解决NSP的任务，大概是基于分析错位的一致性线索。因此，ALBERT模型持续改善了多句子编码任务的下游任务表现

MODEL SETUP

一些超参数的设定

EXPERIMENTAL RESULTS

DISCUSSION

虽然ALBERT-xxlarge的参数比BERT-large少，得到的结果也明显更好，但由于其结构更大，计算成本更高。因此，下一步的重要工作是通过稀疏注意（Child等人，2019）和块状注意（Shen等人，2018）等方法，加快ALBERT的训练和推理速度。一个正交的研究路线，可以提供额外的表示能力，包括硬例挖掘（Mikolov等人，2013）和更有效的语言建模训练（杨等人，2019）。此外，尽管我们有令人信服的证据表明，句子顺序预测是一项更加持续有用的学习任务，可以带来更好的语言表征，但我们假设，可能有更多的维度尚未被目前的自我监督训练损失所捕获，可以为所产生的表征创造额外的表征能力

Remark

减少参数量，而且work，是好文明！

Raki的读paper小记：ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS相关推荐

Raki的读paper小记：Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
Abstract&Introduction&Related Work 研究任务基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战基于判别模型的预训练模型的f ...
Raki的读paper小记：OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务多模式预训练的统一范式包括图像生成.visual-grounding(visual grounding ...
Raki的读paper小记：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务语言+视觉模态预训练任务已有方法和相关工作 masked data已经成为一种主流面临挑战现有的多 ...
Raki的读paper小记：Named Entity Recognition without Labelled Data: A Weak Supervision Approach（半成品）
Abstract & Introduction & Related Work 研究任务无标注数据NER学习已有方法和相关工作 Unsupervised domain adaptat ...
Raki的读paper小记：Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务用子网络做CL 已有方法和相关工作彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
Raki的读paper小记：Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作面临挑战创新思路利用持续学习过程中的持续稀 ...
Stetman读paper小记：BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...
Stetman读paper小记：ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
Albert: A lite bert for self-supervised learning of language representations (Albert)
Albert 历史意义: 1.Albert 各层之间采用参数共享和embedding因式分解减少参数量 2.在nlp预训练模型中正式采用轻量级bert模型 nlp领域(各个下游任务都有自身的模型) ...
ALBERT: 轻量级的BERT
ALBERT 前言 embedding参数因式分解参数共享 SOP instead of NSP 结论其他压缩方法前言当前的趋势是预训练模型越大,效果越好,但是受限算力,需要对模型进行瘦身.这 ...

Raki的读paper小记：ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS