1 简介

本文根据2020年《DistilBERT, a distilled version of BERT: smaller,faster, cheaper and lighter》翻译总结的。


损失函数采用了三元损失函数,包括distillation loss L_ce、监督训练损失函数(在我们例子中,、采用的masked language modeling loss Lmlm)、cosine embedding loss (Lcos)。

2 Knowledge distillation

Knowledge distillation,可参考[Bucila et al., 2006, Hinton et al., 2015],是一种压缩技术,一个小型的模型(student),是被训练来重现一个大模型(teacher或者一组模型)的行为。

最后的训练损失函数是distillation loss L_ce和监督训练损失函数(在我们例子中,采用的masked language modeling loss Lmlm)的线性组合。我们发现增加一个cosine embedding loss (Lcos),有助于对齐学生和老师的隐藏状态向量。

3 DistilBERT: a distilled version of BERT

学生架构:DistilBERT和BERT有相同的架构,token-type embeddings 和the pooler被去掉了,同时层的数量也减少了2倍。


4 实验结果


