©PaperWeekly 原创 · 作者 | 刘源鑫

单位 | 中科院信工所

研究方向 | 模型压缩

论文标题:

Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask Training

收录会议:

NAACL 2022

论文链接:

https://arxiv.org/abs/2204.11218

代码链接:

https://github.com/llyx97/TAMT

动机

以 BERT 的问世为标志,“预训练+ 下游任务微调”成为了 NLP 任务的一个主流范式。研究趋势显示,持续增长的参数量是预训练语言模型(PLM) 获得成功的一个关键因素。然而,这也增大了 PLM 在下游任务微调和部署的开销。

与此同时,近期关于彩票假设(Lottery Ticket Hypothesis, LTH [1])的研究 [2]发现,基于权重的剪枝(magnitude-based pruning)可以在预训练的 BERT 模型中发现一些 winning ticket 子网络,它们可以迁移到多个下游任务微调,并取得和完整 BERT 相当的效果。

通过初步的实验分析,我们发现这些 winning ticket 子网络良好的下游任务迁移效果,和它们在预训练任务上的效果存在相关性。如图 1 所示,在 50% sparsity 下,oneshot magnitude pruning (OMP)[1] 得到的子网络在预训练 mask language modeling(MLM)任务和下游任务上都明显超过随机子网络。然而,随着 sparsity [2] 持续上升,OMP 子网络在 MLM 任务和下游任务上的效果同时下降。这意味着如果我们能够找到在预训练任务上性能更好的 BERT 子网络,那么它们很可能也有更好的下游任务的迁移能力。

▲ 图1 OMP子网络和随机子网络(Rand)在下游任务(左)和预训练任务(右)的表现

下游任务无关的掩码训练TAMT

▲ 图2 TAMT在预训练任务上(MLM或知识蒸馏)学习子网络结构,然后将其迁移到不同的下游任务进行微调

基于以上动机,我们提出下游任务无关的掩码训练(Task-Agnostic Mask Training,TAMT)方法。如图 2 所示,TAMT 在预训练任务上优化 BERT 子网络的结构(不改变预训练参数值),从而使子网络在预训练任务上有较好的性能。随后搜索到的子网络将被迁移到多种下游任务进行微调训练。

2.1 BERT子网络

对于一个模型 ,我们通过在其参数 上加上二元掩码 得到子网络 。对于 BERT 模型 我们考虑的压缩对象是 Transformer 中的多头自注意力层(Self-Att)和 feed-forward network(FFN)中的参数矩阵,以及词嵌入(word embedding)矩阵。即

402 Payment Required

2.2 通过二元化和梯度估计进行掩码训练

为了用梯度下降更新二元掩码 ,我们借鉴了训练二元神经网络(binarized neural networks)[3] 的方法。这主要包括前向传播时的二元化,和反向传播时的梯度估计

具体地,在掩码训练过程中,模型中的每个参数矩阵 都会伴随一个二元掩码矩阵   和一个实数值的掩码矩阵 其中 由 进行二元化得到:

其中 为阈值。

在反向传播时,由于二元化操作不可导,我们用 straight-through estimator [4] 进行梯度估计,从而更新实数值掩码矩阵的参数:

其中 和 分别为学习率和损失函数。

2.3 子网络结构初始化

由于 OMP 子网络本身具有较好的性能(见图 1)并且 OMP 的计算开销很小,我们用 OMP 子网络来初始化后续的掩码训练。

2.4 TAMT训练目标

子网络结构的学习可以采用任意的下游任务无关(task-agnostic)的目标函数。在本文中我们探究两种训练目标:预训练 BERT 时使用的 MLM,以及基于隐层表示的知识蒸馏 [5]。具体地,在知识蒸馏中,我们优化学生模型(BERT 子网络)和教师模型(完整 BERT)隐层表示的 cosine 距离:

根据训练目标的不同,TAMT有三种不同的形式。TAMT-MLM 采用 MLM 为训练目标,TAMT-KD 采用隐层表示蒸馏为训练目标,TAMT-MLM+KD 同时采用两种训练目标。

实验

3.1 实验设置

模型:在主实验中,我们选用 BERT-base 和 RoBERTa-base 两种预训练语言模型。在其余实验分析中,我们主要以 BERT-base 为研究对象。

基线方法:我们主要和基于权重剪枝的方法对比,包括 OMP 和在 MLM 任务上进行的迭代权重剪枝(Iterative Magnitude Pruning, IMP)。

数据集:在子网络搜索阶段(IMP 和 TAMT),我们采用 WikiText-103 数据集。对于下游任务,我们选用自然语言理解 GLUE benchmark 中的 6 个数据集 CoLA, SST-2, RTE, MNLI, MRPC,STS-B,以及 SQuAD v1.1 问答数据集。

3.2 主实验结果

▲ 图3 BERT及其子网络的下游任务表现

▲ 图4 RoBERTa及其子网络的下游任务表现

图 3 和图 4 展示了不同 sparsity 下,不同方法搜索到的 BERT 和 RoBERTa 子网络迁移到下游任务微调的性能。我们发现:

  • 权重剪枝和 TAMT 都明显优于随机子网络,在较低 sparsity 下可以保留完整模型的大部分性能。

  • 采用不同训练目标的三种 TAMT 方法都优于 IMP 和 OMP,在较高的 sparsity 下可以找到迁移能力更强的 BERT/RoBERTa 子网络。

  • 不同的 TAMT 训练目标对于 BERT 子网络影响不大,而对于 RoBERTa,TAMT-KD+MLM > TAMT-MLM > TAMT-KD。这说明 MLM 和 KD 两种目标具有一定的一致性,或者至少不是冲突的。

3.3 预训练效果和下游任务效果的关系

▲ 图5 预训练任务(MLM及KD)dev loss和下游任务平均性能的关系

为了验证 TAMT 子网络下游任务性能的提升是否真的来源于预训练任务性能的提升(我们的动机),我们计算了 TAMT 过程中子网络在相应任务上的 dev loss,并且将之和下游任务性能联系起来。如图 5 所示,我们发现:

  • TAMT-MLM 和 TAMT-KD 分别具有最低的 MLM 和 KD loss,说明在 TAMT 过程中,子网络结构的确按照我们设定的目标被优化。

  • 同时,子网络在下游任务上的性能也随着 TAMT 对其结构的优化而逐渐提升。这说明了 BERT 子网络的预训练任务性能和下游任务(微调后)性能之间的确存在相关性,也证明了我们动机的合理性。

3.4 子网络搜索开销和下游任务效果的关系

▲ 图6 不同预训练步数(左)和时间(右)下搜索到的子网络(70% sparsity)的下游任务平均性能

IMP 和 TAMT 都需要通过一定的预训练来搜索子网络结构。前者交替进行参数训练和剪枝,而后者直接优化子网络结构。图 6 对比了二者的子网络搜索效率。可以看出,随着预训练开销的增加,TAMT 和 IMP 子网络的下游任务微调性能都逐渐提升。相比之下,TAMT 的提升速度更快,在下游任务性能相同(IMP 的最高性能)的情况下,TAMT 的训练开销要少 8 倍多。

3.5 子网络结构初始化的影响

▲ 图7 OMP初始化和随机初始化的对比

在以上实验中,我们默认采用 OMP 子网络作为 TAMT 的初始化。为了验证这么做的必要性,我们将 OMP 初始化和随机初始化进行对比。如图 7 所示,当 TAMT 以随机子网络为初始化时,随着训练进行下游任务迁移效果仍然可以稳定提升。但是相比于 OMP 初始化,随机初始化训练收敛后的最终结果要差很多。

更多实验结果和分析可以参见我们的论文。

总结及未来方向

在本文中,我们关注搜索可迁移的 BERT 子网络的问题。我们发现 BERT 子网络的下游任务迁移效果和其在预训练任务上的效果呈正相关。受此启发,我们提出利用下游任务无关掩码训练(TAMT)的方法搜索可迁移的 BERT 子网络。相比于启发式的权重剪枝方法,利用 MLM 或知识蒸馏作为训练目标的 TAMT 可以搜索到下游任务效果更好的 BERT 子网络,这在现有工作的基础上揭示了 BERT 子网络具有更强的下游任务迁移能力。同时 TAMT 在子网络搜索过程中也比迭代权重剪枝更加高效。

在 TAMT 的框架下,仍然有几个方向值得继续改进和探究:

  • 在本文中我们关注非结构化子网络,这需要特殊的硬件支持才能实现实际部署中的运算加速。因此在未来工作中可以探究用 TAMT 搜索结构化 BERT 子网络的效果。

  • TAMT 以及其他方法搜索到的子网络在 90% sparsity 下的效果都还不理想,因此另一个有意义的未来研究方向是探究如何改进 TAMT,从而在更高 sparsity 下搜索到可迁移的 BERT 子网络。

  • 为了实现这个目标,一个可行的方向是探究其他下游任务无关训练目标。

参考文献

[1] Jonathan Frankle and Michael Carbin. The lottery ticket hypothesis: Finding sparse, trainable neural networks. In ICLR 2019.

[2] Tianlong Chen, Jonathan Frankle, Shiyu Chang, Sijia Liu, Yang Zhang, Zhangyang Wang, and Michael Carbin. The lottery ticket hypothesis for pretrained BERT networks. In NeurIPS 2020.

[3] Itay Hubara, Matthieu Courbariaux, Daniel Soudry, Ran El-Yaniv, and Yoshua Bengio. Binarized neural networks. In NIPS 2016.

[4] Yoshua Bengio, Nicholas Léonard, and Aaron C. Courville. 2013. Estimating or propagating gradients through stochastic neurons for conditional computation. CoRR, abs/1308.3432.

[5] Siqi Sun, Yu Cheng, Zhe Gan, and Jingjing Liu. Patient knowledge distillation for BERT model compression. In EMNLP/IJCNLP 2019.

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

NAACL 2022 | TAMT:通过下游任务无关掩码训练搜索可迁移的BERT子网络相关推荐

  1. NAACL 2022 | DOP-Tuning: 面向对话摘要领域自适应的轻量级微调方法

    ©作者 | 曾伟豪 单位 | 北京邮电大学 研究方向 | 对话摘要生成 本文介绍一下我们组在面向领域迁移的对话摘要任务上的工作. 论文标题: Domain-Oriented Prefix-Tuning ...

  2. NAACL 2022事件相关(事件抽取、事件关系抽取、事件预测等)论文汇总

    NAACL 2022事件抽取相关(事件抽取.事件关系抽取.事件预测等)论文汇总,已更新全部的论文讲解. Event Extraction RAAT: Relation-Augmented Attent ...

  3. NAACL 2022 | 机器翻译SOTA模型的蒸馏

    ©PaperWeekly 原创 · 作者 | BNDSBilly 研究方向 | 自然语言处理 Background ICLR 2021 的一篇文章提出了基于 KNN 方法的机器翻译(kNN-MT),可 ...

  4. NAACL 2022 | 字节和加州大学提出ConST模型,探讨对比学习如何助力语音翻译?

    原文链接:https://www.techbeat.net/article-info?id=3692 作者:叶蓉 前言 全球化下应用最广泛的 AI 技术是什么?机器翻译必然是其中之一.除了纯文本信息的 ...

  5. NAACL 2022 | DiffCSE:基于差异的句向量对比学习方法

    ©作者 | 曾伟豪 单位 | 北京邮电大学 研究方向 | 对话摘要生成 论文标题: DiffCSE:Difference-based Contrastive Learning for Sentence ...

  6. #今日论文推荐#NAACL 2022 | 基于Prompt的文本生成迁移学习

    #今日论文推荐#NAACL 2022 | 基于Prompt的文本生成迁移学习 预训练语言模型(PLM)通过微调在文本生成任务方面取得了显著进展.然而,在数据稀缺的情况下,微调 PLMs 是一项挑战.因 ...

  7. bert如何应用于下游任务_培训特定于法律域的BERT

    bert如何应用于下游任务 Google's Bidirectional Encoder Representations from Transformers (BERT) is a large-sca ...

  8. NAACL 2022 | FACTPEGASUS:抽象摘要的真实性感知预训练和微调

    ©作者 | 董冠霆 单位 | 北京邮电大学 研究方向 | 自然语言理解 论文标题: FactPEGASUS: Factuality-Aware Pre-training and Fine-tuning ...

  9. NAACL 2022 | 具有元重加权的鲁棒自增强命名实体识别技术

    ©作者 | 回亭风 单位 | 北京邮电大学 研究方向 | 自然语言理解 自增强(self-augmentation)最近在提升低资源场景下的 NER 问题中得到了越来越多的关注,token 替换和表征 ...

  10. NAACL——2022会议在读

    会议论文地址:(别人整理的,存在遗漏,而且,大家重点可能也不一样,就做参考吧)https://zhuanlan.zhihu.com/p/509026879 开胃菜 A Simple yet Effec ...

最新文章

  1. 2018年第一场省赛:黑龙江省智能车邀请赛
  2. python爬取图片全网通_UC头条:全网通杀——暴强工具推荐: 下载你看到的任意视频...
  3. First use cursor and initially understand it
  4. 配置Apache2.2+PHP5+CakePHP1.2+MySQL5
  5. linux 用户进程结束后 malloc申请的内存会自动释放吗,进程退出后malloc的内存是否会被释放?
  6. MySQL高级 - like模糊匹配
  7. python界面开发webview_python在webview和activity混合页面下怎么定位
  8. Github-推送代码报错“error:RPC failed;curl 56 OpenSSL SSL_read: SSL_ERROR_SYSCALL,errno 10054”解决方案
  9. 连接Mysql弹出2005_正确安装数据库SQL2005和安装出现的问题的解决方法
  10. extjs4 store传参使用方法
  11. [RN] React Native 使用 Redux 比较详细和深刻的教程
  12. html5 调用歌词播放器,如何用h5+js实现音乐歌词同步播放器
  13. 5年从点点点到测开,写给即将进入或者正在做测试的你...
  14. rpm安装mysql8(通过脚本快速配置)
  15. 将i am a student转换成 student a am i
  16. MySQL数据库实操教程(18)——数据库事务及其隔离级别
  17. 计算机管理中不显示独立显卡,win10系统下检测不到独立显卡如何解决
  18. 外校保研北大计算机,北大2018年本校保研率超53% 外校生多来自双一流名校
  19. 玖益科技:拼多多店铺的优化步骤
  20. 数字孪生技术架构概述

热门文章

  1. 2020年苹果开学季+教育优惠详细讲解
  2. Bitset 源码解析
  3. 微信如何推送html文件,微信推送怎么附上文件_怎样在微信公众号上传附件图文步骤...
  4. linux系统中打rz命令后出现waiting to receive.**B0100000023be50
  5. 《社会心理学》第一章读书笔记
  6. 毕业论文选题方法和论文各部分写作技巧
  7. 如何用es6 set实现交差并集
  8. php 判断是否是日文,php正则判断中文韩文的编码的例子
  9. 罗盘时钟python代码_HTML 罗盘式时钟
  10. 合并的表格怎么加横线_怎么在表格中加一横线