Abstract & Introduction & Related Work

研究任务
持续学习（lifelong learning）
已有方法和相关工作
- LAMOL
- Component Freezing：虽然组件冻结也是微调过程中的一种常见做法，但它是为了防止模型低层的常识损失，相比之下，许多基于架构的LL方法，例如Rusu等人（2016），利用组件冻结来防止改变从以前的任务中学到的知识，并扩大模型以适应新的任务，从而使模型对遗忘免疫，我们的模型与基于架构的方法不同，只有一小部分模型被冻结，其大小在整个学习过程中是不变的
- Rationales：rationale是标签或预测的理由。在NLP中，它们通常是输入文本的一部分，支持或有助于类别标签。rationale可以由人类注释，也可以由机器学习模型生成。在多项研究中，人类的rationale已经被用来加强机器学习
面临挑战
创新思路
- 为了减轻灾难性遗忘，Rational LAMOL通过应用人类理性指导下的关键冻结，加强了LAMOL，这是一个最近的终生学习语言模型。当人类的理由不可用时，我们建议利用无监督的生成的rationales作为替代
实验结论
- 我们证明了在基于transformer模型中冻结可塑性成分（即最容易发生变化的成分）的重要性，以便在LLL环境中加强对以前所学任务的记忆
- 我们提出了关键成分识别算法，该算法通过分析基于transformer的LLL模型的理由，从而找到最可塑的成分来进行冻结。这个步骤就是所谓的临界冻结，最早是在计算机视觉中设计的（Nguyen等人，2020），但我们将其应用到NLP领域
- 我们提出，InvRat（Chang等人，2020）的无监督生成的理由可以有效地作为人类理由的替代物，使我们的框架可以应用于通用的NLP数据集

Methodology

Rational LAMOL

迭代的进行四个步骤：

使用模型 MiM_iMi 使用LAMOL的方式训练得到 M^i+1\hat{M}_{i+1}M^i+1
对 MiM_iMi 和 M^i+1\hat{M}_{i+1}M^i+1 使用关键成分识别剖析最具塑性的层或块
使用关键冻结，冻结最具塑的成分
训练模型，得到Mi+1{M}_{i+1}Mi+1

Critical Component Identification (CCI)

我们提出了关键成分识别（CCI）算法，在完全转向新的任务之前，指出我们基于transformer的LL模型中最可塑的模块

对于 taskitask_{i}taski 中的每一个 x∈Xx ∈ Xx∈X，CCI对比由 MiM_iMi 和 M^i+1\hat{M}_{i+1}M^i+1 生成的注意力映射来寻找关于这个样本最可塑的块b

然后，它返回所有b的模式的块 F\mathbb{F}F，该区块由X中的大多数样本投票选出。注意，为了便于参考，大多数变量名称都保留了与Nguyen等人（2020）相似的名称，为了可读性，一些部分被重构

为了寻找一个样本x的块b，我们迭代所有的块并且进行两个步骤：

首先，我们找到 MOM_OMO 中 j 区块相对于真实数据GT的代表图（即 RMMO,GT(j)RM_{MO,GT} (j)RMMO,GT(j)），通过从j区块中选择与人类对样本x的理由最相似的注意头 a∗a^∗a∗和标记 s∗s^∗s∗ 的注意力映射

我们假设，自我注意机制的语义性质会选择与对预测至关重要的积极证据最相关的标记，类似于支持产出的理由片段。为了计算注意力图谱和人类理由之间的相似性，我们使用了交叉联合（IoU）。从形式上看，下面的方程式解释了这一步骤

A是区块中所有注意头的集合，S是x中所有标记的集合。IoUM,GT(j,a,s)IoU_{M,GT}(j,a,s)IoUM,GT(j,a,s)反映了真实数据和区块j、头a和x中标记s的注意图之间的相似性。由于真实数据包含二进制标签，表明一个标记是否是理由的一部分，我们需要使用 Pβ−aP_β -aPβ−a 将注意力图 ATj,a,sAT_{j,a,s}ATj,a,s转换为二进制标签–一个简单的二进制阈值，对于大于整个序列上的 β−thβ-thβ−th 百分位的值返回1=（否则，0）。这是需要的，因为IoU是用于比较两个二进制掩码的。图2直观地显示了如何通过钻研模型的每个组成部分来计算IoU的分数

到 MNM_NMN 中的区块j相对于 MOM_OMO 的代表图在 MNM_NMN 中的区块j相对于 MOM_OMO 的代表性映射,这可以通过将方程1-3中的M和 GTGTGT 分别替换为 MNM_NMN 和 MOM_OMO ，并将方程3右侧的GT替换为Pβ(RMMO,GT(j))P_β(RM_{M_O,GT }(j))Pβ(RMMO,GT(j))来实现。之后，我们收集块j的最大 IoUMN,MOIoU_{M_N ,M_O}IoUMN,MO，它代表了我们引入任务i+1后模型中持有的任务i的知识量。因此，这个样本x的最可塑区块b是具有最低最大 IoUMN,MOIoU_{M_N ,M_O}IoUMN,MO的块

实际上，transformer块并不是我们可以冻结的最细的颗粒度。因为每个区块都包含几个注意头，有可能单独冻结一些注意头。因此，我们提出另一种算法，适用于头。这与算法1相似，但该算法不是搜索具有最低最大IoU的区块，而是使用注意力区块和注意力头一起作为键进行搜索。虽然IoU的定义保持不变，但代表图的定义将是更高的粒度。形式上，对于一个区块索引j和注意力头a，RMM,GTRM_{M,GT}RMM,GT 将被计算为

Unsupervised Rationale Generation

如第3.2节所述，我们的框架需要理由作为输入。然而，大多数现有的NLP数据集都没有标明理由。
为了克服这一限制，我们利用最近的无监督理由生成框架InvRat（Chang等人，2020年）来生成作为替代的理由。最初，InvRat是为单输入任务设计的，如情感分析。然而，由于我们实验的一些数据集是文本对分类，我们在每个样本的末尾附加了查询（或问题）以适应这些任务

Results and Discussion

Conclusion

为了在NLP任务中有效地保留所学的知识，我们提出了Rational LAMOL，这是一个学习框架，在新任务的训练中使用理由来识别和冻结模型的最关键部分。我们表明，合理的LAMOL能够在很大程度上超过LAMOL的表现。此外，我们的框架可以通过利用无监督的理由生成来应用于任何NLP数据集，消除了对人类理由的需求，同时保持了可比的改进。总的来说，合理的LAMOL在NLP中的LL与模型理解之间架起了一座桥梁，展示了真正的终身语言学习的潜力，并限制了灾难性遗忘的发生

Remark

方法复杂，觉得不靠谱

Raki的读paper小记：Rational LAMOL: A Rationale-Based Lifelong Learning Framework相关推荐

Raki的读paper小记：Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作面临挑战创新思路利用持续学习过程中的持续稀 ...
Raki的读paper小记：Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
Abstract&Introduction&Related Work 研究任务基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战基于判别模型的预训练模型的f ...
Raki的读paper小记：OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务多模式预训练的统一范式包括图像生成.visual-grounding(visual grounding ...
Raki的读paper小记：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务语言+视觉模态预训练任务已有方法和相关工作 masked data已经成为一种主流面临挑战现有的多 ...
Raki的读paper小记：Named Entity Recognition without Labelled Data: A Weak Supervision Approach（半成品）
Abstract & Introduction & Related Work 研究任务无标注数据NER学习已有方法和相关工作 Unsupervised domain adaptat ...
Raki的读paper小记：Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务用子网络做CL 已有方法和相关工作彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
Stetman读paper小记：ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
Stetman读paper小记：BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...
【不想读paper的时候看看】阅读文献？
[不想读paper的时候看看]为何阅读文献? 最近看了中国科学院大学(国科大/果壳)图书馆对我们一年级集中教学的同学关于图书馆资源与服务的培训PPT,截取了一些较有感触的slides做一下笔记. 1. ...
Paper：《Hidden Technical Debt in Machine Learning Systems—机器学习系统中隐藏的技术债》翻译与解读
Paper:<Hidden Technical Debt in Machine Learning Systems-机器学习系统中隐藏的技术债>翻译与解读导读:机器学习系统中,隐藏多少技术 ...

Raki的读paper小记：Rational LAMOL: A Rationale-Based Lifelong Learning Framework