Abstract & Introduction & Related Work

研究任务
- aspect sentiment classification in domain incremental learning
- 对比持续学习
已有方法和相关工作
- 完善的只是新任务的学习，他们并没有处理灾难性遗忘的问题，每个任务使用一个单独的网络。
- 基于胶囊网络
面临挑战
创新思路
- 第一次在ASC领域探索持续学习
- 结合了对比学习
- 现有的对比学习使用现有数据（如图像）的各种转换（如旋转和裁剪）来生成数据的不同视图。然而，我们使用以前的任务模型中的隐藏空间信息来创建视图，以进行显式知识转移和提炼。现有的对比性学习无法做到这一点
实验结论

ASC的说明如下。给出一个方面的术语（例如，手机评论中的声音质量）和一个包含该方面的句子（例如，“声音质量很差”），ASC对该句子是否表达了对该方面的积极、消极或中立的意见进行分类

(1) 本文提出了ASC的领域问题持续学习的问题，这在以前是没有尝试过的。
(2) 本文提出了一个新的模型，称为 CLASSIC的新模型，该模型使用适配器将预训练的BERT纳入ASC的持续学习中，是一种新的对比性持续学习方法。一种新颖的对比性持续学习方法，用于知识转移和提炼，以及任务掩码来隔离特定任务的知识，以避免灾难性遗忘

Proposed CLASSIC Method

所提出的技术CLASSIC采用了(Xu et al., 2019)中基于BERT的ASC表述，其中方面术语（例如，声音质量）和评论句（例如，“声音质量是大”）通过[SEP]进行串联。情感极性是在[CLS]标记的基础上预测的

如前所述，尽管BERT可以在单一任务上达到SOTA，但它的结构和微调架构不适合于CL (见第1节），表现非常差（第4.4节）。我们发现，（Houlsby等人）中的BERT适配器想法。2019）中的BERT适配器更适合于CL

BERT Adapter

AdapterBERT（Houlsby等人，2019）给出了这个想法，它在BERT的每个转换层中插入了两个2层全连接的网络（适配器）（图1（CSC））。在结束任务的训练期间，只有适配器和归一化层被更新。所有其他的BERT参数都被冻结。这对CL来说是好事，因为微调BERT会导致严重的遗忘。适配器-BERT实现了与微调BERT类似的精度（Houlsby等人，2019）

Overview of CLASSIC

使用adapter-bert来避免fine-tune bert

CLASSIC在训练中需要两个输入：
(1)来自BERT transformer层的前馈层的隐藏状态h(t)
(2)任务 idtid_tidt（测试时不需要任务id，见3.2.3节）。输出是带有任务 ttt 特征的隐藏状态，以建立一个分类器

CLASSIC使用三个子系统来实现其目标（见第1节）。
(1) 对比集成蒸馏（CED），通过将以前的任务知识提炼到当前的任务模型中来减轻灾难性遗忘
(2) 对比知识共享（CKS），鼓励知识转移
(3) 对比监督学习（CSC）：在当前任务模型上进行对比监督学习（CSC）以提高当前任务模型的准确性。我们把这个框架称为对比持续学习，其灵感来自于对比性学习

对比学习使用现有数据的多个视图进行表征学习，将相似的数据分组，并将不相似的数据推得很远，这使得学习一个更准确的分类器更加容易。它使用现有数据的各种转换来创建有用的视图。给定一个由N个训练例子组成的迷你批，如果我们为每个例子创建另一个视图，该批将有2N个例子。我们假设i和j是训练例子的两个视图。如果我们用i作为锚，(i,j)(i,j)(i,j) 被称为正样本对。所有其他k!=ik != ik!=i的对 (i,k)(i,k)(i,k) 都是负对。这个正样本对的对比性损失是

公式1适用于无监督的对比学习。它也可以用于有监督的对比学习，其中来自同一类别的任何两个实例/视图形成一个正数对，而一个类别的任何实例和其他类别的任何实例形成一个负数对

Overcoming Forgetting via Contrastive Ensemable Distillation (CED)

CED的目标是处理灾难性遗忘。我们首先介绍了CED所依赖的任务掩码，以保留以前的任务知识/模型，将其提炼到新的任务模型中，以避免灾难性遗忘

Task Masks (TMs)

任务mask：一个（可学习的）任务屏蔽被应用在激活函数之后，以选择性地激活一个神经元（或特征）。每个任务的四行对应于两个全连接层和它们相应的任务掩码。在训练前的神经元中，那些带有0的神经元是要保护的（被屏蔽的），那些没有数字的神经元是自由神经元（不使用）。在训练后的神经元中，那些带1的神经元表示对当前任务很重要的神经元，它们被用作未来的掩码。那些带有一种以上颜色的神经元表示它们被一个以上的任务所共享。那些没有颜色的0神经元不被任何任务使用

Contrastive Ensemble Distillation (CED)

TMs机制为不同的任务隔离了不同的参数为不同的任务提供不同的参数。这似乎非常适合于 6875 因为以前的任务参数是固定的，不能被未来的任务所更新。任务更新。然而，由于DIL设置没有任务ID，我们不能直接利用TM的优势。为了解决这个问题，我们提出了CED目标，以帮助提炼所有以前的知识到当前的任务模型，这样我们可以简单地使用最后一个模型作为最终模型而不需要测试中的任务ID

Contrastive Supervised Learning of the Current Task (CSC)

总损失

Experiments

Conclusion

本文研究了ASC任务序列的领域增量学习（DIL），而不知道测试中的任务ID。我们的方法CLASSIC使用Adapter来利用BERT，并在微调中处理BERT的灾难性遗忘，以及提出的对比性持续学习来转移跨任务的知识，并将以前的任务的知识提炼到当前的任务，以便最后的模型可以用于测试中的所有任务，不需要任务ID。我们的实验结果表明，CLASSIC的性能优于最先进的baseline。最后，我们认为，CLASSIC的理念也适用于其他一些NLP任务。例如，在命名实体提取中，我们可以建立一个更好的模型来从不同领域的文本中提取相同类型的实体。每个领域的工作任务相同，但没有数据共享（数据可能来自不同的客户，有隐私方面的考虑）。由于这是一个提取任务，骨干模型需要转换为提取模型

Remark

读到一半发现方法这么复杂，瞬间就不想读了…无语

Raki的读paper小记：CLASSIC: Continual and Contrastive Learning of Aspect Sentiment Classification Tasks相关推荐

Raki的读paper小记：Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
Abstract&Introduction&Related Work 研究任务基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战基于判别模型的预训练模型的f ...
Raki的读paper小记：Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务用子网络做CL 已有方法和相关工作彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
Raki的读paper小记：Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作面临挑战创新思路利用持续学习过程中的持续稀 ...
Raki的读paper小记：OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务多模式预训练的统一范式包括图像生成.visual-grounding(visual grounding ...
Raki的读paper小记：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务语言+视觉模态预训练任务已有方法和相关工作 masked data已经成为一种主流面临挑战现有的多 ...
Raki的读paper小记：Named Entity Recognition without Labelled Data: A Weak Supervision Approach（半成品）
Abstract & Introduction & Related Work 研究任务无标注数据NER学习已有方法和相关工作 Unsupervised domain adaptat ...
Stetman读paper小记：ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
Stetman读paper小记：BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...
读《DeepChannel: Salience Estimation by Contrastive Learning for Extractive Document Summarization》
组会讲的论文,AAAI-19的一个工作,记一记任务:文本摘要生成方法: Extractive 基于分类,判断文章每一句话属不属于摘要 Abstractive 基于生成,常用的框架是encoder- ...
【不想读paper的时候看看】阅读文献？
[不想读paper的时候看看]为何阅读文献? 最近看了中国科学院大学(国科大/果壳)图书馆对我们一年级集中教学的同学关于图书馆资源与服务的培训PPT,截取了一些较有感触的slides做一下笔记. 1. ...

Raki的读paper小记：CLASSIC: Continual and Contrastive Learning of Aspect Sentiment Classification Tasks