Raki的读paper小记:CLASSIC: Continual and Contrastive Learning of Aspect Sentiment Classification Tasks
Abstract & Introduction & Related Work
- 研究任务
- aspect sentiment classification in domain incremental learning
- 对比持续学习
- 已有方法和相关工作
- 完善的只是新任务的学习,他们并没有处理灾难性遗忘的问题,每个任务使用一个单独的网络。
- 基于胶囊网络
- 面临挑战
- 创新思路
- 第一次在ASC领域探索持续学习
- 结合了对比学习
- 现有的对比学习使用现有数据(如图像)的各种转换(如旋转和裁剪)来生成数据的不同视图。然而,我们使用以前的任务模型中的隐藏空间信息来创建视图,以进行显式知识转移和提炼。现有的对比性学习无法做到这一点
- 实验结论
ASC的说明如下。给出一个方面的术语(例如,手机评论中的声音质量)和一个包含该方面的句子(例如,“声音质量很差”),ASC对该句子是否表达了对该方面的积极、消极或中立的意见进行分类
(1) 本文提出了ASC的领域问题持续学习的问题,这在以前是没有尝试过的。
(2) 本文提出了一个新的模型,称为 CLASSIC的新模型,该模型使用适配器将预训练的BERT纳入ASC的持续学习中,是一种新的对比性持续学习方法。一种新颖的对比性持续学习方法,用于知识转移和提炼,以及任务掩码来隔离特定任务的知识,以避免灾难性遗忘
Proposed CLASSIC Method
所提出的技术CLASSIC采用了(Xu et al., 2019)中基于BERT的ASC表述,其中方面术语(例如,声音质量)和评论句(例如,“声音质量是 大”)通过[SEP]进行串联。情感 极性是在[CLS]标记的基础上预测的
如前所述,尽管BERT可以在单一任务上达到SOTA,但它的结构和微调架构不适合于CL (见第1节),表现非常差(第4.4节)。我们发现,(Houlsby等人)中的BERT适配器想法。2019)中的BERT适配器更适合于CL
BERT Adapter
AdapterBERT(Houlsby等人,2019)给出了这个想法,它在BERT的每个转换层中插入了两个2层全连接的网络(适配器)(图1(CSC))。在结束任务的训练期间,只有适配器和归一化层被更新。所有其他的BERT参数都被冻结。这对CL来说是好事,因为微调BERT会导致严重的遗忘。适配器-BERT实现了与微调BERT类似的精度(Houlsby等人,2019)
Overview of CLASSIC
使用adapter-bert来避免fine-tune bert
CLASSIC在训练中需要两个输入:
(1)来自BERT transformer层的前馈层的隐藏状态h(t)
(2)任务 idtid_tidt(测试时不需要任务id,见3.2.3节)。输出是带有任务 ttt 特征的隐藏状态,以建立一个分类器
CLASSIC使用三个子系统来实现其目标(见第1节)。
(1) 对比集成蒸馏(CED),通过将以前的任务知识提炼到当前的任务模型中来减轻灾难性遗忘
(2) 对比知识共享(CKS),鼓励知识转移
(3) 对比监督学习(CSC):在当前任务模型上进行对比监督学习(CSC)以提高当前任务模型的准确性。我们把这个框架称为对比持续学习,其灵感来自于对比性学习
对比学习使用现有数据的多个视图进行表征学习,将相似的数据分组,并将不相似的数据推得很远,这使得学习一个更准确的分类器更加容易。它使用现有数据的各种转换来创建有用的视图。给定一个由N个训练例子组成的迷你批,如果我们为每个例子创建另一个视图,该批将有2N个例子。我们假设i和j是训练例子的两个视图。如果我们用i作为锚,(i,j)(i,j)(i,j) 被称为正样本对。所有其他k!=ik != ik!=i的对 (i,k)(i,k)(i,k) 都是负对。这个正样本对的对比性损失是
公式1适用于无监督的对比学习。它也可以用于有监督的对比学习,其中来自同一类别的任何两个实例/视图形成一个正数对,而一个类别的任何实例和其他类别的任何实例形成一个负数对
Overcoming Forgetting via Contrastive Ensemable Distillation (CED)
CED的目标是处理灾难性遗忘。我们首先介绍了CED所依赖的任务掩码,以保留以前的任务知识/模型,将其提炼到新的任务模型中,以避免灾难性遗忘
Task Masks (TMs)
任务mask:一个(可学习的)任务屏蔽被应用在激活函数之后,以选择性地激活一个神经元(或特征)。每个任务的四行对应于两个全连接层和它们相应的任务掩码。在训练前的神经元中,那些带有0的神经元是要保护的(被屏蔽的),那些没有数字的神经元是自由神经元(不使用)。在训练后的神经元中,那些带1的神经元表示对当前任务很重要的神经元,它们被用作未来的掩码。那些带有一种以上颜色的神经元表示它们被一个以上的任务所共享。那些没有颜色的0神经元不被任何任务使用
Contrastive Ensemble Distillation (CED)
TMs机制为不同的任务隔离了不同的参数 为不同的任务提供不同的参数。这似乎非常适合于 6875 因为以前的任务参数是固定的,不能被未来的任务所更新。任务更新。然而,由于DIL设置没有 任务ID,我们不能直接利用TM的优势。为了解决这个问题,我们 提出了CED目标,以帮助提炼所有以前的知识到当前的任务模型,这样 我们可以简单地使用最后一个模型作为最终模型 而不需要测试中的任务ID
Contrastive Supervised Learning of the Current Task (CSC)
总损失
Experiments
Conclusion
本文研究了ASC任务序列的领域增量学习(DIL),而不知道测试中的任务ID。我们的方法CLASSIC使用Adapter来利用BERT,并在微调中处理BERT的灾难性遗忘,以及提出的对比性持续学习来转移跨任务的知识,并将以前的任务的知识提炼到当前的任务,以便最后的模型可以用于测试中的所有任务,不需要任务ID。我们的实验结果表明,CLASSIC的性能优于最先进的baseline。最后,我们认为,CLASSIC的理念也适用于其他一些NLP任务。例如,在命名实体提取中,我们可以建立一个更好的模型来从不同领域的文本中提取相同类型的实体。每个领域的工作任务相同,但没有数据共享(数据可能来自不同的客户,有隐私方面的考虑)。由于这是一个提取任务,骨干模型需要转换为提取模型
Remark
读到一半发现方法这么复杂,瞬间就不想读了…无语
Raki的读paper小记:CLASSIC: Continual and Contrastive Learning of Aspect Sentiment Classification Tasks相关推荐
- Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
Abstract&Introduction&Related Work 研究任务 基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战 基于判别模型的预训练模型的f ...
- Raki的读paper小记:Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务 用子网络做CL 已有方法和相关工作 彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
- Raki的读paper小记:Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作 面临挑战 创新思路 利用持续学习过程中的持续稀 ...
- Raki的读paper小记:OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务 多模式预训练的统一范式 包括图像生成.visual-grounding(visual grounding ...
- Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务 语言+视觉模态预训练任务 已有方法和相关工作 masked data已经成为一种主流 面临挑战 现有的多 ...
- Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)
Abstract & Introduction & Related Work 研究任务 无标注数据NER学习 已有方法和相关工作 Unsupervised domain adaptat ...
- Stetman读paper小记:ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
- Stetman读paper小记:BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要 这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...
- 读《DeepChannel: Salience Estimation by Contrastive Learning for Extractive Document Summarization》
组会讲的论文,AAAI-19的一个工作,记一记 任务:文本摘要生成 方法: Extractive 基于分类,判断文章每一句话属不属于摘要 Abstractive 基于生成,常用的框架是encoder- ...
- 【不想读paper的时候看看】阅读文献?
[不想读paper的时候看看]为何阅读文献? 最近看了中国科学院大学(国科大/果壳)图书馆对我们一年级集中教学的同学关于图书馆资源与服务的培训PPT,截取了一些较有感触的slides做一下笔记. 1. ...
最新文章
- android 颜色填充工具栏,Android工具栏颜色未由colorPrimary设置
- 经典C语言程序100例之八八
- 计算机专业杀毒,计算机病毒查杀
- [CQOI2018] 解锁屏幕(状压dp)
- 蓝桥杯 方格填数(全排列+图形补齐)
- 软件工程15 个人阅读作业1
- docker安装_Docker安装
- 自学网html视频教程,ps教程自学网html视频教程
- CES 2022|Mobileye推出为自动驾驶汽车打造的全新EyeQ Ultra系统集成芯片
- jvisualvm 工具使用
- Bitvise SSH Client连接Linux服务器教程和使用
- 面试官问:“你还有什么事想问的?” 该怎么回答?
- 记录百度点击登录无响应及百度搜索显示异常
- fortran---说实话,不知道记录有什么用 写着玩吧
- 如何简单粗暴解决echars大数据量渲染卡顿问题
- onenote冲突服务器显示,ONENOTE同步分区失败,显示“正在等待另一个设备完成上载您的笔记”?...
- ξσ Dicky's GuestBook σξ
- 在中科院计算所实习的一年(更新中。。)
- 深度学习 100 题(转)
- SGO基线解算软件(南方测绘UI设计最美观的一款新版)
热门文章
- tcp/ip 协议的传输过程
- cisco用户隔离配置
- org.springframework.beans.factory.BeanDefin…
- java三大特性之—封装
- vue生成静态html文件_是否可以将Vue.js模板编译为静态HTML和CSS文件?
- python 3d绘图kmeans_使用python绘制3d的图形
- server2012文件服务器的开始按钮,Windows Server 2012实用技巧集锦
- java排序_Java实现九种排序算法3:插入排序之希尔排序
- BNU29140 Taikotaiko(概率)
- gpu云服务器运行游戏_99元起!华为云鲲鹏云手机正式发布:流畅运行大型游戏...