Abstract & Introduction & Related Work

  • 研究任务
    lifelong learning
  • 已有方法和相关工作
  • 面临挑战
    • 现有方法大多基于图片或者游戏,而不是语言
  • 创新思路
    • 提出了一种基于语言模型的lifelong learning方法
    • 重现以前任务的伪样本,同时不需要额外的内存或模型容量
  • 实验结论
    • 结果显示,LAMOL可以防止灾难性遗忘,而没有任何不妥协的迹象,并且只用一个模型就可以连续完成五种非常不同的语言任务
    • sota
    • 此外,我们建议在伪样本生成过程中增加特定任务的标记,以便在所有先前的任务中均匀地分配生成的样本。这一扩展稳定了LLL,在大量任务的训练中特别有用
    • 我们分析了不同数量的伪样本如何影响LAMOL的最终性能,考虑了有和没有特定任务标记的结果

训练一个语言模型,同时具备生成伪样本的能力,而不需要额外的空间

LAMOL

DATA FORMATTING

受decaNLP(Bryan McCann & Socher,2018)使用的协议启发,我们使用的数据集的样本被框定在一个类似SQuAD的方案中,其中包括上下文、问题和答案。虽然LM同时是一个QA模型,但数据格式取决于训练目标。当作为QA模型进行训练时,LM在阅读上下文和问题后学习解码答案。另一方面,当作为LM训练时,LM学习解码给定的三个部分的token。

除了上下文、问题和答案之外,我们还增加了三个特殊的token:

  • ANS :插在问题和答案之间。由于在推理过程中,上下文和问题是已知的,所以在输入ANS后开始解码
  • EOS :每个样本的最后一个token,遇到EOS时停止解码
  • GEN :伪样本生成期间的第一个token,解码在输入GEN后开始

TRAINING

用一个系数 γ\gammaγ 来平衡伪样本的数量,并且置信度不够高的时候,生成的样本会被丢弃

同时优化两个损失

TASK-SPECIFIC TOKENS

在训练许多任务时,对所有任务使用相同的GEN token是有问题的,因为旧任务的部分在理论上是呈指数级下降的。例如,如果 γ=0.01γ=0.01γ=0.01,那么在训练第二个任务时,第一个任务的部分约为 1%,但在训练第三个任务时,只有约 0.010.01%0.01。这个问题对LLL绝对是有害的。为了缓解这个问题,我们可以选择用每个任务的特定任务token来取代GEN token,以通知模型生成属于特定任务的伪样本

在这个设定下,所有的之前的任务都有相同的伪样本数量 γ∣Ti∣\gamma|T_i|γ∣Ti​∣

请注意,由于每个任务都使用特定的token,随着更多任务的训练,LM的词汇量和嵌入权重会略有增加

EXPERIMENTAL RESULTS



CONCLUSION

我们提出了LAMOL,一种基于语言建模的简单而有效的LLL方法。一个单一的LM就能实现LLL,无需额外的模型组件,也无需保留旧的样本。此外,任何预训练的LM都可以用来利用大量的未标记文本来改善LLL。最后,只要有需要,就可以增加更多的任务

Remark

方法出奇的简单,大概可以作为一个base method?ICLR出品确实顶

Raki的读paper小记:LAMOL: LANGUAGE MODELING FOR LIFELONG LANGUAGE LEARNING相关推荐

  1. Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

    Abstract&Introduction&Related Work 研究任务 语言+视觉模态预训练任务 已有方法和相关工作 masked data已经成为一种主流 面临挑战 现有的多 ...

  2. Raki的读paper小记:Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets

    Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作 面临挑战 创新思路 利用持续学习过程中的持续稀 ...

  3. Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models

    Abstract&Introduction&Related Work 研究任务 基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战 基于判别模型的预训练模型的f ...

  4. Raki的读paper小记:OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK

    Abstract&Introduction&Related Work 研究任务 多模式预训练的统一范式 包括图像生成.visual-grounding(visual grounding ...

  5. Raki的读paper小记:Named Entity Recognition without Labelled Data: A Weak Supervision Approach(半成品)

    Abstract & Introduction & Related Work 研究任务 无标注数据NER学习 已有方法和相关工作 Unsupervised domain adaptat ...

  6. Raki的读paper小记:Forget-free Continual Learning with Winning Subnetworks

    Abstract&Introduction&Related Work 研究任务 用子网络做CL 已有方法和相关工作 彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...

  7. 【Lifelong learning】LAMOL: LANGUAGE MODELING FOR LIFELONG LANGUAGE LEARNING

    链接:http://arxiv.org/abs/1909.03329v2 简介 之前的终身学习(LLL)模型大多应用于CV和游戏领域,在nlp方面的应用比较少,本文因此提出了一个语言专用的终身学习模型 ...

  8. Stetman读paper小记:ATTEQ-NN

    注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...

  9. Stetman读paper小记:BackdoorBench - A Comprehensive Benchmark of Backdoor Learning

    之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要 这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...

  10. Paper简读 - ProGen: Language Modeling for Protein Generation

    欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/12 ...

最新文章

  1. Dialog 带白色的边的处理方法
  2. 并发编程--线程池与进程池
  3. 启用vsftpd服务
  4. C# 中使用JSON - DataContractJsonSerializer
  5. 10分钟学会vue滚动行为
  6. 机器学习及大数据经典算法笔记汇总
  7. 在TensorFlow中使用pipeline加载数据
  8. python第六篇文件处理类型
  9. 电子相册系统(八)验证用户是否可用
  10. Android Studio代码自动提示无效
  11. PuttyPsftp
  12. Matlab 曲线拟合之polyfit与polyval函数
  13. 百科知识 kux文件如何打开
  14. 全球四大卫星导航系统年鉴
  15. PHP中Linux知识,超全面的Linux基础知识整理
  16. 下列叙述中正确的是计算机课,大学计算机课程练习题(期末)
  17. JavaWeb-10-JavaScript高级学习笔记
  18. html带复选框的表格,Html 表格行 ID 复选框
  19. 11 Laws of The System Thinking in Software Develo(软件开发中的11个系统思维定律)
  20. 穿越火线枪战王者服务器维护,CF手游体验服6.10更新维护公告 六月版本来袭

热门文章

  1. 黑客攻击成网络安全大患 危害长久
  2. Python自然语言处理学习笔记(23):3.7 用正则表达式文本分词
  3. 2009年11月14日上海讲座-Linux触摸屏驱动PPT
  4. SQL Server 2008使用问题集锦
  5. java result_Result对象 + 统一异常处理
  6. svn服务器搭建和使用_使用Gitea搭建自己的Git服务器
  7. pod打包原理_webpack打包原理解析
  8. 微型计算机普遍采用的数字编码是,计算机原理复习题1
  9. php和r关系,R和php之间的集成
  10. es 创建索引 指定id_ES的基本用法