增量学习更多的起源于认知科学神经科学对记忆和遗忘机制的研究，Continual lifelong learning with neural networks : A review综述探讨了增量学习在生物学和认知科学启发。
论文地址：https://arxiv.org/abs/1802.07569
增量学习的能力是人类和动物有能力在其一生中不断地获取、微调和转移知识和技能。该能力是由一组丰富的神经认知机制介导的，这些机制共同促进我们感觉运动技能的发展和专业化，以及长期记忆巩固和检索。在现实世界中交互和处理连续信息流，在在吸收新知识的同时保留甚至整合、优化旧知识。

机器学习和神经网络长期面临的挑战：从非平稳数据(连续的数据流)分布中不断获取增量可用信息通常会导致灾难性的遗忘或干扰。从头训练模型很好的解决了灾难性遗忘问题，但这种方法效率非常低，并且阻碍了实时学习新数据。

稳定性-可塑性困境是为了克服灾难性遗忘，学习系统一方面必须表现出在持续输入的基础上获取新知识和提炼现有知识的能力（可塑性），另一方面要防止新输入对现有知识的显着干扰（稳定性）。一个系统必须在多大程度上是可塑性的，才能整合新信息，并且必须是稳定的，以免灾难性地干扰整合的知识。

CLS 理论定义了海马和新皮质在学习和记忆中的互补贡献，表明在学习和记忆中存在专门的机制。保护综合知识的人类认知系统。海马系统表现出短期适应能力，并允许快速学习新信息，这些信息又会被转移并整合到新皮质系统中以进行长期存储。新皮质的特点是学习速度慢，负责学习一般性。

1 终身学习的生物学方面

1.1 稳定性-可塑性困境

人类体感皮层可以在运动学习任务期间吸收新信息，而不会破坏先前获得的运动技能的稳定性。神经突触可塑性是大脑产生神经结构物理变化的基本特征，使我们能够学习、记忆和适应动态环境。

1.2 赫布可塑性和稳定性

皮层组织的神经模式至少在发育早期可以由外部环境因素驱动。赫布规则指出，突触前细胞对突触后细胞的反复和持续刺激会导致突触功效增加。在整个开发过程中，神经系统会稳定下来以形成神经连接的最佳功能模式。最简单的赫布可塑性形式考虑了突触强度w由突触前活动的产物更新x和突触后活动y，给定的学习率ŋ。

然而，赫布可塑性本身是不稳定的，会导致神经活动失控，因此需要补偿机制来稳定学习过程。赫布系统的稳定性通常是通过增加赫布可塑性和附加约束来实现的，例如单个突触权重或平均神经活动的上限。可塑性的稳态机制包括直接影响突触强度的突触缩放和元可塑性。在不失一般性的情况下，稳态可塑性可以被视为调节赫布可塑性的不稳定动力学的调节效应或反馈控制信号（见图1 a）。反馈控制器根据观察到的神经活动直接影响突触强度，并且必须相对于不稳定系统的时间尺度快速。以最简单的形式，调制的赫布可塑性可以通过引入额外的调制信号来建模m到等式。使得突触更新由下式给出：

图 1。神经突触适应的两个方面的示意图：（a）具有稳态可塑性的Hebbian 学习作为一种补偿机制，使用观察来计算反馈控制信号。(b) 互补学习系统 (CLS) 理论包括用于快速学习情景信息的海马体和用于缓慢学习结构化知识的新皮质。

1.3 互补的学习系统

新皮质和海马在学习和记忆巩固中互补贡献。互补学习系统（CLS）理论认为海马系统表现出短期适应能力，并允许快速学习新信息，这些信息反过来会随着时间的推移被回放到新皮层系统以使其长期保留（见图. 1 b)。
相互作用海马和新皮质功能对于同时学习规律性（环境统计）和细节（情景记忆）至关重要。众所周知，这两个大脑区域都通过 Hebbian 和错误驱动机制进行学习。在新皮质中，反馈信号将产生与任务相关的表征，而在海马体中，错误驱动的调制可以在模式识别和信息回忆完成之间切换其功能。
总体而言，CLS 理论拥有有效概括经验的方法，同时以终生方式保留特定记忆。

1.4学习不忘

人类通常不会表现出强烈的灾难性遗忘事件，因为我们所接触到的那种经历经常是交错的。然而，当新的体验具有强烈的沉浸感时，例如在儿童从韩语急剧转变为法语的情况下，可能会观察到遗忘效应。总之，这些发现揭示了一种调节良好的平衡，一方面，必须保护巩固的知识以确保其长期持久性，并避免在长时间学习新任务和技能期间发生灾难性干扰。另一方面，在某些情况下，例如身临其境的长期体验，旧知识可以被覆盖，有利于新知识的获取和提炼。

2 神经网络中的终身学习和灾难性遗忘

2.1 终身机器学习

终身学习系统被定义为一种自适应算法，能够从连续的信息流中学习，这些信息随着时间的推移逐渐变得可用，并且要学习的任务数量没有预定义(例如分类任务中的类别数)。至关重要的是，新信息的适应应该在没有灾难性遗忘或干扰的情况下发生。
三个关键方面来避免连接主义模型中的灾难性遗忘（i）为新知识分配额外的神经资源；(ii) 如果资源是固定的，则使用不重叠的表示；(iii) 在表示新信息时交织旧知识。
重新训练整个网络的方法，同时正则化以防止先前学习的任务发生灾难性遗忘（图 2a），有选择地训练网络并在必要时扩展网络以表示新任务的方法（图 2 b、c），以及为记忆巩固建立互补学习系统模型的方法，例如通过使用记忆回放来巩固内部表征（2.4节））。

图 2。用于终身学习的神经网络方法的示意图：（a）在正则化的同时进行再训练，以防止先前学习的任务发生灾难性遗忘，（b）具有网络扩展的不变参数以表示新任务，以及（c）具有可能扩展的选择性再训练

2.2 正则化方法

正则化方法通过对神经权重的更新施加约束来减轻灾难性遗忘。从理论神经科学模型的启发，这些模型表明可以通过具有产生不同可塑性水平的级联状态的突触来保护综合知识不被遗忘。从计算的角度来看，这通常是通过额外的正则化项来建模的，这些正则化项会惩罚神经网络映射函数的变化。
Li 和 Hoiem (2016)提出了由卷积神经网络(CNN)组成的无遗忘学习 (LwF) 方法，其中通过使用知识蒸馏来强制预测先前学习任务的网络与当前任务的网络相似，即将知识从一个大型、高度正则化的模型转移到一个较小的模型中。

上图展示了一个具有多头网络结构的模型学习新任务的不同策略，其中(a)为已经训练好的基于CNN的原始模型，表示不同任务共享的CNN参数，表示与原始任务相关的MLP参数，当加入一个新的分类任务时，我们可以增加一个随机初始化的MLP参数。基于来学习的方法包括如下几类：
**微调(Fine-tuning)：**微调没有旧任务参数和样本的指导，因此模型在旧任务上的表现几乎一定会变差，也就是发生灾难性遗忘。
**联合训练(Joint Training)：**联合训练相当于在所有已知数据上重新训练模型，效果最好，因此通常被认为是「增量学习的性能上界」，但训练成本太高。
**特征抽取(Feature Extraction)：**特征抽取只训练，共享参数没有得到更新，虽然不影响模型在旧任务上的表现，但不能有效捕获新任务独有的特征表示，在新任务上的表现通常不如人意。
LwF算法是介于联合训练和微调训练之间的训练方式，LwF的特点是它不需要使用旧任务的数据也能够更新。LwF算法的主要思想来自于knowledge distillation，也就是使新模型在新任务上的预测和旧模型在新任务上的预测相近。
具体来说，LwF算法先得到旧模型在新任务上的预测值，在损失函数中引入新模型输出的蒸馏损失，然后用微调的方法在新任务上训练模型，从而避免新任务的训练过分调整旧模型的参数而导致新模型在旧任务上性能的下降。算法流程如下图所示，其中用于权衡模型的稳定性和可塑性。

但是，这种方法的缺点是高度依赖于新旧任务之间的相关性，当任务差异太大时会出现任务混淆的现象(inter-task confusion)，并且一个任务的训练时间会随着学习任务的数量线性增长，同时引入的正则项常常不能有效地约束模型在新任务上的优化过程。
在监督和强化学习场景中提出了弹性权重巩固（EWC）模型。该方法包括对旧任务和新任务的参数之间的差异进行二次惩罚，这会减慢对先前学习知识的任务相关权重编码的学习。C算法实际上对应了一个通用的参数约束方法，它引入了一个额外的和参数有关的正则损失。该损失会根据不同参数的重要性来鼓励新任务训练得到的新模型参数尽量靠近旧模型参数。
Maltoni 和 Lomonaco (2018)提出了针对单增量任务场景的 AR1 模型，该模型结合了架构和正则化策略。正则化方法倾向于逐批逐步减少权重变化的幅度，其中大部分变化发生在顶层。相反，在 AR1 中，中间层的权重在遗忘方面没有负面影响。在 CORe50 ( Lomonaco & Maltoni, 2017 ) 和 iCIFAR-100 ( Krizhevsky, 2009 ) 上报告的结果表明，AR1 允许训练深度卷积模型时遗忘更少，性能优于 LwF、EWC 和 SI。
概括起来，基于正则化的增量学习方法通过引入额外损失的方式来修正梯度，保护模型学习到的旧知识，提供了一种缓解特定条件下的灾难性遗忘的方法。不过，虽然目前的深度学习模型都是过参数化的，但模型容量终究是有限的，我们通常还是需要在旧任务和新任务的性能表现上作出权衡。

2.3 动态架构

通过动态适应新的神经资源来改变架构属性以响应新信息，例如，使用增加数量的神经元或网络层进行重新训练。

2.4 补充学习系统和记忆回放

CLS 理论为模拟记忆巩固和检索的计算框架提供了基础，其中记忆和泛化的互补任务由哺乳动物海马体和新皮质的相互作用介导。重要的是，情景记忆（特定经验）和语义记忆（一般结构化知识）的相互作用为在没有感官输入的情况下知识整合机制提供了重要的见解。
Lopez-Paz 和 Ranzato (2017)提出了梯度情景记忆 (GEM) 模型，该模型可以将知识积极转移到以前的任务中。GEM 最大程度地减少灾难性遗忘的主要特征是用于存储给定任务中观察到的示例的子集的情景记忆。
帕里西等人（2018）提出了一种双记忆自组织架构，用于终身学习视频中的时空表示。互补记忆被建模为循环自组织神经网络：情景记忆通过竞争性 Hebbian 学习快速适应传入的新感觉观察，而语义记忆逐渐学习紧凑表示通过使用与任务相关的信号来调节结构可塑性的内在水平。为了在没有感觉输入的情况下巩固知识，情景记忆中神经重新激活的轨迹会定期重播到两个记忆中。

2.5 基准和评估指标

通常以评估整体性能、灾难性遗忘水平和知识转移。模型性能反映了它在一次增量学习一个类的同时保留先前学习信息的能力。最后，在多模态学习实验中，同一个模型依次用不同模态的数据集进行训练，这测试了模型增量学习具有显着不同特征表示的新信息的能力（例如，首先学习一个图像分类数据集，然后学习音频分类数据集）

图 3。用于评估终身学习方法的基准数据集的示例图像：（a）具有 10 个数字类别的 MNIST 数据集，（b）由 Caltech-UCSD Birds-200（CUB-200）数据集组成200 种不同鸟类的图像），以及 © CORe50，包含 50 个在背景、照明、模糊、遮挡、姿势和比例方面有变化的物体。
Lomonaco 和 Maltoni (2017)提出了 CORe50，这是一个用于连续对象识别的新数据集，包括从不同角度观察到的 50 类对象，包括背景、照明、模糊、遮挡、姿势和比例的变化（图3c）。对于上面讨论的数据集，CORe50 提供了在实验条件下收集的样本，这些样本更接近于自主代理和机器人在现实世界中所接触的情况（第3节）。除了数据集，作者还提出了三种增量学习场景：（i）新实例（NI），其中所有类都显示在第一批中，而已知类的后续实例随着时间的推移变得可用，（ii）新类(NC) 其中，对于每个连续批次，都有新的对象类可用，因此模型必须处理新类的学习而不会忘记以前学习过的类，以及 (iii)新实例和类(NIC)，其中既有新类也有新实例在每个训练批次中呈现。根据报告的结果，EWC ( Kirkpatrick et al., 2017 ) 和 LwF ( Li & Hoiem, 2016 ) 在 NC 和 NIC 中的表现明显低于 NI。

图 4。增量课堂学习实验的几种终身学习方法的结果。在 MNIST (a)、CUB-200 (b) 和 AudioSet © 上评估的均值测试准确度显示为以下方法：FEL（红色）、MLP（黄色）、GeppNet（绿色）、GeppNetSTM（蓝色）、EWC（粉色）和离线模型（虚线）。
这些结果表明，终身学习是一项非常具有挑战性的任务，重要的是，大多数方法的性能可能会根据具体的学习策略而显着不同。这表明，虽然有大量方法能够在高度受控的实验条件下减轻灾难性遗忘，但对于更复杂的场景，终身学习尚未得到解决。因此，需要额外的研究工作来开发稳健且灵活的方法，以适应更详尽的基准评估方案。

3 发展方法和自主代理

3.1 走向自主代理

直观地说，为人工代理提供所有必要的先验知识以在现实世界条件下有效操作是不现实的（Thrun & Mitchell，1995）。因此，人工代理必须表现出更丰富的学习能力，使其能够在复杂环境中进行交互，以处理和理解连续的（通常是不确定的）信息流（ Hassabis 等人，2017 年，Wermter 等人，2005 年））。
由跨学科研究驱动的成熟和新兴的神经网络方法，介绍了神经科学的发现、心理学和认知科学，用于开发终身学习的自主代理。我们专注于讨论关键发展阶段和课程学习的模型（第 3.2节）、在获得新任务期间重用综合知识的迁移学习（第 3.3节）、由好奇心和内在动机驱动的自主探索和目标选择（第 3.4节），以及多感官系统和具身代理的终身学习的跨模式方面（第 3.5节）。特别是，我们讨论了这些组件如何（见图5) 可用于（独立或组合）改进当前解决终身学习的方法。

图 5。开发能够在复杂环境中长时间学习的自主代理的主要组成部分示意图：发展和课程学习（第3.2节）、迁移学习（第 3.3节）、好奇心和内在动机（第 3.4节），以及跨模式学习（第 3.5节）。

3.2 发展和课程学习

学习和发展以一种非常复杂的方式相互作用。当以有意义的方式组织示例时，人类和动物表现出更好的学习表现，例如，通过使学习任务逐渐变得更加困难（Krueger & Dayan, 2009）。根据这一被称为课程学习的观察，Elman (1993)表明，具有渐进式更难任务的课程（图 5 a）会导致神经网络系统的训练性能更快。这激发了机器人技术中的类似方法（Sanger，1994 ）和最近的机器学习方法，研究课程学习对学习性能的影响（Bengio 等人，2009 年，Graves 等人，2016 年，里德和德弗雷塔斯，2015 年）。对复杂度有限的数据集（例如 MNIST）的实验表明，课程学习充当无监督预训练，从而提高了泛化能力，并加快了训练过程向全局最小值的收敛速度。然而，课程学习的有效性对于通过任务推进的方式是高度敏感的。

3.3 迁移学习

迁移学习是指在一个领域中应用先前获得的知识来解决一个新领域中的问题。前向迁移是指学习任务的影响Task A一个对未来任务的表现有影响Task B，而后向迁移是指当前任务的影响Task B上一个任务Task A（图 5 b）。出于这个原因，迁移学习代表了人工系统的一个非常有价值的特征，用于从（有限数量的）特定样本中推断出一般规律，假设多个学习任务同时可用，旨在提高一个特定任务的性能。

3.4 好奇心的内在动机

内在动机的计算模型从人类婴儿和儿童选择目标的方式中汲取灵感，并逐渐获得在终身学习框架中定义发展结构的技能。婴儿似乎通过经验探索过程来选择最大化内在学习奖励的经验（Gopnik 等，1999）。从建模的角度来看，已经提出了对环境的内在动机探索，例如，由学习进度的最大化驱动（Oudeyer 等人（2007 年）和Schmidhuber（1991 年），见图5c），可以导致类似于人类的发展结构的自我组织，其中获得的技能逐渐变得更加复杂。

3.5 多感官学习

整合多感官信息的能力是大脑的一个关键特征，它与环境产生连贯、稳健和有效的交互。来自不同传感器模式（例如视觉、音频、本体感觉）的信息可以集成到多感官表示中或用于增强非感官表示（见图5d）。

4 总结

终身学习代表了人工系统和自主代理在现实世界数据上运行的一个非常有趣但具有挑战性的组成部分，这些数据通常是非平稳的和时间相关的。哺乳动物的大脑仍然是终身学习的最佳模型，这使得受生物启发的学习模型成为一种引人注目的方法。结构可塑性的一般概念（第 1.2节）在机器学习中广泛使用即使不考虑生物学需求，它本身也代表了终身学习的有希望的解决方案。为减轻灾难性遗忘和干扰而提出的计算解决方案侧重于调节内在可塑性水平以保护获得的知识（第 2.2节），动态分配新的神经元或网络层以适应新知识（第 2.3节），以及使用具有经验回放的互补学习网络用于记忆巩固（第 2.4节）。然而，尽管取得了重大进展，但目前的终身学习模型仍远未提供生物系统所表现出的灵活性、鲁棒性和可扩展性。最流行的终身学习深度和浅层学习模型仅限于监督领域，依赖于在受控环境中收集的大量注释数据（第 2.5节）。这种特定领域的训练方案不能直接应用于在高度动态、非结构化环境中运行的自主代理。
需要额外的研究工作来结合多种方法，这些方法整合了在人类学习者中观察到的各种因素。可以对发展关键时期的基本机制（第 3.2节）进行建模，以凭经验确定方便的（多层）神经网络架构和初始连接模式，从而提高模型在后续学习任务中的性能。包括课程和迁移学习的方法（第 3.3节）是重用先前获得的知识和技能以通过共享低级和高级表示来解决新领域中的问题的基本特征。对于自主学习的代理，使用内在动机的方法（第 3.4节) 对自我产生目标至关重要，导致探索的经验过程和逐渐获得越来越复杂的技能。最后，多感官整合（第 3.5节）是自主代理在高度动态和嘈杂环境中运行的一个关键特征，在不确定的情况下也能导致稳健的学习和行为。

《Continual lifelong learning with neural networks : A review》阅读笔记相关推荐

trainer setup_Detectron2源码阅读笔记-(一)Configamp;Trainer
一.代码结构概览 1.核心部分 configs:储存各种网络的yaml配置文件 datasets:存放数据集的地方 detectron2:运行代码的核心组件 tools:提供了运行代码的入口以及一切可 ...
VoxelNet阅读笔记
作者:Tom Hardy Date:2020-02-11 来源:VoxelNet阅读笔记
Transformers包tokenizer.encode()方法源码阅读笔记
Transformers包tokenizer.encode()方法源码阅读笔记_天才小呵呵的博客-CSDN博客_tokenizer.encode
源码阅读笔记 BiLSTM+CRF做NER任务流程图
源码阅读笔记 BiLSTM+CRF做NER任务(二) 源码地址:https://github.com/ZhixiuYe/NER-pytorch 本篇正式进入源码的阅读,按照流程顺序,一一解剖. 一.流 ...
Mina源码阅读笔记（一）-整体解读
2019独角兽企业重金招聘Python工程师标准>>> 今天的这一节,将从整体上对mina的源代码进行把握,网上已经有好多关于mina源码的阅读笔记,但好多都是列举了一下每个接口或者 ...
“CoreCLR is now Open Source”阅读笔记
英文原文:CoreCLR is now Open Source 阅读笔记如下: CoreCLR是.NET Core的执行引擎,功能包括GC(Garbage Collection), JIT(将CIL代 ...
QCon 2015 阅读笔记 - 团队建设
QCon 2015阅读笔记 QCon 2015 阅读笔记 - 移动开发最佳实践 QCon 2015 阅读笔记 - 团队建设中西对话:团队管理的五项理论和实战 - 谢欣.董飞(今日头条,LinkedI ...
05《软件需求模式》阅读笔记
剩下的两个阅读笔记写第二部分.各类需求模式,共八个领域和它的需求模式,这一次写前四个. 基础需求模式,它是所有种类的系统都可能需要的一些东西.系统间接口需求模式使用系统间接口需求模式定义被定义的系统和 ...
[置顶] Linux协议栈代码阅读笔记（一）
Linux协议栈代码阅读笔记(一) (基于linux-2.6.21.7) (一)用户态通过诸如下面的C库函数访问协议栈服务 int socket(int domain, int type, int p ...
大型网站技术架构：核心原理与案例分析阅读笔记二
大型网站技术架构:核心原理与案例分析阅读笔记二网站架构设计时可能会存在误区,其实不必一味追随大公司的解决方案,也不必为了技术而技术,要根据本公司的实际情况,制定适合本公司发展的网站架构设计,否则会变 ...

《Continual lifelong learning with neural networks : A review》阅读笔记