神经网络的持续终身学习：回顾

摘要

人和动物有能力在其整个生命周期中不断获取，微调和转让知识和技能。这种能力，称为终身学习，是由一系列丰富的神经认知机制介导的，这些机制共同促进了我们的感觉运动技能的发展和专业化，并有助于长期记忆的巩固和恢复。因此，终身学习能力对于计算学习系统和自治代理在现实世界中进行交互并处理连续的信息流至关重要。但是，终身学习仍然是机器学习和神经网络的长期挑战。由于不断地从非平稳数据分布中获取增量可用信息，因此通常会导致灾难性的遗忘或干扰。对于通常从固定批次的训练数据中学习表示的最先进的深度神经网络模型而言，此限制代表了一个主要缺陷，因此无法考虑信息随时间逐渐可用的情况。在这篇综述中，我们批判性地总结了与人工学习系统的终身学习相关的主要挑战，并比较了现有的神经网络方法，这些方法在不同程度上减轻了灾难性的遗忘。尽管在利用神经网络进行领域特定学习方面取得了重大进展，开发自主代理和机器人上的强大的终身学习需要大量的研究工作。我们讨论了生物系统（例如结构体）中终身学习因素所激发的成熟和新兴研究可塑性，记忆重播，课程和迁移学习，内在动机以及多感觉整合。

1 。介绍

在现实世界中运行的计算系统会暴露于连续的信息流中，因此需要从动态数据分布中学习并记住多个任务。例如，需要与环境交互的自治代理从其自身的经验中学习，并且必须能够在很长的时间跨度内逐步获取，微调和传递知识。通过适应新知识并保留先前学习的经验来不断学习的能力被称为持续学习或终身学习。这样的持续学习任务代表了机器学习和神经网络的长期挑战因此，为了开发人工智能（AI）系统（Hassabis等人，2017；Thrun和Mitchell，1995）。

关于终生学习的计算模型的主要问题是，它们容易遭受灾难性的遗忘或灾难性的干扰，即，用新信息训练模型会干扰以前学到的知识（McClelland等，1995；McCloskey和Cohen，1989 ）。这种现象通常会导致性能突然下降，或者在最坏的情况下，会导致旧知识被新知识完全覆盖。当前的深度神经网络学习模型通过依赖于一大批（部分）带注释的训练样本来胜任许多分类任务（参见Guo等人（2016）和LeCun，Bengio和Hinton（2015）进行评论）。但是，这种学习方案假定在训练阶段所有样本均可用，因此需要在整个数据集上对网络参数进行重新训练，以适应数据分布的变化。当对顺序任务进行训练并随着时间的流逝逐渐获得样本时，随着学习新任务，传统神经网络模型的性能在先前学习的任务上会显着降低（Kemker等人，2018 ; Maltoni和Lomonaco，2018）。尽管从头进行再培训从实用上解决了灾难性的遗忘，但这种方法效率极低，并且阻碍了实时学习新数据。例如，在发展性学习的场景中，自主主体通过与环境的积极互动来学习，因此在培训和测试阶段之间可能没有区别，要求学习模型同时适应和及时触发行为反应（Cangelosi和Schlesinger，2015，Tani ，2016年）。

为了克服灾难性的遗忘，学习系统一方面必须显示出在连续输入的基础上获取新知识和完善现有知识的能力，另一方面，还应防止新输入显着干扰现有知识。为了整合新信息，系统必须具有可塑性的程度，而为了不灾难性地干扰整合的知识，系统必须具有一定程度的稳定性，这被称为稳定性-可塑性难题，并且在生物学系统和计算模型中都得到了广泛的研究（Ditzler等人。，2015，Grossberg，1980，Grossberg，2012，Mermillod等，2013）。由于终身学习的挑战性很高但影响很大，因此提出了许多计算方法，这些方法从哺乳动物大脑学习的生物学因素中汲取了灵感。

人类和其他动物终生都擅长学习，并根据其一生中学习到的感觉运动偶然性做出适当的决策（Bremner等人，2012；Tani，2016）。丰富的神经生理学处理原理可调节在持续的时间段内逐步获取，完善和传递知识的能力，这些原理共同促进了感知和运动技能的早期发展和经验驱动的专业化（Lewkowicz，2014年，Murray等等人，2016年，Power and Schlaggar，2016年，Zenke，Gerstner等人，2017年）。在第2节中，我们介绍了一组广泛研究的终身学习的生物学方面，以及它们对生物学驱动的神经网络体系结构建模的启示。首先，我们关注神经突触可塑性的机制，该机制调节多个脑区的稳定性-可塑性平衡（第2.2 节，希伯来可塑性和稳定性，第2.3节补充学习系统）。可塑性是大脑在细胞和电路水平的神经延展性的基本特征（见Power and Schlaggar（2016）调查）。为了保持稳定的连续寿命，需要两种类型的可塑性：（i）Hebbian可塑性（Hebb，1949）以获得正反馈不稳定，以及（ii）稳定神经活动的代偿性稳态塑性。通过实验观察到，专门的机制通过降低突触可塑性的速率来保护有关先前学习的任务的知识，以防止他们在学习新任务时受到干扰（Cichon＆Gan，2015 ）。总之，赫布学习和稳态可塑性稳定的神经回路来塑造最佳的方式体验驱动的连接，集成和功能（亚伯拉罕和罗宾斯，2005年，Zenke，郭士纳等人，2017年）。

重要的是，大脑必须执行两个互补的任务：跨经验概括并保留类似事件的特定记忆。在第2.4节中，我们总结了互补学习系统（CLS）理论（Kumaran等人，2016；McClelland等人，1995 ），它拥有有效地提取感知事件的统计结构（一般化），同时保留了情景记忆的手段，即收集特定时间和地点的经验。CLS理论定义了海马和新皮层的互补作用在学习和记忆方面，这表明人类认知系统中存在专门的机制来保护巩固的知识。海马系统表现出短期适应性，并允许快速学习新信息，而新信息又将被转移并整合到新皮质系统中以进行长期存储。新皮层的特征在于学习速度慢，并负责学习一般性。然而，有关人类受试者学习任务的其他研究（ Mareschal等，2007； Pallier等，2003）发现，在某些情况下，灾难性的遗忘仍然可能发生（参见第 2.4节）。

关于终身学习的神经生理学方面的研究启发了各种各样的机器学习和神经网络方法。在第3节中，我们介绍和比较解决灾难性遗忘的计算方法。我们将重点放在最近的学习模型上：（i）调节突触可塑性的内在水平，以保护巩固的知识（第3.2节）；（ii）分配额外的神经资源来学习新信息（第3.3节），和（iii）使用补充性学习系统进行记忆巩固和体验重播（第3.4 节）。这些方法中的绝大多数旨在解决有限大小的带注释数据集上的终身监督学习（例如，Kirkpatrick等。（2017），Zenke，Poole和Ganguli等人。（2017）），并且自然不会扩展到更复杂的场景，例如处理部分未标记的序列。另一方面，无监督的终身学习主要是通过使用自组织神经网络提出的（例如，Parisi等人，2017；Parisi等人，2018；Richardson和Thomas（2008））。尽管在通过结构化正则化或动态体系结构更新的学习方法的设计方面已取得了重大进展，但对这些算法在终生和增量上的严格评估的关注却很少学习任务。因此，在第3.5 节中，我们讨论了使用和设计量化指标来测量大规模数据集的灾难性遗忘的重要性。

由于其对自主学习代理和机器人的影响，终身学习最近受到越来越多的关注。神经网络方法通常设计为逐步适应于在受控环境中收集的特定于模式的，通常是合成的数据样本，以隔离和随机顺序显示。这与人类和其他动物在整个生命周期中遭受的更多生态条件截然不同（Cangelosi和Schlesinger，2015年；Krueger和Dayan，2009年；Skinner，1958年；Wermter等人，2005年）。）。在现实世界中运行的业务代表必须处理感官不确定性，有效地处理多感官信息的连续流，并有效地学习多个任务，而不会灾难性地干扰先前学习的知识。直观地，上述神经网络模型与更复杂的终身学习代理之间存在着巨大的差距，这些代理期望从其连续的感觉运动体验中逐步学习。

人类可以轻松地获取新技能并跨领域和任务转移知识（Barnett＆Ceci，2002），而人工系统仍处于起步阶段，这就是所谓的转移学习（Weiss，Khoshgoftaar，＆Wang，2016）。此外，与使用单感觉（例如视觉或听觉）信息训练神经网络方法的主要趋势形成对比，大脑从多感觉信息的集成中受益匪浅，从而为感觉状态下的有效交互提供了手段不确定性（Bremner等，2012，Spence，2010，Stein等，2014）。大脑的早期发展和感觉运动专长的多感觉方面激发了关于自主体现主体的大量研究（Cangelosi和Schlesinger，2015；Lewkowicz，2014）。在第4节中，我们回顾了由生物学的学习动机所激发的计算方法，包括关键的发展阶段和课程学习（第4.2节），在学习新任务时转移学习以重用知识（第4.3节），自主学习的强化学习探索内在动机和自我监督驱动的环境（第4.4节），以及用于跨模式终身学习的多传感器系统（第 4.4节） 4.5）。

这篇评论补充了先前关于连接主义模型中的灾难性遗忘的调查（法语，1999年，Goodfellow等人，2013年，Soltoggio等人，2017年），这些研究没有批评性地比较最近的实验工作（例如，深度学习）或定义了关于如何进行的清晰指导在实验观察到的发展机制的基础上训练和评估终身方法。我们和以前的评论共同强调了终身学习是高度跨学科的挑战。尽管各个学科的问题可能比答案更开放，但这些发现的结合可能会为当前的即席方法提供突破，其中神经网络是AI系统展现出的日益复杂的认知能力的垫脚石。在第5 节中，我们总结了此评论中提出的关键思想，并提供了一组正在进行的和未来的研究方向。

2 。终身学习的生物学方面

2.1 。稳定性-塑性难题
作为人类，我们具有惊人的适应能力，可以通过有效地获取知识和技能，在新颖的经验的基础上对其进行提炼，并跨多个领域进行转移来进行适应（Barnett和Ceci，2002 ; Bremner等，2012 ; Calvert等。，2004）。虽然我们确实倾向于逐渐忘记一生中以前学过的信息，但是对新信息的学习很少会灾难性地干扰综合知识（French，1999 ）。例如，人体体感皮层可以在运动学习任务期间吸收新信息，而不会破坏先前获得的运动技能的稳定性（Braun等人，2001年）。大脑中的终生学习由一系列丰富的神经生理学原理介导，这些原理调节不同大脑区域的稳定性-可塑性平衡，并根据我们的感觉运动经验促进认知系统的发展和专业化（Lewkowicz，2014年，Murray等，2016；Power and Schlaggar，2016；Zenke，Gerstner等，2017 ）。稳定性-可塑性难题涉及系统在多大程度上必须易于集成和适应新知识，并且重要的是，应如何通过稳定和调节神经活动以防止灾难性遗忘的内部机制来补偿这种适应过程（Ditzler等人，2015年，Mermillod等人，2013年）

神经突触可塑性是大脑产生神经结构物理变化并允许我们学习，记忆和适应动态环境的基本特征（有关调查，请参见Power and Schlaggar（2016））。在早期发展的关键时期，大脑特别具有可塑性，在该时期中，神经网络获得了由感觉运动体验驱动的总体结构。随着生物系统在一系列特定的发育阶段中稳定下来，可塑性变得不那么突出了，在较小规模的适应和重组中保留了一定程度的可塑性（Hensch等人，1998 ; Kiyota，2017 ; Quadrato等人， 2014年）。关键的和发育后期的可塑性的具体情况在整个生物系统中都不同（Uylings，2006），显示出随着年龄的增长，可塑性水平不断下降的趋势（Hensch，2004）。通过补充提供特定进化途径的遗传信息，可塑性在感觉运动行为的出现中起着至关重要的作用（Grossberg，2012 ）。基因或分子梯度从一开始就推动了最初的发展，以提供基本的性能水平，而外在因素（例如感官体验）则完成了这一过程，以实现更高的结构复杂性和性能（Hirsch和Spinelli，1970；Shatz，1996；Sur和Leamey，2001）。在这篇评论中，我们专注于大脑组织的发展和学习方面，同时我们将读者引向Soltoggio等人。（2017）回顾了进化烙印。

2.2 。赫比的可塑性和稳定性
大脑适应环境变化的能力为了解皮质的连通性和功能的形成方式提供了至关重要的见解。已经显示，尽管在早期开发中建立了视觉系统中的连接的基本模式，但是正常的视觉输入对于视觉皮层的正确发展是必需的。Hubel和Wiesel（1967）关于眼部优势的出现的开创性著作显示出时间安排对皮层组织正常模式发展的重要性。通过实验操纵新生小猫的视觉体验，以研究各种输入对大脑组织的影响。他们观察到，在十周龄之前开始剥夺视觉输入时，皮质组织的破坏更为严重，而在成年动物中未观察到变化。额外的实验表明，皮质组织的神经模式至少在发育的早期可以受到外部环境因素的驱动（ Hubel和Wiesel，1962； Hubel和Wiesel，1970； Hubel等人，1977）。

Hebb（1949）首次提出了最著名的理论，它描述了突触可塑性使神经元适应外部刺激的机制，并假设当一个神经元驱动另一神经元的活动时，它们之间的联系就会增强。更具体地，Hebb法则指出，突触前细胞对突触后细胞的反复和持续刺激导致突触效力增加。在整个开发过程中，神经系统稳定下来以塑造神经连接的最佳功能模式。最简单的Hebbian可塑性形式考虑突触强度由突触前活动的产物更新和突触后活动：
（1）
哪里是给定的学习率。但是，仅Hebbian可塑性是不稳定的，并导致神经活动失控，因此需要补偿机制来稳定学习过程（Abbott和Nelson，2000；Bienenstock等，1982 ）。Hebbian系统中的稳定性通常是通过增加Hebbian可塑性并附加其他限制条件来实现的，这些条件包括单个突触权重的上限或平均神经活动（Miller和MacKay，1994；Song等，2000）。塑性的稳态机制包括直接影响突触强度的突触缩放和超塑性（Davis，2006；Turrigiano，2011）。）。在不失一般性的前提下，稳态可塑性可被视为调节Hebbian可塑性不稳定动力学的调节效应或反馈控制信号（见图1a ）。该反馈控制器直接影响所观察到的神经活动的基础上突触强度，必须在相对于要快于不稳定的系统（时标乻tr歮-H＆默里，2010）。以最简单的形式，可以通过引入附加的调制信号来模拟调制的Hebbian可塑性到等式（1）使得突触更新由
（2）
Hebbian神经网络中的调节反馈已受到越来越多的关注，不同的方法提出了通过调节回路进行生物学上合理的学习（Grant等人，2017；Soltoggio等人，2017）。对于赫比的时间方面和稳态可塑性的批判性评论，我们请读者参考Zenke，Gerstner等人的文章。（2017）。

下载：下载高分辨率图像（240KB）下载：下载全图
图1。神经突触适应的两个方面的示意图：（a）具有稳态可塑性的Hebbian学习作为一种补偿机制，该机制使用观察值来计算反馈控制信号（在Zenke，Gerstner等人的许可下进行了改编（2017））。（b）补充学习系统（CLS）理论（McClelland等，1995 ），包括海马用于快速学习情节信息和新皮层用于缓慢学习结构化知识。

皮质功能的证据表明，自下而上的感觉驱动，自上而下的反馈以及先验知识和期望的结合导致了多个大脑区域的神经活动（Heeger，2017）。在这种情况下，复杂的神经动力学行为会以自组织的方式从分层排列的神经回路的密集相互作用中显现出来（Tani，2016 ）。输入驱动的自组织在大脑中起着至关重要的作用（Nelson，2000 ），地形图是皮层处理感觉输入的共同特征（Willshaw＆von der Malsburg，1976））。已经提出了不同的神经元自组织模型，这些模型类似于关于类似于Hebbian的学习和可塑性的基本生物学发现的动力学（Fritzke，1992；Kohonen，1982；Marsland等，2002；Martinetz等，1993 ），证明了该神经图组织是由无监督的统计学习得出的，其中输入分布具有非线性近似。为了稳定无监督的学习过程，神经网络的自组织可以与自上而下的反馈相辅相成，例如与任务相关的信号来调节内在的可塑性（ Parisi等人，2018 ; Soltoggio等人，2017）。在分层处理机制中，神经检测器具有越来越大的时空接收场，可以在更大的时空尺度上编码信息（Hasson等，2008；Taylor等，2015 ）。因此，较高层可以提供自上而下的上下文，以在较低层中调制自下而上的感觉驱动。例如，自下而上的处理负责对环境的共现统计进行编码，而错误驱动的信号则根据自上而下的特定于任务的因素来调制此前馈过程（Murray等人，2016年）。这些模型共同有助于更好地理解潜在的神经机制为发展皮层组织。

2.3 。补充学习系统
大脑学习并记忆。前一项任务的特征是提取感知事件的统计结构，目的是将其推广到新情况。相反，后者需要收集单独的类似事件的事件。因此，大脑必须包含一种机制，可以在保留情景记忆的同时，跨经验进行概括。

复杂的认知功能依赖于跨多个区域复制的规范神经回路（Douglas，Koch，Mahowald，Martin和Suarez，1995 ）。然而，尽管存在共有的结构特性，但不同的大脑区域在多个时间尺度和学习率下运作，因此在功能上存在显着差异（Benna和Fusi，2016；Fusi等，2005 ）。一个突出的例子是新皮层和海马在学习和记忆巩固中的互补作用（ McClelland等，1995；O’Reilly，2004；O’Reilly和Norman，2002）。）。补充学习系统（CLS）理论（McClelland等，1995）认为，海马系统表现出短期适应性，可以快速学习新信息，随着时间的流逝，新信息将被回放到新皮层系统。其长期保留（参见图1层的b）。更具体地，海马采用快速学习速率并编码事件的稀疏表示以最小化干扰。相反，新皮层的特征在于学习速度慢，并建立了所学知识的重叠表示。因此，相互作用海马功能和新皮质功能对于同时学习规律性（环境统计数据）和特性（周期性记忆）至关重要。已知两个大脑区域都可以通过Hebbian和错误驱动机制来学习（O’Reilly＆Rudy，2000）。在新皮层中，反馈信号将产生与任务相关的表示，而在海马体中，错误驱动的调制可以在模式识别和完成记忆调用之间切换其功能（O’Reilly，2004）。

研究表明，成年神经发生有助于新记忆的形成（Altman，1963；Cameron等，1993；Eriksson等，1998；Gage，2000）。成年人是否生长大量新的神经元一直存在争议。最近的研究表明，儿童海马神经发生急剧下降至成年后无法检测的水平（Sorrells等，2018）。另一方面，其他研究表明海马神经发生在整个生命中都维持着人类特定的认知功能（Boldrini，Fulmore，Tartt，Simeon和Pavlova，2018年）。在神经发生过程中，海马的齿状回使用新的神经单位迅速吸收并立即调用新信息（ Altman，1963；Eriksson等，1998）。在最初的记忆形成过程中，新的神经祖细胞表现出高水平的可塑性。随着时间的流逝，可塑性下降，使新的记忆更加稳定（Deng，Aimone和Gage，2010年）。除神经发生外，神经生理学研究还证明了结构可塑性对突触重新连接在成人记忆形成中的作用（Knoblauch，2017;Knoblauch et al。，2014），在提高空间和能源需求方面的信息存储效率方面，结构可塑性起着重要作用。

尽管海马通常与近期记忆（即短期记忆）的立即记忆相关，但前额叶皮层（PFC）通常与远程记忆（即长期记忆；Bontempi，Laurent ）的保存和记忆相关-Demir，Destrade和Jaffard（1999）。北村等。（2017）结果表明，当大脑学习到一些新知识时，海马和PFC都最初被编码为具有相应的记忆；但是，海马主要负责最近召回的新信息。随着时间的推移，他们表明相应的内存已合并到PFC，然后PFC将接管对（现在）远程内存的调用。据信，在快速眼动（REM）睡眠期间，将最近的记忆整合到长期存储中（Gais等，2007；Taupin和Gage，2002）。

最近，CLS理论进行了更新，以纳入神经科学的其他发现（Kumaran等，2016）。第一组发现将存储在海马体中的记忆的重放作为一种机制，除了整合新信息外，还支持面向目标的体验统计操作（O’Neill，Pleydell-Bouverie， Dupret和Csicsvari，2010年）。海马快速编码类似事件的事件，这些事件可以在睡眠或无意识和有意识的记忆回忆中重新激活（Gelbard-Sagiv，Mukamel，Harel，Malach和＆Fried，2008年），从而通过重新激活编码过程来巩固新皮层中的信息。多个内部生成的重播的条款（Ratcliff，1990 ）。此外，有证据表明：（i）海马通过情景记忆的反复相互作用来支持其他形式的泛化（Kumaran＆McClelland，2012），并且（ii）如果新信息与现有知识一致，则将其整合到新皮质中是比最初的建议要快（谢等人，2011）。总体而言，CLS理论为有效地跨经验总结，同时终身保留特定记忆提供了手段。但是，确切的神经机制仍然知之甚少。

2.4 。学习不忘
第2.3节中描述的神经科学发现证明了获取和保护知识的专门神经认知机制的存在。然而，已经观察到在特定情况下可能发生灾难性的遗忘。例如，Mareschal等。（2007年）发现在3个月和4个月大婴儿的连续类别学习任务中存在非对称干扰效应。婴儿必须从一系列图片中学习狗和猫这两种类别，并且随后必须在随后的优先寻找任务中区分一种新颖的动物。令人惊讶的是，据观察，只有在猫之前被获悉的情况下，婴儿才能保留犬类。据认为，这种非对称效应反映出两种类别在感知结构方面的相对相似性。

对于长期知识，还观察到了其他干扰效应。Pallier等。（2003年）研究了在3到8岁之间被法国家庭采用的，语言环境从朝鲜语完全转变为法语的韩国出生成年人的单词识别能力。行为测试表明，这些受试者对以前学过的韩语词汇没有残留的知识。功能性脑成像数据显示，这些受试者在听韩语时的反应与听他们接触过的其他外语时的反应没有什么不同，这表明他们以前对韩语的了解已被完全覆盖。有趣的是，大脑激活研究表明，韩国出生的受试者对讲法语的人的法语反应较弱。据推测，虽然所采用的科目对暂时暴露于朝鲜语词汇没有表现出强烈的反应，但对朝鲜语的先验知识可能会在语言技能的制定过程中产生影响，以帮助个人重新习得朝鲜语。重新以沉浸式的方式接触它。

人类通常不会表现出强大的灾难性遗忘事件，因为我们所经历的那种体验常常是交错的（Seidenberg＆Zevin，2006）。然而，当新的体验沉浸在沉浸感中时，例如在儿童从韩国大举转向法国的情况下，可能会观察到遗忘效果。总之，这些发现揭示了一种良好调节的平衡，一方面，必须保护综合知识，以确保其长期耐用性，并避免在长时间学习新任务和技能时遭受灾难性干扰。另一方面，在某些情况下，例如身临其境的长期经验，可以覆盖旧知识，从而有利于获得和完善新知识。

综上所述，本节概述的终身学习的生物学方面提供了有关人工模型和代理如何防止灾难性遗忘和模型优美遗忘的见解。在接下来的部分中，我们将描述并比较从此类原理中获得启发的广泛的神经网络模型和AI方法。然而，在计算系统的情况下，由于在受限场景中学习的局限性，还必须面对额外的挑战，这些场景通常捕获很少的生物系统处理能力的组成部分。

3 。神经网络中的终身学习和灾难性遗忘

3.1 。终身机器学习
终身学习是机器学习和神经网络系统的一项长期挑战（French，1999 ; Hassabis et al。，2017）。这是由于学习模型倾向于从新的观察中学习时灾难性地忘记现有知识（Thrun＆Mitchell，1995）。终身学习系统被定义为一种能够从连续的信息流中学习的自适应算法，该信息随着时间的流逝逐渐变得可用，并且其中未预定义要学习的任务数量（例如，分类任务中的成员资格类别）。至关重要的是，应该在没有灾难性的遗忘或干扰的情况下容纳新信息。

在连接主义模型中，当要学习的新实例与先前观察到的实例明显不同时，就会发生灾难性的遗忘，因为这会导致新信息覆盖神经网络中共享表示资源中的先前学习的知识（French，1999；McCloskey and Cohen，1989））。当离线学习，知识的此损失可以回收，因为代理将此反复相同的伪随机洗牌的例子，但是这是不可能的，当数据不能被洗牌，并且观察到作为连续流。灾难性遗忘的影响已被广泛研究了二十多年，尤其是在使用反向传播学习的网络中（ Lewandowsky and Li，1994， Ratcliff，1990 ）和霍普菲尔德网络（Burgess等，1991， Nadal等，1986）。

减轻灾难性遗忘的早期尝试通常由存储系统组成，这些存储系统存储先前的数据，并定期重播与从新数据中抽取的样本交错的旧样本（Robins，1993；Robins，1995），而今天，这些方法仍在使用（Gepperth和Karaoguz ，2015年，Rebuffi等人，2016年）。但是，基于内存的系统的一般缺点是它们需要显式存储旧信息，从而导致大量的工作内存需求。此外，在神经资源数量固定的情况下，应设计专门的机制，以保护合并后的知识不会因学习新信息而被覆盖（例如，Kirkpatrick等。（2017）和Zenke，Poole等人。（2017））。直观地讲，灾难性的遗忘可以通过在需要时分配额外的神经资源来大大缓解（例如，Hertz，Krogh和Palmer（1991），Parisi等人，2017，Parisi等人，2018和Rusu等人（2016）））。但是，这种方法可能会导致可伸缩性问题，因为对于非常庞大的神经体系结构，计算工作会大大增加。相反，由于在终身学习的情况下无法事先知道任务的数量和每个任务的样本，因此预先定义足够数量的神经资源将很重要，因为如果没有关于输入分布的强大假设，就可以防止灾难性的遗忘。在这种情况下，已经确定了三个关键方面，可以避免连接主义模型中的灾难性遗忘（Richardson和Thomas，2008年）：（i）为新知识分配额外的神经资源；（ii）如果资源固定，则使用非重叠表示；（iii）交织旧知识作为新信息。

大脑已经进化出神经突触可塑性和复杂的神经认知功能的机制，这些机制可响应环境的短期和长期变化来处理连续的信息流（Lewkowicz，2014年；Murray等人，2016年；Power和Schlaggar，2016年；Zenke，Gerstner et al。，2017 ）。因此，生物系统和人工系统之间的差异不仅限于架构上的差异，还包括这些人工系统受到外部刺激的方式。自出生以来，人类就沉浸在高度动态的世界中，并以此丰富的感知经验为回应，我们的神经认知功能会逐渐发展，以了解越来越复杂的事件。婴儿从处理低级特征的能力开始就相对有限，并逐渐向高级感知，认知和行为功能学习。人和动物大量利用时空关系和越来越丰富的感觉输入的高阶关联来学习和触发有意义的行为反应。相反，通常会分批训练人工系统，从而暴露学习算法以（伪）随机顺序重复相同训练样本的多次迭代。在固定数量的训练时期之后，期望学习算法已调整其内部表示，并可以预测相对于训练数据集遵循相似分布的新颖样本。显然，这种方法可能是有效的（这得到了用于视觉分类任务的深度学习架构的最新性能的支持;有关评论，请参见 Guo等人（2016）和 LeCun等人（2015）），但不能反映终身学习任务的特征。

在接下来的部分中，我们将介绍并比较用于终身学习的不同神经网络方法，这些方法可以在不同程度上减轻灾难性遗忘。从概念上讲，这些方法可以分为重新训练整个网络，同时进行正则化以防止因先前学习的任务而导致灾难性遗忘的方法（图2a；3.2节），选择性地训练网络并在必要时扩展网络以表示新任务的方法（图2a；3.2节）。图2 b，c；第3.3节），以及为补充学习系统建模以进行内存整合的方法，例如通过使用内存重放来整合内部表示（第3.4 节））。由于在终身学习任务中对这些算法的严格评估没有给予太多关注，因此在3.5节中，我们强调了使用和设计新的度量标准来测量大规模数据集的灾难性遗忘的重要性。

下载：下载高分辨率图像（364KB）下载：下载全图
图2。终生学习的神经网络方法的示意图：（a）在进行重新训练的同时进行正则化以防止先前学习的任务造成灾难性的遗忘；（b）带有网络扩展的不变参数代表新任务；以及（c）可能的扩展进行选择性重新训练。

3.2 。正则化方法
正则化方法通过对神经权重的更新施加约束来减轻灾难性的遗忘。这些方法通常是受到理论神经科学模型的启发，这些模型表明，可以通过产生不同程度可塑性的状态级联的突触来保护巩固的知识，使其免受遗忘（Benna和Fusi，2016；Fusi等，2005）。从计算的角度来看，这通常是通过附加的正则项建模的，这些正则项会惩罚神经网络映射功能的变化。

Li和Hoiem（2016）提出了一种由卷积神经网络（CNN）组成的学习不遗忘（LwF）方法，其中使用知识提炼将具有先前学习任务的预测的网络强制为类似于具有当前任务的网络也就是将知识从大型的，高度正规化的模型转移到较小的模型（Hinton，Vinyals和Dean，2014年）。根据LwF算法，给定一组共享参数在所有任务中，它优化了新任务的参数和…一起施加额外的约束，即对新任务样本的预测使用和旧任务的参数不要为了记住而明显移动。根据新任务的培训数据，输出旧任务以获取新数据，并随机初始化新参数，更新的参数由：
（3）
哪里和最小化预测值之间的差异和真实值新任务和旧任务分别使用，用于平衡新/旧任务，以及是防止过度拟合的正则化术语。但是，这种方法的缺点是高度依赖于任务的相关性，并且一个任务的训练时间随学习任务的数量线性增加。此外，尽管蒸馏为多任务学习提供了潜在的解决方案，但它需要为每个学习的任务存储持久性数据。Jung，Ju，Jung和Kim（2018）建议规范化最终隐藏激活之间的距离，通过使用旧任务的参数计算其他激活来保留先前学习的输入-输出映射。但是，这些方法在计算上很昂贵，因为它们需要为每个新颖的数据样本计算旧任务的参数。其他方法要么选择完全防止更新在旧任务上训练的权重（Razavian，Azizpour，Sullivan和Carlsson，2014年），要么降低学习率以防止在使用新数据进行训练时网络参数发生重大变化（Donahue等人，2014）。

Kirkpatrick等。（2017）提出了在监督学习和强化学习场景中的弹性权重合并（EWC）模型。该方法包括对旧任务和新任务的参数之间的差异进行二次惩罚，从而减慢了对先前学习的知识的与任务相关的权重编码的学习。参数的相关性关于任务的训练数据被建模为后验分布。假设有两个独立任务的方案与和与，由贝叶斯规则给出的后验概率的对数值为：
（4）
后验概率嵌入有关上一个任务的所有信息。但是，由于该术语是难解的，因此EWC将其近似为高斯分布，其均值由参数给出以及费舍尔信息矩阵对角线给出的对角线精度。因此，EWC的损失函数为
（5）
哪里是的损失，设置旧任务与新任务的相关性，并且表示参数的索引。因此，该方法需要对学习任务的参数进行对角线加权，该对角线加权与Fisher信息量度的对角线成比例，并且突触重要性可离线计算，并将其计算应用限制在低维输出空间中。此外，Kemker等人的其他实验。（2018）表明，尽管EWC在排列任务方面胜过其他方法，但它无法逐步学习新类别。

Zenke，Poole等。（2017）建议通过允许单个突触估计其对解决学习任务的重要性来减轻灾难性遗忘。与Kirkpatrick等类似。（2017），这种方法惩罚了最相关的突触的变化，因此可以以最少的遗忘来学习新任务。减少重要参数的较大变化在学习新任务时，作者使用修改后的成本函数具有替代损失，该损失近似于所有先前任务的总损失函数：
（6）
哪里是用于平衡新任务和旧任务的加权参数，是上一个任务结束时的参数，并且是每个参数的调节强度。与EWC相似，此方法将较有影响力的参数拉回参考权重，并且在以前的任务中表现良好。但是，在这种情况下，会以在线方式在参数空间中的整个学习轨迹上计算突触相关性。两种方法在置换MNIST基准上都显示了相似的结果（LeCun，Bottou，Bengio和Haffner，1998年）。

Maltoni和Lomonaco（2018）提出了AR1模型用于单增量任务方案，该方案结合了架构和正则化策略。正则化方法趋于逐步降低重量变化的幅度，其中大部分变化发生在顶层。取而代之的是，在AR1中间层中，权重的调整不会对遗忘产生负面影响。关于CORe50（Lomonaco＆Maltoni，2017）和iCIFAR-100（Krizhevsky，2009）的报告结果表明，AR1可以训练深度卷积模型，且遗忘更少，优于LwF，EWC和SI。

已经提出了通过训练多个分类器并将它们组合以产生预测来减轻灾难性遗忘的集成方法。早期尝试显示出与大量使用存储内存相关的缺点，这种存储会随着会话数的增加而扩大（Dai等，2007； Polikar等，2001），而最近的方法则通过多种策略限制了模型的大小。。例如， Ren，Wang，Li和Gao（2017）提出在新的训练阶段之后通过组合子模型来适应变化的数据分布，以适应新的数据分布，学习新任务而不参考先前的训练数据。Coop，Mishtal和Arel（2013）引入了多层感知器（MLP）扩充了固定扩展层（FEL），该层嵌入了稀疏编码的隐藏层，以减轻先前学习的表示形式的干扰。FEL网络的合奏分别用来控制可塑性的水平，产生增量学习能力，同时需要最少的存储存储器。费尔南多等。（2017）提出了一种集成方法，其中使用遗传算法来找到最佳路径通过固定大小的神经网络进行复制和突变。这种称为PathNet的方法使用嵌入在神经网络中的代理来发现网络的哪些部分可以重用于学习新任务，同时冻结与任务相关的路径以避免灾难性的遗忘。PathNet的作者表明，逐步学习新任务加快了随后学习的监督和强化学习任务的培训；但是，他们没有衡量原始任务的性能来确定是否发生了灾难性的遗忘。此外，PathNet为每个新任务都需要一个独立的输出层，这阻止了它逐步学习新的类（ Kemker等，2018）。

总之，正则化方法提供了减轻某些情况下灾难性遗忘的方法。但是，它们包含用于保护综合知识的其他损失条件，这些条件在有限的神经资源下可能会导致对旧任务和新任务的执行进行折衷。

3.3 。动态架构
此处介绍的方法通过动态适应新型神经资源（例如，使用数量增加的神经元或网络层进行重新训练）来响应新信息来更改体系结构属性。

例如，Rusu等。（2016年）建议阻止对先前知识训练的网络的任何更改，并通过分配具有固定容量的新颖子网来对新信息进行训练来扩展架构。这种方法称为渐进网络，保留了一组预训练的模型（每个学习的任务一个）。给定现有任务（当有新任务时）给定一个新的神经网络，并学习与现有任务的横向联系。为了避免灾难性的遗忘，学习到的参数用于现有任务新参数集保留不变被学习。实验报告说，在各种强化学习任务上均取得了良好的结果，其性能优于普通的基线方法，后者仅通过在初始化时合并先验知识即可对模型进行预训练或增量微调。直观上，这种方法可以防止灾难性的遗忘，但是会导致体系结构的复杂性随着学习的任务数量的增加而增加。

Zhou，Sohn和Lee（2012）提出了一种去噪自动编码器的增量训练，该方法会为损失较高的样本添加神经元，然后将这些神经元与现有的神经元合并以防止冗余。更具体地说，该算法由两个过程组成：（i）添加新特征以最小化目标函数的残差，以及（ii）合并相似特征以获得紧凑的特征表示，并以此方式防止过度拟合。在MNIST（LeCun等，1998）和CIFAR-10（Krizhevsky，2009）数据集的分类任务中，该模型表现出优于非增量降噪自动编码器的性能。科尔特斯，冈萨洛，库兹涅佐夫，莫里和杨（2016）提出通过平衡模型的复杂性和经验风险最小化来适应网络的结构及其权重。与强制执行预定义的体系结构相反，该算法以自适应方式学习所需的模型复杂性。作者报告了从CIFAR-10数据集中提取的几个二元分类任务的良好结果。与先前介绍的不考虑多任务场景的方法相反，Xiao，Zhang，Yang，Peng和Zhang（2014）提出了一种训练算法，其网络的容量和层次结构都逐渐增加。根据类的相似性将类分组，并自组织为多个级别，其模型继承了现有类的特征以加快学习速度。但是，在这种情况下，只有最顶层可以生长，并且香草的反向传播训练过程效率低下。

Draelos等。（2017）使用重建错误对新的MNIST数字进行自动编码器的增量训练，以显示是否保留了较旧的数字。他们的神经发生深度学习（NDL）模型向自动编码器添加了新的神经单元，以方便添加新的MNIST数字，并且使用固有重放（用于伪演练的生成模型）来保留保留较旧信息所需的权重。尹，杨，李和黄（2018）将这一概念带入有监督的学习范式，并提出了一种动态扩展网络（DEN），该网络增加了可训练参数的数量以逐步学习新任务。通过执行选择性重新训练以在线方式对DEN进行训练，该训练使用组稀疏正则化来确定要在每层添加多少个神经元，从而扩展网络容量。

Part and Lemon，2016，Part and Lemon，2017提出了一种预训练的CNN与自组织增量神经网络（SOINN）的组合，以利用CNN的良好表示能力，同时，允许分类网络在连续对象识别场景中根据任务要求增长。这些类型的方法引起的问题是可伸缩性，因为分类网络随着已学习的类的数量而增长。通过这种方法确定的另一个问题是，通过依赖固定表示形式（例如预训练的CNN），区分能力将由用于训练特征提取器的数据集来调节。Rebuffi等。（2016年）通过存储示例数据点（与新数据一起使用以动态调整特征提取器的权重）来解决此问题，该技术称为演练。通过合并新旧数据，它们可以防止灾难性的遗忘，但要以更大的内存占用为代价。

到目前为止，我们已经考虑了设计（或至少严格评估）静态图像分类的方法。但是，在更自然的学习场景中，必须考虑诸如时空视频等时空关系的顺序输入。Parisi等。（2017）表明，人类活动序列的终生学习可以通过预测驱动的神经动力学来实现，其内部表示形式出现在递归自组织网络的层次结构中。自组织网络可以根据竞争性的Hebbian学习动态分配神经资源并更新连接模式。神经图的每个神经元都包含一个权重向量还有一个数字上下文描述符与。结果，映射中的循环神经元将对输入的原型序列选择性快照进行编码。给定一套复发神经元的最佳匹配单位（BMU）关于输入计算为：
（7）
哪里是恒定值，可调节当前输入相对于先前神经活动的影响，并且是网络的全局上下文。每个神经元都配有一个适应计数器根据习惯性突触的功效随时间降低的简化模型来表达其触发的频率。用两个神经元初始化网络，并且在每次学习迭代中，只要习惯性神经元的网络活动小于给定阈值，它就会插入一个新的神经元。神经更新规则由下式给出：
（8）
哪里是一个恒定的学习率，充当调节因素（请参见等式（2）），该因素会随着时间的推移而降低学习的幅度，从而保护合并的知识。这种方法在Weizmann（Gorelick，Blank，Sechtman，Irani和Basri，2005年）和KTH（Schuldt，Laptev和Caputo，2004年）行动基准数据集上的批处理学习方法中显示出竞争性结果。此外，即使在偶尔丢失或损坏类标签的情况下，它也可以学习可靠的操作标签映射。Parisi，Ji和Wermter（2018）结果表明，具有加性神经发生的自组织网络比具有相同数量神经元的静态网络表现出更好的性能，因此当神经元总数固定时，可以为增量学习场景中的神经体系结构设计提供见解。

已经提出了类似的基于GWR的方法来增量学习身体运动模式（Elfaramawy等人，2017 ; Mici等人，2017 ; Parisi等人，2016）以及人与物体的交互作用（Mici，Parali和Wermter ，2018 ）。但是，这些无监督的学习方法没有考虑到可以调节稳定性和可塑性平衡的自上而下的任务相关信号，从而可能导致大规模数据集的可伸缩性问题。为了解决这个问题，Parisi等人对与任务相关的调制信号进行了建模。（2018）规范了神经发生和神经更新的过程（参见第3.4节））。该模型与自适应共振理论（ART；参见Grossberg（2012）的评论）在概念上有许多相似之处，其中神经元迭代地适应了非平稳输入可以无监督的方式分配数据，并且可以根据不同的输入数据创建新的神经元。在ART模型中，学习是通过自上而下和自下而上的过程的相互作用发生的：自上而下的期望充当记忆模板（或原型），与自下而上的感官观察相比较。类似于GWR的激活阈值，ART模型使用警惕性参数来生成细粒度或更常规的内存。尽管它具有缓解增量学习过程中灾难性遗忘的内在能力，但尚未报告针对持续学习任务的最新终身学习基准进行的广泛评估。但是，已经注意到，ART模型的某些变体的结果在很大程度上取决于训练数据的处理顺序。

虽然在GWR中创建新的神经元和连接的机制与生物学上似乎不一样的机制（例如Eriksson等（1998），Knoblauch（2017）和Ming and Song（2011）），但是GWR学习算法代表了一种有效的计算方法逐步适应非平稳输入的模型。至关重要的是，GWR模型会在需要时且仅在训练现有神经元之后创建新的神经元。随着神经元变得更加习惯，神经更新速率降低，这具有防止嘈杂的输入干扰合并的神经表示的作用。。替代理论表明，海马神经发生的附加功能是记忆中时间关联形成时间的编码（Aimone等，2006；Aimone等，2009 ），例如，长期的时间簇情景记忆。尽管在生物系统中神经发生和结构可塑性的潜在机制仍有待进一步研究，但这些结果进一步证明，具有可塑性的神经模型的增长可有效缓解非平稳环境下的灾难性遗忘。

3.4 。补充学习系统和记忆重播
CLS理论（Kumaran等人，2016；McClelland等人，1995 ）为建立记忆巩固和恢复的计算框架提供了基础，其中记忆和泛化的补充任务是通过哺乳动物海马体和新皮层的相互作用而介导的（请参阅第 2.3 节）。重要的是，情节记忆（特定经验）和语义记忆（一般结构化知识）之间的相互作用为缺乏感官输入的知识整合机制提供了重要见解。

双重记忆学习系统从CLS理论到解决灾难性遗忘的各种方式都获得了启发。Hinton和Plaut（1987）提出了这一概念的早期计算示例，其中每个突触连接都具有两个权重：具有缓慢变化速率的塑料权重（可存储长期知识）和用于临时知识的快速变化的权重。这种双重权重方法反映了互补学习系统的特性，可以减轻顺序任务学习过程中的灾难性遗忘。French（1997）开发了一个伪循环双存储框架，一个用于早期处理，另一个用于长期存储，它使用了伪演练（Robins，1995年）。）在存储中心之间传输内存。在伪演练中，训练样本未明确保留在内存中，而是从概率模型中提取的。在接下来的二十年中，许多基于CLS原理的神经网络方法被用来解释和预测不同学习和记忆领域的结果（有关综述，请参见O’Reilly和Norman（2002））。但是，没有经验证据表明这些方法可以扩展到大量任务或当前的图像和视频基准数据集（请参见第3.5节）。

最近，Soltoggio（2015）提出在短期奖励学习时，基于因果假设检验，使用短期和长期可塑性来整合新信息。在这种情况下，短期和长期可塑性之间的差异与记忆的持续时间无关，而与因果关系一致性的置信度无关。这种称为“假设测试可塑性”（HTP）的亚可塑性规则表明，可以从模棱两可的信息流中提取这种关系，从而可以解释更复杂的环境中的学习（请参见第4节）。

Gepperth和Karaoguz（2015）提出了两种使用（i）修改后的自组织图（SOM）和（ii）扩展了短期记忆（STM）的SOM 进行增量学习的方法。我们将这两种方法称为GeppNet和GeppNetSTM分别。对于GeppNet，将使用来自回归层的与任务相关的反馈来选择是否应在自组织隐藏层中进行学习。在GeppNet中在STM的情况下，STM用于存储新颖的知识，这些知识有时会在与训练阶段交错的睡眠阶段中回放到GeppNet层。后一种方法在MNIST数据集的增量学习任务中产生了更好的性能和更快的收敛。但是，STM的能力有限，因此学习新知识可能会覆盖旧知识。在这两种情况下，学习过程都分为两个阶段：一个阶段用于初始化，另一个阶段用于实际的增量学习。额外的实验表明，在不同的置换任务上，这种方法的性能明显比EWC（Kirkpatrick et al。，2017）差（参见3.5节）。GeppNet和GeppNet STM要求在培训期间存储整个培训数据集。

受海马在重现先前编码体验的生成作用中的启发，Shin，Lee，Kim和Kim（2017）提出了一种双模型架构，该架构由深度生成模型和任务求解器组成。这样，可以根据生成的伪数据对来自先前学习的任务的训练数据进行采样，并与来自新任务的信息进行交织。因此，没有必要明确修改旧的训练样本以进行经验重播，从而减少了工作记忆的需求。该方法在概念上类似于使用伪演练方法的先前方法，即，将新任务的信息与先前学习的任务的内部生成的样本进行交织。罗宾斯（1995）结果表明，将新经验信息与内部产生的先前经验模式进行交织有助于巩固现有知识，而无需明确存储培训样本。假彩排也被德拉罗斯等人使用。（2017年）针对自动编码器的增量训练，使用编码器的输出统计信息在重放期间为解码器生成输入。然而，与大多数上述方法类似，在两个相对较低复杂性的数据集（例如MNIST和街景门牌号码（SVHN））上严格评估了伪演练方法的使用（ Netzer等，2011 ）。因此，产生的问题是这种生成方法是否可以扩展到更复杂的域。

Lüders，Schläger和Risi（2016）提出了一种可进化的神经图灵机（ENTM），使代理能够通过逐步分配其他外部内存组件来存储长期内存。通过不断发展的网络拓扑和权重，可以从最初的最小配置中找到持续学习网络的最佳结构。ENTM配置可以一次性学习新的关联，并减轻增量学习任务期间灾难性遗忘的影响。一组关于强化学习任务的实验报告表明，ENTM方法的动态性质将导致代理随着时间的推移不断扩展其记忆。这可能会导致不必要的内存扩展，从而大大减慢学习过程。解决此问题的一种可能的解决方案是引入成本函数，以更有效地分配和使用内存。

Lopez-Paz和Ranzato（2017）提出了梯度情景记忆（GEM）模型，该模型可将知识积极转移到先前的任务中。GEM最小化灾难性遗忘的主要功能是一种情景记忆，用于存储给定任务中观察到的示例的子集。同时最大程度地减少当前任务的损失，GEM会处理任务的情景记忆中的损失作为不平等约束，避免增加但允许减少。与其他正则化方法（例如EWC（Kirkpatrick et al。，2017））在训练时相比，此方法需要更多的记忆（具有情景记忆）对于每个任务），但在单遍设置中效果会更好。

Kemker和Kanan（2018）提出了用于增量式课堂学习的FearNet模型，该模型的灵感来自恐惧条件调节过程中哺乳动物大脑的回忆和巩固研究（Kitamura et al。，2017 ）。FearNet使用能够立即调用新示例的海马网络，用于长期记忆的PFC网络以及受基底外侧杏仁核启发的第三个神经网络用于确定系统是否应将PFC或海马网络用于特定示例。在睡眠阶段，FearNet将信息从其海马网络整合到其PFC网络。FearNet的PFC模型是一个生成神经网络，它创建伪样本，然后将其与存储在其海马网络中的最近观察到的示例混合在一起。Kamra，Gupta和Liu（2018）提出了一个类似的双内存框架，该框架还使用变体自动编码器作为伪演练的生成模型。他们的框架为每个新任务生成一个短期内存模块；但是，在合并之前，使用oracle进行预测（即，他们知道哪个模块包含关联的内存）。

Parisi等。（2018）提出了一种双记忆自组织架构，以终身学习方式从视频中学习时空表示。互补记忆被建模为递归自组织神经网络：情节记忆通过竞争性的Hebbian学习迅速适应传入的新型感官观察，而语义记忆则逐渐学习紧凑表示通过使用与任务相关的信号来调节结构可塑性的内在水平。为了在没有感觉输入的情况下巩固知识，从情节性记忆中重新激活神经的轨迹会定期回放到两个记忆中。报告的实验表明，使用CORe50基准数据集（Lomonaco和Maltoni（2017） ;参见3.5节），在三种不同的增量学习任务中，所描述的方法明显优于先前提出的终身学习方法。由于神经图的开发不受监督，因此该方法可用于训练样本的注释稀疏的情况。

3.5 。基准和评估指标
尽管提出了大量解决终身学习的方法，但对于基准数据集和指标进行正确评估尚无共识。通常，高度异类且通常有限的评估方案（用于评估整体性能，灾难性遗忘级别和知识转移）会阻碍对不同方法的直接比较。

Lopez-Paz和Ranzato（2017）定义了培训和评估协议，以根据持续学习模型的准确性以及在任务之间传递知识的能力来评估持续学习模型的质量。知识的传递可以向前或向后。前者是指学习任务的影响对未来任务的执行，而后者是指当前任务的影响在上一个任务上。了解以下知识时，转移是积极的提高另一个任务的性能（向前或向后），否则为负。（有关处理迁移学习的学习模型的介绍，请参见第4.3节。）

Kemker等。（2018）提出了一套评估终身学习方法的指导方针，并进行了补充实验，这些实验提供了许多方法的直接定量比较。此类指南包括使用三个基准实验：（i）数据排列，（ii）增量式学习和（iii）多模式学习。数据置换实验包括训练具有数据集的模型以及同一数据集的置换版本，从而测试模型具有相似特征表示的增量学习新信息的能力。然后期望该模型在随后学习随机排列的数据样本的过程中防止原始数据的灾难性遗忘。在增量式课堂学习实验中，模型的性能反映了其在一次增量学习一次课堂的同时保留先前学习的信息的能力。最后，在多模式学习实验中，使用不同模式的数据集对同一模型进行顺序训练，这测试了该模型以明显不同的特征表示增量学习新信息的能力（例如，首先学习一种图像分类数据集，然后学习音频分类数据集）。

与文献中通常提出的评估终身学习方法的数据集（例如，包含低分辨率图像的 10位数类的MNIST ；图3a ）相反，上述实验条件是使用Caltech-UCSD Birds- 200个（CUB-200）数据集，由200种不同的鸟类组成（Wah等人（2011）；图 3b）和AudioSet数据集，该数据集是根据YouTube视频制作的，其中包含来自632个类别和2个以上类别的10秒钟声音片段百万注解（Gemmeke et al。，2017）。对所考虑的方法进行了监督：以在线为基础进行培训的标准MLP，EWC（Kirkpatrick等，2017），PathNet（Fernando et al。，2017），GeppNet和GeppNetSTM（Gepperth＆Karaoguz，2015）和FEL（Coop等人，2013）。对于数据置换实验，PathNet和EWC获得了最佳结果，这表明使用集合和正则化机制的模型将在增量学习具有相似特征分布的新任务/数据集时最有效。相反，在多模式实验中，EWC的性能优于PathNet，因为EWC在分离非冗余（即不同）数据方面做得更好。对于增量学习任务，结合排练和双存储系统（即GeppNet）可获得最佳结果STM），逐步适应和巩固知识（见图4）。但是，由于演练需要存储原始的训练示例，因此伪演练可能是将来工作的更好策略。

图3。来自用于评估终身学习方法的基准数据集的示例图像：（a）具有10位数字类别的MNIST数据集（LeCun等，1998 ），（b）由Caltech-UCSD Birds-200（CUB-200）数据集组成包括200种不同的鸟类（Wah，Branson，Welinder，Perona和Belongie，2011年），以及（c）CORe50包含50个物体，其背景，照明，模糊，遮挡，姿势和比例都有变化。

改编自Lomonaco和Maltoni（2017）的许可。
Lomonaco和Maltoni（2017）提出了CORe50，这是一种用于连续物体识别的新颖数据集，其中包括从不同角度观察到的50类物体，并且包括背景，照明，模糊，遮挡，姿势和比例的变化（图3c）。关于上面讨论的数据集，CORe50提供了在实验条件下收集的样本，这些样本更接近于现实世界中自治代理和机器人所接触的样本（请参见第4 节）。与数据集一起，作者提出了三种增量学习方案：（i）新实例（NI），其中所有类都显示在第一批中，而随着时间的推移，已知类的后续实例将可用，新类（NC），对于每个连续的批次，都有新的对象类可用，因此模型必须处理新类的学习而又不忘记先前学习的类，以及（iii）新实例和类（NIC），其中新类和实例在每个培训批次中都有介绍。根据报告的结果，在NC和NIC中，EWC（Kirkpatrick等，2017）和LwF（Li＆Hoiem，2016）的表现显着低于NI。

下载：下载高分辨率图像（622KB）下载：下载全图
图4。渐进式课堂学习实验的几种终身学习方法的结果。针对以下方法显示了在MNIST（a），CUB-200（b）和AudioSet（c）上评估的平均等级测试准确性：FEL（红色），MLP（黄色），GeppNet（绿色），GeppNetSTM（蓝色），EWC（粉红色）和离线模型（虚线）。（要解释此图例中对颜色的引用，请参阅本文的网络版本。）

改编自Kemker等人的许可。（2018）。
也许并不奇怪，与在MNIST上进行测试相比，使用复杂性更高的数据集（例如CUB-200和CORe50）时，总体性能通常会下降。这样的结果表明，终身学习是一项非常具有挑战性的任务，重要的是，根据特定的学习策略，大多数方法的性能可能会显着不同。这表明尽管有许多方法可以减轻在高度受控的实验条件下的灾难性遗忘，但对于更复杂的情况，终身学习还没有得到解决。因此，需要更多的研究工作来开发健壮和灵活的方法，这些方法应遵循更为详尽的基准评估方案。

4 。发展方法和自主主体

4.1 。走向自主代理

人类具有终生学习和逐步调节其感觉运动技能的非凡能力（Bremner等，2012；Calvert等，2004；Tani，2016）。从出生的那一刻起，人类就沉浸在高度动态的多式联运环境中，该环境为塑造感知，认知和行为提供了丰富的经验（Lewkowicz，2014年；Murray等人，2016年）。婴儿终身学习的关键组成部分是他们在自主动机的驱动下自主产生目标和探索环境的自发能力（Cangelosi and Schlesinger，2015，Gopnik et al。，1999）。因此，通过内在动机的探索自主学习新任务和技能的能力是将生物终身学习与当前的连续神经网络分类模型区分开的主要因素之一。

尽管在解决增量学习任务的模型的开发方面已经取得了显着进展（请参见第3 节），但此类模型旨在减轻一组带注释的数据样本中的灾难性遗忘。通常，用于评估终身学习任务的数据集的复杂性非常有限，并且不能反映人工制剂在现实世界中可能受到的刺激的丰富性和不确定性水平。此外，神经模型通常使用单独显示或以随机顺序显示的数据样本来训练数据。这与高度组织化的方式明显不同，在高度组织化的方式中，人和动物可以有效地学习以有意义的顺序呈现的样本，以塑造日益复杂的概念和技能（Krueger和Dayan，2009；Skinner，1958）。因此，终身学习不仅仅局限于特定领域知识的累积积累，还可以跨多个任务和领域转移广义的知识和技能（Barnett＆Ceci，2002 ），重要的是，受益于多感官信息的相互作用。复杂的神经认知功能的发展和专业化（Lewkowicz，2014 ; Murray等，2016，Tani，2016）。

直观地讲，为人工代理提供在现实条件下有效运行所需的所有必要先验知识是不现实的（Thrun＆Mitchell，1995）。因此，人工代理必须展现出丰富的学习能力，使其能够在复杂的环境中进行交互，以处理和理解连续的（经常是不确定的）信息流（Hassabis等，2017 ; Wermter等，2005）。）。在过去的十年中，在将终身学习的生物学方面嵌入神经网络模型方面取得了重大进展。在本节中，我们总结了跨学科研究驱动的成熟且新兴的神经网络方法，并介绍了神经科学，心理学和认知科学，用于发展终身学习的自主代理。我们专注于讨论关键的发展阶段和课程学习的模型（第 4.2 节），转移学习以在获得新任务时重用合并的知识（第 4.3节），自主探索和由好奇心和内在动机驱动的目标选择（第 4.2节） 4.4），以及多感官系统和具体化主体的终身学习的交叉模式方面（第 4.5节）。特别是，我们讨论了这些组件如何（参见图5）。）（可单独使用或组合使用）来改进当前解决终身学习的方法。

下载：下载高分辨率图像（307KB）下载：下载全图
图5。能够在复杂环境中长时间学习的自治代理开发的主要组件的示意图：开发和课程学习（第4.2 节），迁移学习（第4.3节），好奇心和内在动机（第4.4节），以及交叉模式学习（第4.5节）。

4.2 。发展和课程学习

学习与发展以非常复杂的方式相互作用（Elman，1993）。人类表现出在其整个生命周期中学习的非凡能力，并且相对于其他物种而言，它们展现出最长的成熟过程。在发育中的时间窗口有限，婴儿对他们的经历的影响特别敏感。这个时期通常被称为发展的敏感时期或关键时期（Lenneberg，1967），其中早期经验尤其具有影响力，有时会对行为产生不可逆转的影响（Senghas，Kita和Özyürek，2004）。在这些关键时期，大脑特别是可塑的（图5a）和神经网络获得由感觉运动经验驱动的总体结构（有关调查，请参见Power和Schlaggar（2016））。之后，可塑性变得不那么突出并且系统稳定了，在随后的规模较小的适应和重组中保留了一定程度的可塑性（Hensch等，1998；Kiyota，2017；Quadrato等，2014）。

关键学习期的基本机制已在连接主义模型中进行了研究（Richardson和Thomas，2008；Thomas和Johnson，2006），特别是使用了自组织学习系统，该系统通过两阶段降低功能可塑性的水平地形神经图的训练（Kohonen，1982，Kohonen，1995，Miikkulainen，1997）。在第一个组织阶段中，以较高的学习率和较大的空间邻域大小来训练神经图，从而使网络可以达到初始的粗略拓扑结构。在第二个调整阶段，迭代地减少学习速率和邻域大小以进行微调整。这种实现方式已用于开发早期视觉发展模型（Miller，Keller和Stryker，1989），语言习得（Lambon Ralph和Ehsan，2006；Li等，2004）以及从脑损伤中恢复的模型（Marchman）。（1993）。最近对深度神经网络关键时期的研究表明，初始快速学习阶段在定义网络的最终性能方面起着关键作用（Achille，Rovere和Soatto，2017年）。培训的前几个时期对于由初始输入分布决定的跨不同层的资源分配至关重要。在这样的关键时期之后，可以通过其他学习阶段重新分配最初分配的神经资源。

开发性学习策略已在嵌入式智能体上进行了实验，以实时调节与环境的具体交互（Cangelosi和Schlesinger，2015；Tani，2016）。）。与提供大量信息的计算模型相反，发展性主体基于其感觉运动经验以自主方式获得越来越复杂的技能。因此，分阶段发展对于以较少的辅导经验来提升认知能力至关重要。但是，将发展策略用于人工学习系统已显示是非常复杂的做法。尤其是，很难选择一组定义明确的发展阶段，这些阶段有利于高度动态环境中的整体学习表现。例如，在预测编码框架中（Adams等人，2015年，Rao和Ballard，1999年），通过借助带有预测误差的误差回归来预测动作的结果，可以生成针对目标的意图。在预测编码中隐含的生成模型的使用是主动推理框架中嵌入的一个组成部分（ Friston等，2015）。主动推理模型旨在了解如何通过双边使用动作和感知来选择最能揭示动态和不确定环境中原因的数据。然而，仍然不清楚如何根据先天结构，具体表现和（主动）推理之间的相互作用来系统地定义发育阶段。

当以有意义的方式组织示例时，例如，通过使学习任务逐渐变得困难，人和动物将表现出更好的学习表现（Krueger＆Dayan，2009）。根据这一观察，简称为课程学习，埃尔曼（1993）表明，具有越来越难的任务（课程图5 一）导致神经网络系统更快的训练表现。这激发了机器人技术中的类似方法（Sanger，1994 ）和更新的机器学习方法，这些方法研究了课程学习对学习绩效的影响（Bengio等，2009 ; Graves等，2016）。，Reed和de Freitas，2015年）。对复杂性有限的数据集（例如MNIST）进行的实验表明，课程学习充当无监督的预训练，从而提高了通用性，并加快了训练过程向全局最小值的收敛速度。但是，课程学习的有效性对于通过任务进行的进展方式非常敏感。此外，该方法假定可以通过单个难度轴来排序任务。格雷夫斯，贝勒马尔，梅尼克，穆诺斯和卡武库库鲁（2017）建议将任务选择问题视为对任务的随机策略，以最大程度地提高学习进度，从而提高课程学习效率。在这种情况下，有必要引入其他因素，例如内在动力（Barto，2013；Oudeyer等，2007），其中学习进度的指标被用作鼓励探索的奖励信号（参见第4.4节）。课程策略可以看作是转移学习的特例（Weiss等，2016），在初始任务中收集的知识被用来指导更复杂的学习过程。

4.3 。转移学习

转移学习是指在一个领域中应用先前获得的知识来解决一个新领域中的问题（Barnett和Ceci，2002；Holyoak和Thagard，1997；Pan和Yang，2010）。前移是指学习任务的影响对未来任务的执行，而向后转移是指当前任务的影响在上一个任务上（图 5b）。因此，假设同时学习多个学习任务以提高一项特定任务的性能，转移学习代表了一种人工系统的一项重要功能，即从有限数量的特定样本中推断一般规律。

迁移学习一直是机器学习和自主代理中的一个开放挑战（有关调查，请参见Weiss等人（2016））。尽管有人争辩说，抽象知识的转移可以通过使用编码对个人，物体或场景元素不变的关系信息的概念表示来实现，但人们对大脑中介导高级转移学习的特定神经机制的了解却很少。（Doumas，Hummel，＆Sandhofer，2008）。零拍学习（Lampert等，2009 ; Palatucci等，2009）和单拍学习（Fei-Fei等，2003，Vinyals等，2016））的目标是在新颖的任务上表现出色，但不要阻止先前学习的任务造成灾难性的遗忘。Ring（1997）提出了一种通过转移学习来实现终身学习的早期尝试，该尝试是通过使用分层神经网络来解决的，该网络通过递增地添加神经单元并编码发生动作的更宽泛的时间上下文来解决日益复杂的强化学习任务。

最近的深度学习方法已尝试解决各种领域中的终身迁移学习。例如，Rusu等。（2017）提出使用渐进神经网络（Rusu et al。，2016 ）将学习到的低层特征和高层策略从模拟环境转移到真实环境。该任务包括学习从原始视觉输入到物理机器人操纵器的稀疏奖励的像素到动作增强学习策略。泰斯勒，吉维妮，扎哈维，曼科维茨和曼诺（2017）引入了分层的深度强化学习网络，该网络使用一系列技能和技能提炼来在任务之间重用和转移知识。通过教代理解决Minecraft视频游戏中的任务来评估该方法。但是，技能网络需要预先培训，并且无法以端到端的方式与总体架构一起学习。Lopez-Paz和Ranzato（2017）提出了梯度情景记忆（GEM）模型，该模型减轻了灾难性遗忘并表现出积极转移到以前学习的任务。该模型学习一组分布或任务共有的相关性子集，无需使用任务描述符即可预测与先前任务或新任务相关的目标值。但是，与第3节中讨论的大多数方法都存在的问题类似，在MNIST和CIFAR100数据集上评估了GEM模型。因此，问题仍然存在，GEM是否可以扩展到更现实的情况。

4.4 。好奇心和内在动机

内在动机的计算模型从婴儿和儿童选择其目标并逐步掌握技能以定义终身学习框架中的发展结构方面获得了启发（Baldassarre和Mirolli（2013）；参见Gottlieb，Oudeyer，Lopes和Baranes（2013）。进行审核）。婴儿似乎选择了通过经验探索过程最大化内在学习奖励的经历（Gopnik等，1999）。从建模的角度来看，有人提出对环境进行内在动机的探索，例如，由学习进度的最大化来驱动（Oudeyer等人（2007）和Schmidhuber（1991），见图5。c为示意图），可能会导致类似人的发展结构的自组织，在这种情况下，获得的技能变得越来越复杂。

内在动机的计算模型可以通过在线（自）生成学习课程来逐渐收集数据并获得技能（Baranes和Oudeyer，2013年；Forestier和Oudeyer，2016年）。这允许通过主动控制复杂性的增长来学习任务的有效，随机选择。强化学习的最新工作包括好奇心和内在动机机制，以解决奖励稀少或具有欺骗性的情况（Bellemare等人，2016 ; Forestier等人，2017 ; Kulkarni等人，2016 ; Pathak等人， 2017，坦内伯格等人，2017）。在外部奖励非常稀疏的情况下，好奇心驱动的探索会提供内在的奖励信号，使代理能够自主地，逐步地学习日益复杂的任务。

Pathak等。（2017）提出了一种以好奇心为驱动力的探索方法，其中将好奇心建模为主体预测其自身行动后果的能力中的错误。通过使用从以前的经验中获得的知识，可以更快地探索看不见的场景，这种方法已经显示出可以扩展到高维视觉输入。但是，该方法依赖于将非预期的交互转换为内在奖励的交互事件，而这种情况不会扩展到很少发生交互的情况。在这种情况下，可以重播以前稀疏交互的内部生成的表示形式，并用于指导探索（类似于用于内存重播的生成系统；请参见第3.4节）。

4.5 。多感官学习

整合多感官信息的能力是大脑的关键特征，它与环境产生了连贯，健壮和高效的交互作用（Ernst和Bülthoff，2004年；Spence，2014年；Stein和Meredith，1993年）。来自不同传感器模式（例如，视觉，音频，本体感觉）的信息可以集成到多感官表示中，或用于增强单感官表示（请参见图 5d）。

多感觉处理功能是交叉模式刺激的物理属性与先验知识和期望（例如，就学会的关联而言），脚手架的感知，认知和行为（见Murray等人（2016）和Stein ）相互作用的结果。（2014）等）。多感官学习的过程在整个生命周期中都是动态的，并且会受到短期和长期变化的影响。它由外源性和内源性因素的动态重加权决定，这些因素决定了多种模式在何种程度上相互影响。低水平刺激特征（例如，空间接近度）和时间上的重合）在绑定越来越复杂的高级特征（例如语义一致性）的学习到的感知表示形成之前可用。在开发过程中出现了复杂的多感觉整合感知机制，它从基本的处理能力开始，并根据感觉运动经验逐渐向更复杂的认知功能专业化（Lewkowicz，2014年， Spence，2014年）。

从计算的角度来看，出于多种原因，对多传感器学习进行建模可能很有用。首先，在感觉输入不确定和模棱两可的情况下，多感觉功能旨在产生可靠的响应。因果推理模型已应用于包括暴露于不一致的视听信息以解决多感官冲突的场景（Parisi，Barros和Fu等人，2018；Parisi，Barros和Kerzel等人，2017）。其次，如果使用多感官信息进行训练，则可以从另一种形式的可用信息中重建一种形式。月亮，金和王（2015）提出了用于视听识别任务的多感觉处理，其中源模态中的知识可以转移到目标模态中。从编码源模态的网络获得的抽象表示可用于微调目标模态中的网络，从而缓解目标模态中可用数据的不平衡。Barros，Parisi，Fu，Liu和Wermter（2017）提出了一种深度架构建模的交叉模式期望学习方法。在具有多感觉视听信息的训练阶段之后，单感觉网络通道可以从其他方式重构预期的输出。最后，在终生学习场景中，注意力机制对于在复杂环境中处理相关信息并从连续的多感官信息流中有效触发目标导向的行为至关重要（Spence，2014年）。可以通过交叉模式输入，学习的关联和交叉模式对应关系的外生特性以及内部生成的期望（Chen＆Spence，2017）的组合来对此类机制进行建模，以不断塑造自主主体中的感知，认知和行为。

5 。结论

终身学习代表了在现实世界的数据上运行的人工系统和自治代理的一个非常有趣但极富挑战性的组成部分，该数据通常是非平稳的和时间相关的。在哺乳动物的大脑保持终身学习，这使得仿生学习模型引人注目方法的最佳模式。结构可塑性的一般概念（第2.2节））在机器学习文献中得到了广泛的应用，即使不考虑生物学上的渴望，它本身也代表着一种有前途的终身学习解决方案。拟议的缓解灾难性遗忘和干扰的计算解决方案侧重于调节可塑性的内在水平以保护获得的知识（第3.2节），动态分配新的神经元或网络层以容纳新知识（第3.3节），以及使用具有经验重现的互补学习网络用于内存整合（第3.4 节））。然而，尽管取得了长足的进步，但当前的终身学习模型仍远远不能提供生物系统所展现出的灵活性，鲁棒性和可扩展性。终身学习的最流行的深度学习模型和浅层学习模型仅限于受监督的领域，这依赖于在受控环境中收集的大量注释数据（请参见第3.5节）。这样的特定领域的培训方案不能直接应用于在高度动态，非结构化环境中运行的自治代理。

需要更多的研究工作来结合多种方法，这些方法整合了人类学习者观察到的多种因素。可以对关键发展时期的基本机制（第4.2节）进行建模，以凭经验确定方便的（多层）神经网络体系结构和连接的初始模式，这些模式可以提高模型用于后续学习任务的性能。包括课程和转移学习的方法（第4.3 节）是用于通过共享低级和高级表示来重用先前获得的知识和技能来解决新颖领域中的问题的基本功能。对于自主学习的特工，使用内在动机的方法（第4.4节））对于目标的自我生成至关重要，它会导致探索性的经验过程以及逐渐掌握越来越复杂的技能。最后，多感觉集成（第4.5 节）是在高度动态和嘈杂的环境中运行的自治主体的关键功能，即使在不确定的情况下，也可以带来强大的学习和行为。

2020-08-31相关推荐

（十三：2020.08.28）CVPR 2015 追踪之论文纲要（译）
CVPR 2020 追踪之论文纲要(修正于2020.08.27) 讲在前面论文目录讲在前面论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...
（十一：2020.08.28）CVPR 2017 追踪之论文纲要（译）
CVPR 2017 追踪之论文纲要(修正于2020.08.28) 讲在前面论文目录讲在前面论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...
（十四：2020.08.28）CVPR 2014 追踪之论文纲要（译）
CVPR 2020 追踪之论文纲要(修正于2020.08.28) 讲在前面论文目录讲在前面论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...
（九：2020.08.27）CVPR 2019 追踪之论文纲要（译）
CVPR 2019 追踪之论文纲要(修正于2020.08.28) 讲在前面论文目录讲在前面论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...
scala报错20/08/31 23:48:40 WARN TaskSetManager: Lost task 1.0 in stage 0.0 (TID 1, 192.168.28.94, exec
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://mave ...
java抽象类与接口5.4-5.7 2020.3.31
5-4-抽象类的应用 1.2.5.7不变,3.4.6不同,3.查询对象不同语句对象就不同,3.查到的对象不同,4的参数就可能不同,6字段也不同 1.2.5.6不变 3.4 不同 5-5-接口声明及实现 ...
2020.8.31，文书网又更新啦，这次直接加入了登录后才能查看。
文书网自上线以来一直是大家热衷于攻坚的网站.我因公司的业务,也爬取了该网站,再爬取一段时间后,获得了大概30w的数据,发现文书网又更新了 2020.08.31-----可以看到文书网直接显示需要登录后 ...
PYTHON学习笔记之（一）2020.08
PYTHON学习笔记之(一)2020.08 Python基础数据类型常见的列表.字典,以及元组.集合. 1 列表 list 1.1 列表转换字符串 stu = ['王一', '李二', '张三'] ...
八股文-- 2022.08.31
途虎养车2022.08.31 在Java中,LinkedList类有而ArrayList类没有的方法是:removeLast()方法 LinkedList :底层基于双向链表实现,不支持高效的随机元素 ...
2020.08.05狂人日记：C#计时器与串口通信
2020.08.05狂人日记:C#计时器与串口通信串口通信学习笔记问题及解决串口通信学习笔记哔哩哔哩学习"C#上位机开发串口通信编程"笔记串口发送数据 try //防止出 ...

2020-08-31