研究朱松纯FPICU体系的第 3 篇文章

《Theory-based Causal Transfer: Integrating Instance-level Induction and Abstract-level Structure Learning》AAAI 2020，有源码。

《基于理论的因果迁移:结合实例级的归纳和抽象级的结构学习》

作者 Mark Edmonds等6人，主页：https://mjedmonds.com/#experience

读后感

作者干了什么事：与2019年那篇文章基本一样，在那篇基础上使用更多主流强化学习模型开展了更多、更详细的对比实验。此外，也通过更详细的语言和图像介绍了其是如何设计一个能够学习因果图式并将知识转移到新场景的高能力agent。

机翻错误备注：

第3，4节做了全篇幅人工初步校正。

代理、特工、药物：指agent

无模型RL：指“不理解环境（model-free RL）” ，理解环境的（model-base RL）。

摘要

在相似但不同的环境中学习可转移知识是广义智力的一个基本组成部分。在本文中，我们从因果理论的角度来探讨迁移学习的挑战。我们的agent具有迁移学习的两个基本而又普遍的理论:(i)任务具有跨领域不变的共同抽象结构，以及(ii)环境的特定特征的行为在跨领域保持不变。我们采用贝叶斯因果理论归纳的观点，利用这些理论在环境之间传递知识。鉴于这些一般理论，我们的目标是通过交互式地探索问题空间来训练agent (i)发现、形成和转移有用的抽象和结构知识，以及(ii)从环境中观察到的实例级属性中归纳有用的知识。利用贝叶斯结构的层次来建模抽象层次的结构因果知识，并利用实例层次的联想学习方案来学习哪些特定对象可以通过相互作用来诱导状态变化。然后，该模型学习方案与基于模型的规划器集成，以在开锁环境中完成一项任务。开锁环境是一个虚拟的逃生室，具有复杂的层次结构，需要agent推理一个抽象的、广义的因果结构。我们比较了一组占主导地位的无模型强化学习(RL)算法的性能。在不同的试验中，RL agent对所学知识的传递能力较差。然而，所提出的模型显示了与人类学习者相似的表现趋势，更重要的是，显示了跨试验和学习情境的迁移行为。

1 简介

智能体学习和重用知识的能力是一般智能的基本特征，是智能体在新环境中取得成功的必要条件。人类表现出一种非凡的能力，在由相同的基本机制控制的环境之间传递因果知识，尽管观察到环境特征的变化。早期心理学研究通过对经典条件反射实验范式的观察，将因果理解框架为学习刺激-反应关系。然而，最近的研究表明，人类对远端世界的因果机制的理解比观察(知觉)变量之间的共变更为复杂;例如，人类探索和实验动态的物理场景来完善因果假设。

自联想解释以来，研究人员证明，人类是通过发现抽象的因果结构和因果强度来揭示因果关系的。同时，因果图形模型和贝叶斯统计推断已经被开发，为如何发现因果结构和强度提供一个一般的代表性框架。在这样的框架下，因果联系编码了世界的结构模型。国家代表世界上的某种状态，国家之间的联系意味着因果关系的存在。然而，因果学习的一个关键组成部分是与物理世界的积极互动，基于感知的信息是否符合因果假设的预测。在这项工作中，我们将因果学习(一种建立模型的形式)与基于模型的计划器结合起来，从而在动态未知的环境中有效地完成任务。

与这种超越因果理解的联想解释的工作相反，最近在深度强化学习(RL)领域的成功产生了广泛的研究，展示了agent学习如何玩游戏和发展复杂的机器人运动技能使用联想学习计划。然而，大多数无模型的RL方法仍然很难将已学习的策略转移到具有一致的底层机制但有一些不同表面特征的新环境中。这种缺陷是由于agent的总体目标范围有限:基于当前环境状态，了解哪些行为可能会导致未来的奖励。在传统的RL体系结构中，对代理环境中关键元素(instancelevel)的位置和方向的更改会以全新的状态出现，尽管它们的功能通常保持不变(在抽象层)。由于无模型的RL代理不尝试编码可转移的规则来管理它们的环境，新的情况就会出现在一个全新的世界里。虽然agent可以通过环境中的经验设计专家级的策略，但一旦环境受到干扰，agent必须重复广泛的学习过程，以在改变的环境中重新学习有效的策略。

在本研究中，迁移学习问题被视为实例级联想学习和抽象级因果学习的结合。我们提出:(i)一个自下而上的联想学习方案，确定哪些属性与环境的变化有关;(ii)一个自上而下的因果结构学习方案，推断哪些原子因果结构对一个任务是有用的。行动的结果被用来更新关于因果假设空间的信念，我们的主体学习一个能够解决我们任务的动力学模型。具体来说，我们使用了一个虚拟的逃跑室，特工们被困在一个空房间里，门锁上了。房间周围放置了一系列显眼的杠杆，agent可以与之互动。放置在这样一个房间里的行为者可以随机地推或拉杠杆，根据观察到的环境状态的变化来修正他们关于门锁机制的理论。一旦一个代理发现了一个解决方案，该代理将被放回同一个房间，但任务是寻找下一个(不同的)解决方案。特工在找到所有可以用来打开门的解决方案后逃离了房间。

完成(转义)一个房间后，代理被放置到一个类似的房间，但是使用了新的杠杆。虽然杠杆在不同的位置，管理这个新房间的规则是相同的。因此，agent的任务是根据之前学习的规则来识别每个杠杆的角色。因为这些规则是对逃逸空间的潜在状态的抽象描述，我们把潜在的理论称为因果图式;即，确定为因果关系的事件的概念组织。一旦学会了，施动者就能够转移学会的图式，尽管房间里有不同的杠杆。最后，我们以一个不同但相似的因果图式对传递知识的主体进行任务。新的模式可以添加额外的杠杆(图形模型中的节点)，或者以更具挑战性的方式重新安排结构。

本文集成了多种建模方法，以产生一个能够学习因果图式并将知识转移到新场景的高能力agent。这篇论文有三方面的贡献：

学习一种自下而上的联想理论，它编码哪些对象和行为有助于因果关系;
自上而下的原子因果图式是解决方案的学习，从而学习广义抽象任务结构;
将自上而下和自下而上的学习方案与基于模型的计划程序相集成，以从因果假设中最佳选择干预措施。

本文的其余部分组织如下:第2节描述OpenLock任务。我们在第三节和第四节分别提出了因果理论归纳和干预选择的方法。第5节比较了提出的模型与各种RL算法的性能。第6部分对全文进行了讨论。

2 OpenLock任务

OpenLock任务最初出现在Edmonds等人的2018年，要求特工通过开锁并打开一扇门逃离虚拟房间。通过按特定顺序操纵杠杆(见图1a)打开门。每一根杠杆都可以用机械臂操纵来推动或拉动杠杆。只有杠杆的一个子集，特别是灰色杠杆，参与开门(即主动杠杆)。白色的杠杆从未参与开门(即不活动的杠杆);然而，这些信息并不提供给代理。因此，在实例级，代理应该了解灰色杠杆永远是解决方案的一部分，而白色杠杆不是。代理还负责在房间里找到所有的解决方案，而不是单一的解决方案。

图式:锁门机制受两种因果图式支配:共同原因(CC)和共同结果(CE)。我们使用术语Common Cause 3 (CC3)和Common Effect 3 (CE3)来表示包含三个杠杆的方案，以及使用四个杠杆的Common Cause 4 (CC4)和Common Effect 4 (CE4);参见图2。三杠杆试验有两种解决方案;四杠杆试验有三种解决方案。代理需要在一个特定的房间内找到所有的解决方案，以确保它们形成CC或CE模式结构;一个解对应于一个因果链。

约束:agent也在一个动作限制约束下运行，其中只有3个动作(称为一次尝试)可以用于(i)推或拉(主动或非主动)杠杆，或(ii)把门推开。这种行为限制约束阻止了与环境交互的搜索深度。3次操作之后，无论结果如何，尝试都会终止，环境也会重置。无论代理是否找到了所有的解决方案，代理也被限制在一个特定的房间内有限的尝试次数(称为试验;例如，在一个房间里的一系列尝试，导致找到所有的解决方案或用尽所有尝试)。最优代理最多使用N + 1次尝试来完成一次试验，其中N是试验中解决方案的数量。一次尝试将用于确定抽象模式中每个杠杆的角色，N次尝试将用于每个解决方案。

训练:训练课程只包含三杆试验。在完成一个试验后，施动者被置于另一个试验(即房间)中，这个试验具有相同的潜在因果图式，但杠杆的排列方式不同。如果主体形成了一个有用的任务结构抽象，他们在先前的试验中获得的知识将会加速他们在现在和将来的试验中找到所有解决方案的能力。

迁移:在迁移阶段，我们检查施者将习得的抽象因果图式推广到不同但相似的环境的能力。我们使用四种转移条件，包括:(i)一致的情况，即转移图式采用相同的结构，但有一个额外的杠杆(CE3-CE4和CC3-CC4); (ii)不一致的情况，即基础图式用一个额外的杠杆改变(CC3-CE4和CE3-CC4)。我们将这些转移结果与两种基线条件(CC4和CE4)进行比较，在这两种条件下，代理被训练为一系列的4杠杆试验。

虽然看起来很简单，但这项任务的独特和挑战性有几个原因。首先，要求代理找到所有的解决方案，而不是单一的解决方案，强制任务作为CC或CE结构，而不是单一的因果链。其次，在具有相同的潜在因果图式但杠杆位置不同的试验之间转移agent，会鼓励高效的agent学习因果图式的抽象表示，而不是学习为特定试验量身定制的实例级策略。我们认为不能形成这种抽象的经纪人在任何转会条件下都会表现得很差。第三，一致和不一致迁移条件测试了行为体如何将他们所学的知识适应不同但相似的因果环境。OpenLock任务的这些特点给当前的机器学习算法，特别是无模型的RL算法带来了挑战。

3 因果理论归纳（Causal Theory Induction）

因果理论归纳提供了贝叶斯的解释如何层次因果理论可以归纳从数据。关键的观点是:层次结构使抽象成为可能。在最高层次上，理论提供关于任务或环境的一般背景知识。理论由原则组成，原则引出结构，结构引出数据。这里使用的层次结构如图3a所示。我们的智能体运用了两种理论来学习开锁环境的模型:

自下而上的β理论：一种实例级的关联理论，它涉及哪些属性和行为会引起环境的状态变化
自上而下的γ理论：一种抽象层次的因果结构理论，表示原子因果结构对任务有用

图3:自顶向下和自底向上流程的说明。(a)抽象层次结构学习层次。在顶部，原子模式为代理提供环境不变的任务结构。在底部，因果子链代表了环境中一个单一的时间步长。代理在因果子链决议中构造层次并作出决定。原子模式gM提供了顶级的结构知识。抽象模式gA是特定于任务的结构，而不是特定环境的结构。实例化模式gI是特定于任务和特定环境的结构。因果链c是代表单一尝试的结构;一个抽象的，未实例化的因果链也显示为记号。每个子链ci都是对应于单个操作的结构。PL、PH、L、U分别表示拉、推、锁、解锁的通量。(b)子链后验使用抽象级结构学习和实例级归纳学习进行计算。(c)实例级归纳学习。每一种可能性都是从因果事件中习得的。可能性术语被组合为动作、位置和颜色。

符号,定义,和空间:

一个假设空间定义在可能的因果链，。
每个链被定义为子链的元组: ，其中k为链的长度，每个子链定义为元组。
ai是agent可以执行的一个动作节点（action nodes），s i是一个状态节点（state nodes），
（causal relation）是一种因果关系，它定义了在行为ai下状态si是如何变迁的，
是一种因果关系，它定义了s i状态如何受到先前状态s i−1变化的影响
每个s i由一组时不变属性（ time-invariant attributes）和时变流（time-varying fluents）定义，比如
可以直接干预动作节点，但不能干预状态节点。这意味着一个agent可以直接影响(即执行)一个行动，但这个行动如何影响世界必须积极地学习。

一般因果链的结构如图3a中未实例化的因果链所示。以图1a和图3a因果链层次中的第一个因果链为例，如果agent在上部杠杆上执行push操作，则下部杠杆可能从pull转换为push，左侧杠杆可能从locked转换为unlocked。

状态空间定义为，其中，属性的空间由位置和颜色组成，空间流（space of fluents）由杠杆状态(推或拉)和杠杆锁定状态(锁定或解锁)的二进制值组成。
因果关系（ causal relations）的空间定义为，捕获前一个fluent值和下一个fluent值之间可能的二进制转换。

状态节点封装了对象的定常(属性)和时变(fluents)组件。属性是由低级特征(例如，位置、颜色和方向)定义的。这些低级属性提供关于特定对象在特定操作下如何变化的一般背景知识;例如，哪些杠杆可以推/拉。

方法综述:

我们的agent归纳出关于哪些对象(即实例)可以通过交互作用产生因果状态变化的实例级知识(见3.1节)，同时学习任务的抽象结构理解(即模式;见3.2节)。这两种学习机制结合起来形成了一个关于环境的因果理论，而行动者使用这一理论根据过去的经验(即，干预;见第四节)。在采取一个操作之后，agent观察其效果并更新实例级和抽象级知识的模型。

3.1 实例级归纳学习（Instance-level Inductive Learning）

agent试图了解场景中的哪些实例级组件与因果事件有关，例如，我们希望学习一个可能性术语来编码一个因果事件将会发生的概率。我们坚持一种基本而又普遍的联想学习理论:因果关系引起环境中状态的变化，而非因果关系不会，我们称之为自下而上的“自底向上”理论。我们学习了两个独立的组成部分:属性和行为，我们假设它们是独立的来学习一般的联想理论，而不是关于一个确切的因果环境的特定知识。

我们定义,空间的属性，如位置和颜色，并学习哪些属性与在环境中诱导状态变化的杠杆相关联。具体地说，一个对象是由它的可见特征来定义的，例如，属性。我们还定义，一组动作，并学习背景可能性，哪些行为更可能引起状态变化。我们假设属性和行为是独立的，并独立学习。

我们的agent学习每个属性的可能性术语，动作使用狄利克雷分布因为它们是多项式分布之前的共轭物。首先，以为参数的全局狄利克雷被用于所有试验，以编码关于不同环境的长期信念。当进入一个新的试验时，一个由参数化的局部狄利克雷初始化为，其中k是一个标准化因子。为了使比在一次试验中适应得更快，这种使用比例局部分布的设计是必要的。也就是说，与所有试验相比，agent必须更快地适应当前试验。因此，我们有一组狄利克雷分布来维护信念:每个属性都有一个狄利克雷分布
(例如，位置和颜色)以及动作的狄利克雷。类似地，我们在每个动作上保持狄利克雷分布，以编码关于哪个动作更可能引起状态变化的信念，独立于任何特定的环境。

我们引入ρ来表示在环境中发生的一个因果事件或观察。我们的agent希望评估一个特定的因果链产生一个因果事件的可能性。agent通过将链分解成子链来计算这种可能性：

其中的公式为：

(ym:由朴素贝叶斯定理等推导而来）

其中和分别遵循多项式分布，参数化的样本来自于属性和行为的狄利克雷分布。直觉上，这种自底向上的关联可能性编码了一个朴素贝叶斯预测，即一个特定子链参与的可能性有多大——通过考虑过去因果事件中属性和行为发生的频率，而不考虑任务结构，与任何因果事件相关联。例如，我们希望OpenLock中的代理知道灰色杠杆在某些情况下会移动，而白色杠杆永远不会移动。这种实例级的学习为智能体提供了任务不变的、关于哪个子链更有可能产生因果效应的基本知识

ym备注：以下节选自论文辅助材料中的推导过程。

3.2 抽象的结构学习（Abstract-level Structure Learning）

在本节中，我们概述agent如何学习抽象模式，这些模式用于编码任务结构的广义知识，对于特定的观察环境是不变的。

因果链、CC和CE的原子因果图式空间作为贝叶斯先验的类别。每个原子模式中的信念被建模为一个多项分布，其参数由狄利克雷分布定义。根据自顶向下的因果理论γ，每次试验后都会更新根狄利克雷分布参数。计算为原子模式和试验解决方案结构之间的最小图形编辑距离。这个过程产生了原子模式的先验，表示为，并为自顶向下推理过程提供了先验。这种抽象允许代理在CC和CE的抽象概念之间转移信度，而不考虑特定任务的要求，例如，3或4杆配置。

接下来，我们计算原子模式的抽象实例化的信念。这些抽象模式与原子模式共享结构属性，但具有与任务定义匹配的结构。例如，每个模式必须有三个子链来解释环境施加的3个作用的限制，应该有N个轨迹，其中N是试验中解决方案的数量。每个抽象模式都被表示为，抽象模式的空间(表示为)被枚举（ym：无论是人还是agent，都被告知每个场景有多少个解决方案（人是通过游戏界面提示当前还有多少个解决方案未被探索到），所以解决方案个数是已知的，所以这里抽象模式的空间数是有穷的，能够被枚举遍历。也就是说，的所有结构都可以被枚举出来）。对抽象因果图式的信度计算如下：

（ym：全概率公式）

抽象的结构空间可以用来在房间之间传递信度，然而，当代理执行时，我们需要在这个试验中对位置和颜色的设置进行推断。因此，代理枚举一个实例化的模式的空间，其中每个都是一个实例化的模式。然后agent计算实例化模式中的信度为：

（ym：全概率公式）

其中表示do算子(Pearl 2009)， q表示已经执行的解。do(q)的条件限制了空间的实例化解决方案，这些解决方案包含了agent在这个试验中已经发现的解决方案。因果链——在层次结构中定义下一个较低的层次，其中每个链对应一个单一的尝试（ym：一个因果链负责表示一个解决方案的全过程）。因果链的信度是这样计算的：

（ym：全概率公式）

最后，agent计算每个可能的子链的信度为：

（ym：全概率公式）

其中，表示执行到目前为止在该尝试中执行的动作序列的干预，并执行到目前为止q找到的所有解。这个分层的过程允许agent学习和推理抽象的任务结构，考虑到试验的具体实例化，以及agent在这个试验中的历史。

此外，如果agent遇到一个不产生因果事件的操作序列，那么agent就删除包含来自的操作序列的所有链，并删除包含来自的相应链的所有实例化模式。这种剪枝策略意味着agent假设环境是确定性的，并通过动态交互更新其因果链是否合理的理论。

4 干预选择（Intervention Selection）

我们的agent的目标是选择它认为最有可能(i)在环境中是合理的，(ii)是任务解决方案的一部分的行为。我们将每个子链分解成它各自的部分，。代理将自顶向下和自底向上的过程组合成最终的子链后验：

（ym：贝叶斯定理？）

接下来，agent将因果关系和状态边缘化，以获得一个最终的、行动级别的术语来选择干预措施

（ym：概率的加法法则）

agent使用基于模型的计划器来产生能够开门的动作序列。目标被定义为达到一个特定的状态，并且agent寻求执行动作，以最大限度地满足满足目标的一系列链中的动作所出现的约束条件，。我们将出现在满足目标的链条中的行动集合定义为：。agent最终计划目标是：

在每个时间步，agent选择使这个计划目标最大化的行动，并更新其对世界的信度，如3.1和3.2节所述。这个迭代过程包括基于智能体当前对世界的理解的最优决策，以及基于观察到的结果更新智能体的信念。

5 实验

我们比较了无主要模型的RL算法与基于理论的因果转移模型之间的结果。具体来说，我们将所提出的方法与深度Q-Network (DQN)、DQN与优先体验重放(DQN (PE))、优势角色批评(A2C)、信任区域策略优化(TRPO)、近端策略优化(PPO)和模型不确定元学习(MAML)代理进行了比较。我们使用术语正迁移和负迁移来表示agent的绩效受益于训练阶段或受到训练阶段的阻碍。

5.1 实验设置

提出的模型与Edmonds等人2018年在人体研究中使用的模型遵循相同的程序。在所有试验中，基线(无转移)药物均置于4级方案中。对调任人员的评估分为两个阶段:培训和调任。对于每一次训练试验，代理被放置到一个3杠杆试验中，允许30次尝试来找到所有的解决方案。在转移阶段，代理的任务是4杠杆试验。关键的是，代理只能看到每个试验(房间)一次，所以必须迅速形成归纳，以成功地在试验之间转移。更多细节请参见第2节。

在这个实验设置下，当执行各种无模型的RL代理时，没有发生有意义的学习。相反，我们通过循环遍历所有房间(从而多次查看每个房间)来训练RL代理。代理也被允许在每次试验中尝试700次以找到所有的解决方案。在训练期间，代理执行200次训练迭代，每次迭代都包含所有6次3级试验的循环。在传输期间，代理执行200次传输迭代，每个迭代包含所有5次4级试验的循环。请注意，RL代理的设置是有利的;相比之下，提议的模型和人类主体在培训期间只允许30次尝试(相对于700次)和1次迭代(相对于200次)。

RL代理直接操作模拟器的状态编码16-dimensional二进制向量:(i)的状态的每个7杠杆(推或拉),(2)每个7杠杆的颜色(灰色或白色),(3)门的状态(打开或关闭)和(iv)门锁的状态指示器(锁定或解锁)。通过对各杠杆的状态和颜色进行7维编码，对各杠杆的位置进行编码;例如，第0个索引对应于右上角位置。尽管可以直接访问模拟器的状态，但是RL方法不能形成可转移的任务抽象。

此外，我们利用了大量的奖励功能来探索在什么情况下这些RL方法可能会成功。我们的代理使用稀疏奖励函数、形状奖励函数和条件奖励函数来鼓励代理寻找唯一的解决方案。只有对唯一解决方案进行奖励的奖励函数表现最好，这意味着行动者只有在第一次找到特定解决方案时才会得到奖励。这与人类实验的设置类似，在这个实验中，当参与者第一次找到一个解决方案时，他们会被告知(从而朝着找到所有解决方案的目标取得进展)，但不会被告知他们多次执行相同的解决方案(从而不会朝着目标取得进展)。

5.2 强化学习的实验结果

无模型RL结果如图4所示，说明A2C、TRPO和PPO能够从无开始学习如何解决OpenLock任务。而在CC4条件下，A2C是唯一呈现正转移的介质;在每种条件下，其他所有主体都表现出负迁移。

图4:基线和传输条件的RL结果。基线(无转移)结果显示，在CC4和CE4的基线训练结束时，表现最好的算法(PPO, TRPO)分别实现了大约10和25次尝试。A2C是唯一显示正转移的算法;经过CC4条件的训练，A2C的表现更好。由于使用了平滑函数，最后50次迭代没有显示出来。

这些结果表明，目前的无模型RL算法能够学习如何实现这一任务;然而，在Edmonds等人的研究中，与人类的表现相比，传授所学抽象知识的能力明显不同。由于几乎每个RL主体都表现出整体的负迁移趋势，我们认为这些RL算法不能捕捉到正确的抽象来在3-杠杆训练阶段和4-杠杆转移阶段之间转移知识。请注意，RL算法发现CE4条件比CC4更困难，这一结果也显示在我们提出的模型结果和人类参与者中。

5.3 基于理论的因果转移实验结果

使用所提模型的结果如图5所示。这些结果在定性和定量上与Edmonds等人在2018年提出的人类参与者的结果相似，而与RL结果截然不同。我们在每种情况下执行40个代理，与Edmonds等人2018年所描述的人体受试者数量相匹配。

图5:模型性能与人工性能。(a) CC4/CE4的拟议模型基线结果。我们看到CC和CE的难度不对称。(b)人类基准性能(Edmonds等，2018)。(c)为CC3/CE3培训提出的模型转移结果。迁移结果表明，迁移到不一致的CE4条件下(即不同的结构、附加的杠杆;例如，CC3到CE4)比转移到一个一致的条件(例如，相同的结构，额外的杠杆;即CE3到CE4)。然而，在CC4迁移条件下，agent在向一致或不一致条件迁移时，其难度没有显著差异。(d)人员转移性能(Edmonds等，2018)。

我们的代理不需要多次循环试验;它能够通过只看一次每个试验来学习和归纳。在基线药剂中，CE4条件比CC4困难;在人类参与者中也观察到了这一趋势。在迁移过程中，我们看到一个类似的性能作为基线结果;但对于同余情况(通过附加杠杆从相同结构转移到不同结构)，则比非同余情况(通过附加杠杆从相同结构转移到不同结构)更容易;CE4转移);CE4的结果有统计学意义:t(79) = 3.0;p = 0.004。CC4转移无显著性差异(t(79) = 0.63;p = 0.44)，表明CC3和CE3在转移到CC4时性能接近。

这些学习结果与RL结果有显著差异;提出的基于因果理论的模型能够使用实例和结构学习方案学习正确的抽象，显示出与人类参与者相似的趋势。值得注意的是，RL代理是在非常有利的环境下训练的。RL因子:(i)每次试验给予更多的尝试;(ii)更重要的是，他们被允许在同一个试验中学习多次。相比之下，本模型学习了正确的机制:(i)将知识转移到结构上相同但观测上不同的情景(基线实验);(二)将知识转移到结构差异的案例(转移实验);(iii)使用与人类相同的实验设置。该模型通过理解哪些场景组件能够在利用整体任务结构的同时诱导环境中的状态变化来实现这一点。

6 结论与讨论

在这项工作中，我们展示如何基于理论的因果转移结合联想学习方案，可以用于学习可转移的结构知识在观察和结构变化的任务。我们执行了大量的无模型的RL算法，它们都没有学习OpenLock任务的可转移表示，即使在良好的基线和传输条件下也是如此。相比之下，Edmonds等人在2018年提出的模型结果不仅能够成功地完成任务，而且与人类参与者的结果紧密一致。

这些结果表明，目前的无模型RL方法缺乏必要的学习机制来学习层次结构任务中的广义表示。我们的模型结果表明，人类的因果转移遵循与本研究中所呈现的相似的抽象，即学习抽象的因果结构，以及学习将特定环境与抽象结构联系起来的特定实例知识。这里提出的模型可以用于任何强化学习环境，其中:(i)环境是由一个因果结构控制的，(ii)因果线索可以从与具有可见属性的物体的相互作用中被揭示，(iii)不同的情况有一些共同的因果属性(结构和/或属性)。

6.1 讨论

为什么因果学习对RL很重要?

我们认为，因果知识提供了一个简洁、研究充分、发展良好的框架来表示因果关系。这一知识对外部奖励是不变的，可以用来完成许多任务。在这项工作中，我们展示了利用抽象的因果知识，可以用来在结构相似但观察性质不同的环境中转移知识。

RL如何从结构化因果知识中获益?

无模型的RL善于学习一种表示，以最大限度地利用一个贪婪的过程，在简单的，非层次的环境中回报。因此，目前的方法没有限制或强制学习环境的一个抽象的结构表示。RL算法应增加学习显性结构知识的机制，并共同优化以学习任务的抽象结构编码，同时最大化报酬。

为什么CE比CC难?

人类参与者，RL和提出的模型都发现CE比CC更难，一个自然的问题是:为什么?我们假设它是从决策树的角度发生的。在CC条件下，如果代理在第一次操作中犯了错误，那么环境不会改变，其余的尝试肯定会失败。但是，如果代理选择了正确的灰色杠杆，代理可以选择剩余的灰色杠杆;这两个都能打开门。相反，在CE条件下，代理在第一个操作中有两个灰色杠杆可供选择;两者都能打开开门所需的杠杆。然而，第二项行动更加模糊。agent可以选择正确的杠杆，但也可以选择其他灰色杠杆。从决策树规划的角度来看，这样的复杂性会导致更多的失败路径。CC条件在第一次操作时立即收到关于该计划是否会失败的反馈;另一方面，CE条件有更多的失效途径。我们计划进一步研究这一性质，因为这种不对称是意料之外的，在文献中也未被探索。

还有哪些理论可能对学习因果关系有用?

在这项工作中，我们坚持联想学习理论。我们采用因果关系引起状态变化的理论。然而，其他理论可能也很有吸引力。例如，联想理论并不能直接解释长期关系(延迟效应)。更复杂的理论可能会解释延迟效应;例如，当一个代理不能找到一个特定事件的因果属性时，代理可以联合检查属性以最好地解释观察到的因果效应。之前的工作已经检查了结构类比和对象映射来促进迁移;这些也可能有助于获得可转移的因果知识。

如何避免假设空间枚举?

假设空间枚举可以很快变得棘手的问题增加规模。虽然这种方法使用了固定的、完全枚举的假设空间，但未来的工作将包括检查如何使用基于抽样的方法来迭代地生成因果假设。Bramley et al. 2017展示了基于gibbs采样的方法;然而，这种抽样应该以自上而下的推理为指导，通过利用已知的因果知识和提出的假设来指导因果学习过程。

基于模型的RL在此任务中执行得如何?

基于模型的RL可能在特定环境中表现出更快的学习速度，但仍然缺乏形成抽象的机制，以支持类人迁移。这是一个开放的研究问题，我们计划研究如何将抽象与基于模型的RL方法集成。

这种方法与分层RL有什么不同?

通常，层次RL是在目标层次上定义的，其中子目标表示可以由高级规划人员执行的选项。每一个合情合理的假设都可以被看作是执行的一种选择。这项工作试图强调利用因果知识形成一个世界模型的重要性，并使用上述模型来指导强化型学习者。事实上，我们的工作可以重铸为一种基于层次模型的RL形式。

未来的工作应该主要集中在如何将提出的因果学习算法与强化学习直接结合上。一个能够将因果学习与强化学习相结合的agent可以将世界动态(因果知识)和目标(奖励)推广到新的但相似的环境中。本文未提及的一个挑战是如何将奖励推广到不同的环境中。传统的强化学习方法，如Q-learning，没有提供一种机制来推断内部价值相似但不同的状态。在这项工作中，我们展示了如何外推因果知识可以帮助揭示相似环境中的因果关系。在某种形式的强化学习中采用类似的方案可以使强化学习者在不重复多次试验的情况下成功完成OpenLock任务，并且可以实现一次性强化学习。未来的工作还将研究学习者如何在结合因果关系的背景理论的同时迭代地发展因果假设。

读后感与机翻《基于理论的因果迁移:结合实例级的归纳和抽象级的结构学习》相关推荐

读后感与机翻《从视频中推断力量和学习人类效用》
以下是研究朱松纯FPICU概念中U(utility)的相关论文记录: 读后感: 作者干了什么事? (1)算法能够预测当人们与物体交互时,身体各个部位(臀部.背部.头部.颈部.手臂.腿等)所承受的力/压 ...
读后感与机翻《整体的三维场景解析和重建从单一的RGB图像》
以下是研究朱松纯FPICU概念中F(functionality)的第一篇论文记录: 读后感: 文章做了什么事? 提出一种3D室内场景解析和重建的算法,可以从单个RGB图像同时重建出室内场景的功能层次和 ...
读后感与机翻《人类因果学习的分解:自下而上的联想学习和自上而下的图式推理》
研究朱松纯FPICU体系的第 2 篇文章 <Decomposing Human Causal Learning: Bottom-up Associative Learning and Top-d ...
从母语学习规律中推断出英语学习的规律
从母语学习规律中推断出英语学习的规律 2011年08月17日 [b]从母语学习规律中推断出英语学习的规律[/b] [b] [/b]在此文的开始我提到:同步的精髓是指按照母语的学习规律和要求学习包括英语 ...
读后感和机翻《他们在看哪里，为什么看?在复杂的任务中共同推断人类的注意力和意图》
以下是研究朱松纯FPICU概念中I(intent)的相关论文记录: 读后感: 作者干了什么事? 算法可以从视频中预估人类的注意力位置和意图. 怎么实现的? 提出了一个人-注意力-对象(HAO)图来联合 ...
读后感与机翻《理解工具:面向任务的对象建模、学习和识别》
以下是研究朱松纯FPICU概念中P(physics)的第一篇论文记录: 目录读后感: 作者干了什么事? 作者怎么做的? 效果怎么样? 局限性摘要 1 介绍 2 面向任务的对象表示 2.1 三维空间 ...
读后感和机翻《人类因果迁移:深度强化学习的挑战》
研究朱松纯FPICU体系的第1篇文章 <Human Causal Transfer: Challenges for Deep Reinforcement Learning>CogSci 2 ...
读后感与机翻《AOGNets》
本文是在研究朱松纯团队中大量使用的"与或图"概念而找到的一篇学习论文,下述论文并非朱松纯团队的,而是北卡州立大学一个博士生发明的,其实验室专门研究可解释性深度学习. 读后感作者干 ...
Android黑屏死机--充电运行土豆视频【.4.4】》播放视频中黑屏死机》手动按电源键开机显示电量为6%
[测试版本] T0405 [测试模块] [测试步骤] 充电运行土豆视频[.4.4]> [测试结果]播放视频中黑屏死机>手动按电源键开机显示电量为6%[开机后恢复] [预期结果]可正常播放 ...

读后感与机翻《基于理论的因果迁移:结合实例级的归纳和抽象级的结构学习》

读后感

摘要

1 简介

2 OpenLock任务

3 因果理论归纳（Causal Theory Induction）

3.1 实例级归纳学习（Instance-level Inductive Learning）

3.2 抽象的结构学习（Abstract-level Structure Learning）

4 干预选择（Intervention Selection）

5 实验

5.1 实验设置

5.2 强化学习的实验结果

5.3 基于理论的因果转移实验结果

6 结论与讨论

6.1 讨论

读后感与机翻《基于理论的因果迁移:结合实例级的归纳和抽象级的结构学习》相关推荐

最新文章

热门文章