研究朱松纯FPICU体系的第 2 篇文章

《Decomposing Human Causal Learning: Bottom-up Associative Learning and Top-down Schema Reasoning》CogSci 2019，有源码。

《人类因果学习的分解:自下而上的联想学习和自上而下的图式推理》

作者 Mark Edmonds，主页：https://mjedmonds.com/#experience

读后感

作者干了一件什么事：作者2018年那篇文章说强化学习无法学习因果，而2019年这篇文章作者成功让agent实现了初步的因果推理能力。

作者怎么实现的：作者采用贝叶斯框架建立了一种因果理论归纳模型，并使用推论因果理论在相似环境之间让agent得以传递抽象的知识，而之所以这么设计，是因为作者认为人类的因果推理能力也基于此方式。（具体模型构建的细节尚未研究）

效果怎么样：在OpenLock解谜游戏中，该agent学习能力只比人差一点。作者并没有将此文中新设计的agent效果和2018年那个agent进行对比，估计是因为去年那个agent根本没有学会因果知识的实验迹象。

机翻。

摘要

迁移学习是智力的基础;预期在新的和不熟悉的环境中工作的agent必须能够将以前学到的知识转移到新的领域或问题。然而，知识转移表现在不同的表现层次上。支持不同类型迁移学习的基础计算机制尚不清楚。在这篇论文中，我们通过分解自底向上的联想学习和自顶向下的因果图式归纳的潜在计算机制来探讨迁移学习的挑战。我们采用贝叶斯框架来建立因果理论归纳模型，并使用推论因果理论在相似环境之间传递抽象知识。具体来说，我们训练模拟agent通过交互探索问题空间和从观察到的低层属性中提取关系来发现和转移有用的关系和抽象知识。建立了一套层次因果图式来确定任务结构。我们的agent结合因果理论和联想学习来选择一系列最有可能完成任务的行动。为了评估提出的框架，我们比较了模拟agent与人类在OpenLock环境中的表现。OpenLock环境是一个具有复杂层次结构的虚拟逃离室，要求agent对控制系统的因果结构进行推理。虽然模拟agent比人类参与者需要更多的尝试，但在学习情境中迁移的定性趋势在人类和我们训练过的主体之间是相似的。这些发现表明，人类在复杂、不熟悉的情况下的因果学习可能依赖于自下而上的联想学习和自上而下的图式推理之间的协同作用。

简介

在不熟悉的环境中推断因果关系的能力是人类智力的一个标志，在日常生活中经常被认为是理所当然的。一个说明性的例子是“逃离房间”，这是一种流行的社会活动，一群人在一个锁着的房间里一起完成子目标(谜题)，以达到逃离房间的目标。为了成功，团队必须:(i)在干扰物中识别与目标相关的实体，(ii)为个体的子目标发展因果模型，(iii)与场景组件相互作用，以细化基于实体和目标的假设。在本文中，我们提出，在上述情况下的推理依赖于两个关键的学习组件。首先，通过与场景中实体的交互来学习与候选因果假设相关的属性;其次，基于新编码的基于属性的知识来精炼因果假设。

值得注意的是，上述方法一般与心理学研究中关于因果学习的早期研究不一致。早期的研究主要集中在动物学习和条件反射实验范式上，将因果理解构建为主要通过观察获得的习得的刺激-反应关系。考虑到线索-效应联系的关联权重，Rescorla-Wagner模型经常被用来解释人类(和非人类)是如何基于共同出现的感知刺激构建预期的。然而，人们对远端世界的因果机制的认识已经被证明超出了所观察到的(知觉)变量之间的共变。例如，成年人在与动态的物理场景互动时，会最大限度地获取与其因果假设相关的信息，甚至婴儿也会通过探索和实验来测试他们对物体物理特征的看法。

与联想的解释相反，研究人员已经证明，人类在新的(因果)环境中学习和推理很大程度上依赖于抽象因果结构和强度的发现，而不是纯粹的联想(统计)依赖。最近，因果图形模型和贝叶斯统计推断(即贝叶斯网)的集成为如何学习这种结构和强度并转移到新的情况提供了一个一般的代表性框架。在这个框架下，因果知识在构建一个灵活的世界模型中起着至关重要的作用，在这个模型中，环境状态代表着世界上的某种状态，状态之间的联系暗示着因果关系的强度。

我们认为，在新的领域创造性发现依赖于因果结构和关联。因果结构的知识可以使主体模拟干预将如何影响环境状态，如果没有关联来指导探索，要考虑的因果假设的数量将变得棘手。对于可能采取干预措施的数量特别高的问题领域，联合指导的需要可以大大改善决策。为了解决这个问题，我们提出了一个集成了两种学习机制的计算模型:(i)一个自下而上的过程，确定哪些对象属性是因果相关的;(ii)一个自上而下的过程，了解哪些抽象的因果结构完成一项任务。行动的结果被用来更新因果假设空间，并且模拟主体学习一个能够解决具有挑战性任务的动力学模型。

我们在一个虚拟的逃生室环境中实现了提出的模型，在这个环境中，agent(人类和人工)被困在一个房间里，房间里只有一扇锁着的门和一组显眼的杠杆。这个房间的门将在agent以特定的顺序与杠杆互动后打开。放置在这样一个房间里的agent可能会开始随机地推或拉杠杆，并根据观察到的变化来修正他们关于锁门机制的理论。一旦一个agent发现了一个单一的解决方案，他们就会被放回同一个房间，并承担寻找下一个解决方案的任务。agent在找到所有可以用来开门的方法后，从一个房间逃逸。

从一个房间逃出来后，agent会被安置在一个类似的房间里，但是有了新的控制杆。尽管杠杆在不同的位置，新的房间和最后的房间一样由相同的抽象规则控制(agent不知道)。因此，agent的任务是识别一个新房间中每个杠杆的作用。如果agent使用来自先前试验的一些知识，我们期望观察到较少的解决问题的尝试。因为这些规则是对逃逸空间的潜在状态的抽象描述，所以我们将潜在的理论称为因果图式(也就是说，一个确定为因果的事件的概念组织)。一旦学会了这个图式，agent就可以在房间里不同的杠杆之间进行转换。目前的工作模型因果学习过程从层次贝叶斯的观点，并作出了三个主要贡献：

利用自下而上的联想学习范式来确定场景的哪些属性有助于因果关系。
利用自上而下的环境通用操作的因果模式模型，快速适应类似但新的场景。
利用因果假设来学习一个世界模型，它能够在看似不同但结构上和因果上相同的环境之间转移知识。

本文的其余部分结构如下。首先，描述了OpenLock环境和实验过程，然后是Edmonds等人(2018)对人类性能的分析。然后，对模型的组成部分进行了描述，并给出了相应的结果。最后，对本文的研究结果和今后的工作方向进行了讨论。

实验:OpenLock任务

参与者

本科生160人(女114人;平均年龄=21.6)，来自加州大学洛杉矶分校(UCLA)心理学系的研究对象，并因他们的参与获得了学分。

材料和过程

在本节中，我们将概述OpenLock任务，该任务最初在Edmonds等人，2018年提出。在这个任务中，代理需要通过打开一扇门从虚拟房间中逃出。按照特定的顺序操作杠杆后，门就会打开(见图1)。每个房间都有七个杠杆，围绕着一个机械臂，可以推或拉每个杠杆。而杠杆的一个子集总是涉及到锁定机制(例如，主动杠杆;，其他杠杆不是因果相关的(例如，不活动的杠杆;颜色白色)。agent观察杠杆的颜色，并期望了解灰色杠杆而不是白色杠杆永远是每个房间的解决方案的一部分。重要的是，agent的任务是找到打开房间门的所有可能的解决方案。参与者被明确告知他们的目标是打开这扇门，并被告知房间里还有多少解决方案。

图1

环境背后的机制遵循两种因果图式中的一种:共同原因(CC)和共同结果(CE)(见图2)。要求施动者在一个特定的房间内找到所有的解决方案，可以确保施动者抽象出CC或CE图式结构。虽然单个解决方案对应于单个因果链，但模式依赖于在多个链之间共享的节点。agent在移动限制条件下操作，只有三个动作可以用于(i)推或拉杠杆(主动或非主动)，或(ii)推门。这个约束被放置在agent上，以限制可能解决方案的搜索深度。三个动作之后，不管结果如何，情节结束，环境恢复。无论是否找到所有的解决方案，agent也会在一个特定的房间里，在有限的剧集(30集)内工作。我们提出三个动作作为尝试，每个房间作为试验。在完成一次试验后，施动者会带着相同的潜在因果图式，但不同的杠杆安排，转到一个新的试验(即房间)。这种设置确保了agent不会将其对环境的理解过度适用于一次试验;例如，如果agent正在形成一个有用的抽象概念，他们在先前试验中获得的知识应该有助于他们在新的试验中找到所有解决方案的能力。注意，在一个3杠杆的房间里，一个最佳agent应该在3次尝试中产生两种解决方案。一个尝试可以用来确定抽象结构中观察到的杠杆的角色，其余的尝试用于每个解决方案。

Figure 2: Common Cause (CC) and Common Effect (CE) structures used in the OpenLock task, in which L i indicates a lever in the scene, and D indicates the effect of opening the door. In (a) CC3 and (b) CE3 condition, both include three causal cues but with different causal structures.

图2:OpenLock任务中使用的共同原因(CC)和共同效果(CE)结构，其中L i表示场景中的一个杠杆，D表示打开门的效果。在(a) CC3和(b) CE3条件中，两者都包含三种因果线索，但因果结构不同

人类的结果

本文所报告的分析扩展了之前的行为发现，通过检查尝试寻找每个解决方案的次数，而不是积累所有的解决方案。本文的目的是分解OpenLock任务中涉及的各个学习组件。在任何试验中，在分配的最大尝试次数中未能找到所有解决方案的参与者将被从分析中删除(每个条件中删除24名参与者)。80名参与者被分配到每种条件下(CC和CE)。

我们首先检查了在不同的试验中寻找每个解决方案所需的尝试次数是否不同。各实验条件下的行为数据如图4所示。对于在共同原因(CC)模式下训练的参与者来说，在第一次尝试之后，寻找第一个解决方案的尝试次数显著减少(t(55)=6:80;术中;:001)和第二次试验(t(55)=2:52;p =: 02)。第一次溶液尝试在第五次试验后也出现了边际下降(t(55)=1:99;p =: 051)。对于第二种方案，仅在第一次试验后尝试次数显著减少(t(55)=4:40;术;:001)。被分配到共同效应(CE)条件下的参与者在第一次试验后发现了类似的趋势(t(55)=5:30;和第三次试验(t(55)=2:19;p=:03)，仅在第一次试验后，求第二种解的次数就减少了(t(55)=2:36;p =: 02)。

图4:共因CC3条件和共效CE3条件下的人和模型结果比较(a)和(b)比较设法找到所有解决办法的总数;(c)和(d)比较寻求第一个解决办法的尝试次数;(e)和(f)比较寻求第二种解决办法的尝试次数。

人类实验结果表明，无论参与者接受的是哪种因果图式训练，在早期的试验中，第一种和第二种解决方案都出现了显著的学习效果。然而，第一个解决方案的学习速度要快得多，而第二个解决方案的学习速度相对不那么明显。在下一节中，我们将描述我们的计算方法，并报告它是否能够解释人类的性能。

模型实现的细节

我们首先描述了agent将自上而下的(抽象的)因果知识与自下而上的(关联的)属性知识相结合的过程。agent通过(i)计算每个候选因果链的后验概率和(ii)使用计算得到的后验和基于模型的规划器进行选择来决定执行哪个行动。

因果理论归纳:为了解释人类行为的趋势，我们遵循贝叶斯解释如何从数据中归纳出等级因果理论。该框架的关键观点是，层次结构使抽象成为可能，而理论在最高层次上提供关于任务或环境的一般背景知识。理论由原则组成;例如，物种间的进化特征分析可以用分类树和突变过程来表示。原则导致结构;例如，一棵描述灵长类动物如何随着时间进化和分化为不同物种的树。最后，结构导致数据;比如灵长类之间的基因共享。

这项工作的目标是建立一个人类决策过程的模型，其中agent需要在不同但相似的环境中学习可转移的知识。我们从主动因果理论学习的角度来处理这个问题，我们期望一个没有被赋予任何信息的agent通过相互作用来学习潜在的抽象机制和环境之间的共性。这种方法自然将学习任务的焦点放在了agent如何决定下一步采取的最佳行动，以及如何有效地将结果整合到agent的世界模型中。

在这项工作中,我们坚持两个学习的总体原则:(i)因果关系会引起环境中的状态变化，而非因果关系不会（被称为自下而上的β理论），以及(ii)先前有用的因果结构将来可能会有用（我们称之为自上而下的γ理论）。具体来说，环境提供了一组属性，比如位置和颜色，我们的agent会了解哪些属性与引发环境中状态变化的杠杆相关联。我们的agent还学习了抽象的因果结构(即图式)的分布，这些结构提供了任务结构的概化概念。

我们定义一个因果链假设空间，Ωc，在可能的因果链上，超过可能的因果链,c∈Ωc。图3b显示了因果链的结构。每个链由子链的元组定义，c=(c0，，，，ck)，每个子链被定义为元组.每个ai代表agent可以干预(执行)的一个动作节点，以及动作空间，ΩA，包括推和拉每一个杠杆和推门。每个si代表一个状态节点。状态节点定义为元组，括号中第一个元素为定常属性向量，fi为时变流向量。状态节点根据因果关系采取行动ai而受到影响，并可能通过因果关系受到前一个状态节点的影响。例如，在图1a和图3b中，通过，对最左边杠杆的动作推动可以将杠杆从连贯的拉动转变为推动，进而根据将最上面的杠杆从锁定转变为解锁。

图3:(a)模型层次结构示意图。自下而上的联想学习理论，和自上而下的因果关系理论，都优先于模型的维持。该模型在因果链决议中作出决定。(b)原子因果链。链是由一系列子任务链,c,其中每个c我被定义为:(i)一个我,一个活动节点,可以干预的代理,(2)我,捕捉定常状态节点属性和对象的时变流感——树人,(iii) cr我,我和s之间的因果关系,及(iv) cr年代我,s和s我1之间的因果关系。

属性的空间表示为Wf，由位置和颜色组成。fluents的空间，WF，由杠杆状态(推或拉)和杠杆锁定状态(锁定或解锁)的二进制值组成。状态空间定义为WS =WfWF。因果关系空间定义为WCR =WF WF，捕获前一个fluent值与下一个fluent值之间可能的二元转换。

我们假设主体可以直接干预(即控制)行为，但不能直接干预通量。这种区别显著地增加了因果链假设空间的复杂性，但意味着我们不假设行为的影响，也不假设代理可以直接干预特定流畅的价值。我们假设一个行动者可以在行动空间内执行任何行动(通过对因果链中的行动节点的干预)，但必须了解该行动是如何影响世界的状态的(即，行动的效果是了解的)。

将状态分解为时不变属性和时变流有助于提高学习和推理的计算复杂度;我们的代理假设属性不能被操作或其他状态改变。此外，由于属性是定时不变的，属性提供了agent学习知识的基础，而不管执行的动作顺序或杠杆配置如何。与此相反，该通量是时变的，包含了杠杆内锁机构的潜在状态;即，锁定或解锁。

代理学习如何通过观察哪些属性与特定流畅相关联的线索来影响这些潜在状态。属性是由物体的底层特征定义的，例如位置、颜色、形状、方向等。这些低级属性提供了关于特定对象在特定操作下如何变化的一般背景知识(例如，可以推或拉哪些杠杆)。

背景理论对可用于归纳或评价结构表示的一般知识进行编码。我们使用两个背景理论，一个是自下而上的特征，表示b，以学习信念，哪些属性的对象，表明该对象可以相互作用，以产生因果效应。这种关于对象属性的低级知识和它们参与因果关系的倾向提供了信息，可以在由共同的基本动态控制的相似但不同的环境之间传递。第二个背景理论提供了一个自上而下的抽象概念，用g表示，假设任务在略微不同的环境中具有相似的因果结构;也就是说，观察环境的变化不会改变任务的潜在因果结构。

属性学习:属性提供对象的定常属性。对象的类别通常具有共同的属性;例如，所有的杯子都有一个共同的形状，所有的停止标志都是红色的，等等。然而，一个类别中的对象可能在其物理形式上有所不同，但具有共同的功能;例如，电灯开关有许多形状和大小，但是所有的例子都共享一个在状态之间传输的公共机制。

我们通过贝叶斯学习过程了解哪些属性与我们的因果假设相关，基于我们假设的因果关系会导致状态变化。
因此，一个对象在一个动作下改变状态表明该对象的属性可能与一种因果关系有关。这些属性为代理提供了泛化线索，例如洞察哪些低级属性表明相应的对象是解决方案的一部分。这种认识在试验和因果图式中是不变的。

agent相信一个属性是因果的，这是用q参数化的多项分布Mult(q)来建模的。q的后验分布给定观察数据X和自底向上理论b遵循狄利克雷分布:p(qjX;b)=Dir(a0)，其中a0由一个极大a后验(MAP)给出。

属性是在两种不同的时间尺度中学习的:一个全局时间尺度用于学习所有试验(试验之间)的属性，一个局部时间尺度用于学习特定于此试验(试验中)的属性。这种分离允许代理快速适应试验特定的知识，同时保持对所有试验的全局理解。在每一个时间,我们执行这个属性学习以下步骤:(i)画一个样本(产生观察通过选择一个干预和观察结果),(2)接受样本如果环境改变了国家以任何方式(例如,从干预有效果),和(3)增加每个属性的狄利克雷分布根据观察到的结果。

Dirichlet分布Dir(aG)用于建模全局属性分布的后验。在完成一个试验后，代理的全球狄利克雷参数，aG，被更新，纳入观察数据在一个试验。

根据我们的背景理论b，我们引入一个额外的变量r来表示一个偶然事件;也就是说，因果事件会引起环境中的状态变化。在自底向上的联想学习理论中，我们使用了局部先验优于属性。在给定背景理论b为的情况下，我们计算特定链c的属性具有因果相关性的可能性：

回想一下我们的联想理论:因果关系诱发环境中的状态变化;实际上，p(rijfi j;b)表示属性fi j与产生状态变化的对象相关联的概率，假设这些属性与因果事件独立相关。在我们的领域中，使用这一理论的行动者应该知道，在因果事件中涉及灰色杠杆，而不是白色杠杆。此外，行为人首先应该相信位置是检测因果关系的一个重要属性。然而，由于agent观察到灰色杠杆不同位置的多重配置，每一个位置都会涉及到因果事件，因此这个信念应该接近均匀分布。

这种自下而上的推断使代理能够利用关于因果关系的低水平关联信息。然后我们在不同的试验之间转移这种信念，从而使我们的代理能够利用在一个试验中获得的知识转移到下一个试验中。在每次尝试之后，行动者更新它的信念，关于它认为哪些属性是因果关系。

抽象图式学习:学习与因果线索相对应的属性，对于期望了解环境如何运作的行为人来说是至关重要的。然而，许多环境具有共同的高层次抽象因果结构。例如，开关有各种不同的形状和大小，为特定的任务定制，从电灯开关到断路器，再到铁路开关。这些特定于领域的机制都共享一个公共的抽象功能——将某个对象的状态从一种离散状态更改为另一种。

我们提出了一个用于学习抽象结构模型的模型，该模型可用于实例化特定领域的模型，以实现环境中的任务。假设这种抽象知识跨领域有用，代理可以获得一组不同功能的有用抽象模型。我们的模型认为学习抽象知识是一种模型选择，主体假设一个潜在抽象结构的空间，并根据其在环境中的经验更新这些抽象结构中的信念。更具体地说，我们认为一个抽象的因果图式gA，来自一个抽象图式WGA的假设空间，是对一些因果关系的结构描述(见图2)。即，考虑长度为K =3的N =2轨迹(即因果链)的所有可能的结构组合(因为每次尝试都有两个解决方案和三个行动)。我们引入一个先于抽象模式，p(gA);g)，这是一个使用来自抽象模式Dirichlet分布的样本参数化的多项分布，Dir(aA)。在完成一次试验后，对本次试验中找到的解决方案进行编码的抽象模式在Dirichlet分布中接收到一个参数更新，即对解决方案的抽象模式s aA进行增加。

这些抽象结构不绑定到任何特定的属性、状态或动作实例。相反，它们在不同的实例化知识下编码常见的结构属性，这些知识在观察设置改变时可能有用。在我们的任务中，抽象模式对抽象结构进行编码，其中一些对于解决OpenLock(即CC或CE)很有用，我们应该预期代理会优先使用这些结构。

接下来，我们考虑一个实例化的模式gI，它是因果链c2wc的组成。实例化的模式与抽象模式共享相同的结构，但包含模式中每个子链的每个ai、si、cra i和crs i的特定赋值。我们根据图3a中的层次结构计算实例化的模式gI中的信念

其中do(q)表示代理执行q的干预。到目前为止找到的解决方案，一组动作序列q=fA0;:::;Ang，其中Ai是一个动作序列。do()操作符是Pearl(2009)提出的干预操作，它允许代理将自顶向下的推断偏向于包含已经找到的解决方案的实例化模式。接下来，我们通过对包含该因果链的实例化图式求和来计算自顶向下的因果链信念。

这些术语支持自顶向下的推断，即哪个链最可能遵循反映过去有用的抽象因果结构的实例化模式。当代理面对具有相同的底层抽象机制管理锁的新房间配置时，可以了解哪些抽象模式在以前的试验中成功了。

干预选择:我们将干预选择制定为自上而下和自下而上的因果链信念的组合，我们认为我们的学习机制g和b是独立的。我们根据自顶向下的信念和自底向上的似然来计算链的后验，假设有一个一致的先验p(r)

我们的代理对开门任务的目标保持一个明确的概念。人类参与者也被告知了这项任务的确切目标。因此，我们将干预选择过程框架为一种基于模型的规划形式。考虑到agent当前的环境模型，我们的agent试图推断出最可能实现打开大门这一目标的因果链。agent的环境模型来自于两种学习形式:自下而上的联想属性学习和自上而下的抽象图式学习。

p(《;(q);g;b)定义为式5。此状态定义与提供给人类参与者的信息相匹配，并将计划人员的重点放在实现任务级目标上。

在满足约束条件的链中，我们依赖后验链来确定哪些链是合理的。后验是将自顶向下的结构知识与自底向上的属性知识相结合。这种结合之所以强大，有两个原因:(i)自下而上的知识使信念偏向于包含在过去的因果事件中出现过的属性的结构;(ii)自上而下的知识使行动者对过去有用的结构有偏见。

模型的结果

我们以与人类相同的方式训练我们的代理人;具体来说，我们允许该代理在CC和CC中完成80个试验
CE逃生室(与人类参与者相同数量)。代理在一次尝试中被限制为3个动作，在一次尝试中被限制为30个动作。未完成所有试验的任何代理都将从研究中删除(与人类参与者数据相同，CC条件中未删除代理;7个代理被从CE条件中移除)。

图4比较了人和模型的性能。该模型显示了与人类相似的趋势，但在每次试验中表现稍微差一些。对于分配给CC条件的代理，在第一次尝试后，寻找第一个解决方案的尝试次数显著减少(t(79)=8:09;和第二次试验(t(79)=4:04;术中;: 001)。仅在第一次试验之后，CE代理需要较少的尝试来找到第一个解(t(72)=6:23;术;:001)。在其余的试验中，第一次和第二次溶液尝试的减少不显著。

这些结果说明我们的模型大致能够捕捉人类学习的参与者,但不捕获所有所需数量的显著变化的尝试:例如,在CC和CE条件的数量需要参与者试图找到第二个解决方案初审后持续下降。然而，我们的模型总体上有效地捕捉了人类行为的总体趋势:寻找所有解决方案所需的尝试次数与人类匹配良好，并且几乎单调地减少，尽管减少的速率更小。

结论

在这项工作中，我们展示了一个基于联想学习和模式推理的层次模型。我们的模型整合了两种学习机制:(i)自下而上的理论，学习哪些属性在环境中具有因果关系;(ii)自上而下的理论，学习环境中有用的抽象结构。我们的agent选择一个基于因果链后验的干预，并使用干预的观察结果更新其模型。模型结果表明，我们的混合agent能够捕获在人类参与者中观察到的一般趋势，并捕获在人类表现中观察到的一些统计意义。这些结果表明，人类的因果学习可能包含一种自下而上的联想学习和自上而下的因果结构推理的机制。

这里给出的底层计算框架可广泛应用于OpenLock环境之外;它可以应用于任何强化学习环境，其中:(i)潜在的动力受到一些因果结构的约束;(二)交互要素具有表明因果相关性的可见特征;(iii)关键要素的物理位置会随时间而改变。在未来，我们希望扩展我们的模型来解释更极端的观测变化。例如，如果杠杆可以突然旋转而不是推/拉?如果引入了新的颜色，提供了关于因果关系的进一步线索，会怎么样呢?如果环境开始以概率的方式运行，杠杆可能无法正确地启动，又会怎样呢?未来的行为和计算工作应该检查这些过程如何在更复杂的场景中集成，从而提供更接近真实世界的方法。

讨论

还有哪些理论可能对学习因果关系有用?

这里提出的背景理论，即因果关系引发状态变化和抽象的因果知识可以重用，提供了合理的背景理论。然而，其他背景理论可能也很有吸引力。例如，Pearl(2009)根据因果关系是否在有向无环图中可识别，对因果关系定义了更严格的定义。

如何避免假设空间枚举?

本文列举了的空间。假设空间枚举可以很快变得棘手的问题增加规模。虽然这项工作使用了一个固定的、完全枚举的假设空间，但未来的工作将包括检查基于采样的方法如何迭代生成因果假设(例如，见Bramley et al.(2017))。

自底向上关联标准的其他可能性是什么?

我们的方法将低级属性作为自下而上的联想学习的标准。然而，其他的可能性也同样有效。例如，建模者可以将属性与特定的动作配对，并从中了解因果关系的分布情况。这一决定最终归结为所考虑问题的解决方案，以及什么适合正确地对问题建模。

这项工作是如何与强化学习(RL)联系在一起的?

基于模型的规划器与基于模型的RL密切相关。我们的问题设置可以按照0-1奖励函数进行设置，如果门被打开，代理将收到1的奖励，否则将收到0。然而，基于模型的RL通常假设提供了一个世界模型，但我们的agent通过联想学习和模式推理迭代地更新世界动力学的概念。

读后感与机翻《人类因果学习的分解:自下而上的联想学习和自上而下的图式推理》相关推荐

读后感与机翻《从视频中推断力量和学习人类效用》
以下是研究朱松纯FPICU概念中U(utility)的相关论文记录: 读后感: 作者干了什么事? (1)算法能够预测当人们与物体交互时,身体各个部位(臀部.背部.头部.颈部.手臂.腿等)所承受的力/压 ...
读后感与机翻《整体的三维场景解析和重建从单一的RGB图像》
以下是研究朱松纯FPICU概念中F(functionality)的第一篇论文记录: 读后感: 文章做了什么事? 提出一种3D室内场景解析和重建的算法,可以从单个RGB图像同时重建出室内场景的功能层次和 ...
从母语学习规律中推断出英语学习的规律
从母语学习规律中推断出英语学习的规律 2011年08月17日 [b]从母语学习规律中推断出英语学习的规律[/b] [b] [/b]在此文的开始我提到:同步的精髓是指按照母语的学习规律和要求学习包括英语 ...
读后感和机翻《他们在看哪里，为什么看?在复杂的任务中共同推断人类的注意力和意图》
以下是研究朱松纯FPICU概念中I(intent)的相关论文记录: 读后感: 作者干了什么事? 算法可以从视频中预估人类的注意力位置和意图. 怎么实现的? 提出了一个人-注意力-对象(HAO)图来联合 ...
读后感与机翻《基于理论的因果迁移:结合实例级的归纳和抽象级的结构学习》
研究朱松纯FPICU体系的第 3 篇文章 <Theory-based Causal Transfer: Integrating Instance-level Induction and Abst ...
读后感与机翻《理解工具:面向任务的对象建模、学习和识别》
以下是研究朱松纯FPICU概念中P(physics)的第一篇论文记录: 目录读后感: 作者干了什么事? 作者怎么做的? 效果怎么样? 局限性摘要 1 介绍 2 面向任务的对象表示 2.1 三维空间 ...
读后感和机翻《人类因果迁移:深度强化学习的挑战》
研究朱松纯FPICU体系的第1篇文章 <Human Causal Transfer: Challenges for Deep Reinforcement Learning>CogSci 2 ...
读后感与机翻《AOGNets》
本文是在研究朱松纯团队中大量使用的"与或图"概念而找到的一篇学习论文,下述论文并非朱松纯团队的,而是北卡州立大学一个博士生发明的,其实验室专门研究可解释性深度学习. 读后感作者干 ...
Android黑屏死机--充电运行土豆视频【.4.4】》播放视频中黑屏死机》手动按电源键开机显示电量为6%
[测试版本] T0405 [测试模块] [测试步骤] 充电运行土豆视频[.4.4]> [测试结果]播放视频中黑屏死机>手动按电源键开机显示电量为6%[开机后恢复] [预期结果]可正常播放 ...

读后感与机翻《人类因果学习的分解:自下而上的联想学习和自上而下的图式推理》

读后感

摘要

简介