研究朱松纯FPICU体系的第1篇文章

《Human Causal Transfer: Challenges for Deep Reinforcement Learning》CogSci 2018

《人类因果迁移:深度强化学习的挑战》

作者 Mark Edmonds，主页：https://mjedmonds.com/#experience

读后感

文章干了什么事：作者设计了一个解锁门的游戏，有先后两个场景，都需要用到因果知识，以此来检验当今的强化学习模型是否能学会因果关系以及因果迁移能力。
如何干的：作者基于当时热门的DDQN强化学习模型，设计了一个agent来玩这个游戏，设计的重点是奖励函数。
实验结论：通过与人类对比，发现当前热门的强化学习模型DDQN并不能真正学会因果关系。作者详细解释了为什么是这样，以及后续改进强化学习模型的方向。

翻译主要源自：有道词典、Google翻译。对部分翻译内容做了人为校正，但有些内容自己也不甚理解所有按照词典翻译。很多公式的翻译没有校正，后续想认真研究的去看原始论文。

1 摘要

在新问题语境中发现和应用因果知识是人类智力的一个典型例子。当相互作用中从环境中获得新的信息时，人们发展和完善因果图式，以建立一个对潜在问题约束的简洁解释。本研究的目的是系统地检验人类通过探索环境和将知识转移到具有更大或不同结构复杂性的新情况下发现因果图式的能力。我们开发了一个新的开锁任务，参与者通过移动作为锁的杠杆来打开一扇门，探索一个虚拟的逃生室环境。在每种情况下，打开门的杠杆的连续运动形成了一个分支因果序列，它以共同原因(CC)或共同效果(CE)结构开始。基线条件下的参与者完成了五项具有高度结构复杂性的试验(即四个主动杠杆)。在迁移条件下完成6次低结构复杂性训练试验(即3个主动杠杆)后，完成一次高复杂性迁移试验。迁移条件下获得的因果图式与迁移条件下获得的因果图式要么一致，要么不一致。CC模式下的基本表现优于CE模式下的表现，当一致性模式是难度较小的CC模式时，一致性促进了迁移表现。我们将被试者之间的表现与深度强化学习模型进行了比较，发现标准的深度强化学习模型(DDQN)无法捕获具有相同因果图式的试验和具有因果图式转移的试验之间的因果抽象。

2 介绍

因果关系被称为宇宙的粘合剂。因果学习领域的关键研究问题是各种智能系统，从老鼠到人类和机器，如何在新的情况下获取因果关系的知识。几十年前，许多研究人员提出，因果知识可以通过一种基本的学习机制获得，即联想学习，非人类动物通常在经典条件反射模式中使用这种机制来学习刺激和反应之间的关系。联想学习的一个主要理论解释是Rescorla-Wagner模型，它以更新的线索-效应链接的联想权重的预测误差为指导。

然而，随后的研究已经产生了大量的证据，证明人类的因果学习依赖更复杂的过程，而不是线索-效应链接的联想学习。人类的学习和推理涉及到获取因果关系的抽象因果结构和强度值。因果图模型已经与贝叶斯统计推断相结合，为人类因果学习提供了一个通用的代表性框架。

然而，大多数人类因果学习的模型都假设因果变量和因果结构的假设空间是已知的，并且推理集中于选择最佳的因果结构来解释观察到的与因果线索和结果相关的偶发信息。目前还不清楚agent如何在网上积极探索一个完全新奇的情况，并缩小潜在因果结构的范围以实现有效推理。

在结果取决于学习者的行动而不是简单地观察的情况下，强化学习（RL）是一种广泛使用的建模工具。这对于设计能够在复杂环境中进行探索的自主，动态代理很有用。 RL专注于通过将情况映射到行动来学习如何做，从而最大化奖励信号。 RL在历史上一直与联想学习理论紧密相连，并且将学习本质上看作是反复试验的过程。经典条件和时差学习之间的联系是RL的核心要素，这一点已广为人知。因此，RL可以看作是联想学习的现代版本，其中学习不仅受预测误差的指导，而且受其他学习机制的指导，尤其是对奖励函数的估计。 RL（尤其是深层RL）的最新进展已在涉及设计自主，动态Agent以进行探索的应用中取得了令人瞩目的成功，这些应用包括玩Atari和Go以及学习复杂的机器人控制策略。

随着RL的这些重大发展，现代学习模型是否有可能获得类人因果知识？为了解决这个问题，我们设计了一项新颖的任务来检查对由不同因果结构控制的动作序列的学习，从而使我们能够确定人类在什么情况下可以转移他们所习得的因果知识。我们的设计涉及两种基本因果结构（共因（CC）和共效（CE）；见图1）。当多个因果链合并为一个结构时，它们可以形成CC或CE模式。先前使用观察范式的研究已经发现，在人类学习中，由于共同原因和共同影响的结构存在不对称性。

Figure 1: Common cause (CC) and common effect (CE) structures used in the present study. D indicates the effect of opening the door. (a) CC3 condition, three lock cues; (b) CE3 condition, three lock cues. (c) CC4 condition, four lock cues; (d) CE4 condition, four lock cues.1

图1:本研究中使用的共因(CC)和共效(CE)结构。D表示开门的效果。(a) CC3状态，3个锁杆;(b) CE3条件，三次锁杆。(c) CC4状态，4个锁杆;(d) CE4条件，四次锁扣

ym解释：

CC3意思就是我推了L0杆子，那么再推L1或L2任意一个后，门就显示可以去打开了。

CE3意思是我需要推了L1 或 L2之后，再去推L0，门才显示可以去打开。

为了给人类设计一个新的环境，我们开发了一个虚拟逃生室。想象一下，你发现自己被困在一个空房间里，唯一的逃生途径是通过一扇打不开的门。虽然门上没有明显的钥匙孔，你也看不见周围有钥匙，但有一些明显的杠杆从墙上伸出来。你的第一反应可能是随机拉动杠杆来看看会发生什么，在给出结果的情况下，你可能会修正你关于杠杆相互作用与开门之间关系的理论。我们把这个潜在的理论称为一个因果图式:也就是说，一个确定为因果关系的事件的概念组织。这些模式是通过经验发现的，可以潜在地转移到新的目标问题，以推断其特征。

在逃逸室的例子中，一种开门的方法是诱导因果图式将杠杆的相互作用连接到门的锁紧机制。然而，人们在新情境中发现CC和CE模式是否同样熟练，这一点尚不清楚。在本研究中，我们首先评估了人类因果学习是否会受到潜在结构的影响，比较了CC结构和CE结构的学习。然后，我们研究了学习一种因果结构是否能促进后续学习包含更多因果变量的同一图式的更复杂版本。我们比较了人类在一系列学习情境下的表现和深层RL模型的表现，以确定在没有因果结构先验知识的情况下，仅通过奖励优化来学习的算法能否捕捉行为趋势。

在本文的其余部分中，我们首先描述用于当前OpenLock任务的RL算法。然后我们描述一个实验的设计和报告人类的结果。接下来，我们描述我们的RL模型和模型结果。最后，我们讨论我们的发现对因果学习的影响。

3 强化学习

RL关注于学习状态和行为之间的映射，以最大化某些奖励功能。Qlearning是一种典型的无模型RL技术，它试图利用预期折扣奖励来学习行动-价值函数。最优Q函数定义为:

其中St为t时刻的状态，at是行动，π= P (a|s)为 agents 策略, r∈[0,1]为折现因子，rt为reward。

RL的一个里程碑是DQN的引入，它克服了以往基于神经网络的RL方法的局限性。具体来说，DQN使用经验重放来减轻网络对观测序列中最近相关性的过度拟合。DQN还引入了每t步更新一次的目标网络，以进一步缓解过拟合问题。这种方法显示了一种比人类更能玩雅达利游戏的非凡能力。

DDQN扩展了DQN，减少了Q函数的过高估计。DQN使用一个单值估计器来选择和评估一个特定的动作，而DDQN通过学习两个值估计器来解耦选择和评估:一个用于选择，另一个用于评估。在绝大多数Atari游戏中，DDQN显示出优于DQN的性能和稳定性，并已成为最先进的RL方法之一。在本文中，我们选择DDQN作为计算模型，因为它实现简单，并且在各种任务上都有显著的性能。

4 实验:OpenLock任务

4.1 参与者

共有240名(170女，平均年龄21岁）来自加州大学洛杉矶分校(UCLA)心理学系的本科生被招募进来，并因他们的参与获得学分。

4.2 材料与步骤

在OpenLock任务中，参与者被要求通过打开一扇锁着的门从一个虚拟的房间中逃离，这扇门是由一个杠杆机构控制的(见图2)。这个任务是找出什么杠杆机构可以打开这扇门。每一种上锁情况都由7个杠杆围绕着一个机器手臂和一扇从上锁状态初始的门组成。与锁定机制相关的杠杆(即活动杠杆)被涂成灰色，与锁定机制无关的杠杆(即非活动杠杆)被涂成白色。参与者并没有被明确告知哪些杠杆是可活动的，哪些是不能活动的，而是被要求通过试错来区分。不过，这通常并不困难，因为不活动的杠杆永远不会被移动。活动杠杆需要移动的顺序是按照共同原因(CC)或共同效果(CE)图式(见图1)进行的，参与者要尝试30次来发现每种情况下的每种解决方案。参与者被指示将解决方案视为每个锁的组合，并且需要发现每个解决方案/组合，以确保参与者理解每种情况下潜在的因果图式。参与者也在运动限制条件下进行操作，即只有三个动作可以用于(1)与杠杆互动(两个动作)和(2)推门(一个动作)。如果一个参与者试图以错误的顺序移动一个活动的杠杆，杠杆将保持不动，并消耗更多的动力。一旦耗费了三个动作，每个试验都会恢复到其初始状态，并且在尝试30次之后，该实验会自动进行到下一个试验。在与OpenLock应用程序相同的屏幕上的控制台窗口中提供了剩余的解决方案和尝试次数。

Figure 2: (a) Starting configuration of a 3-lever trial. All levers begin pulled towards the robot arm, whose base is anchored to the center of the display. The arm interacts with levers by either pushing outward or pulling inward. This is achieved by clicking either the outer or inner regions of the levers radial tracks, re- spectively. Only push actions are needed to unlock the door in each lock situation. Light gray levers are always locked, which is unknown to both human subjects and RL at the beginning of training. Once the door is unlocked, the green button can be clicked to command the arm to push the door open. The black circle located opposite the door s red hinge represents the door lock indicator: present if locked, absent if unlocked. (b) Push to open a lever. (c) Open the door by clicking the green button.

图2：（a）3杆试验的开始配置。所有杠杆开始向机械臂拉动，机械臂的基座固定在显示器的中央。手臂通过向外推动或向内拉动与杠杆相互作用。这可以通过分别单击杠杆径向轨道的外部或内部区域来实现。在每种锁定情况下，只需按一下操作即可解锁门。浅灰色的杆始终处于锁定状态，这对于人类受试者和RL在训练开始时都是未知的。门解锁后，可以单击绿色按钮来命令手臂将门推开。位于门红色铰链对面的黑色圆圈表示门锁指示器：如果已锁定，则存在；如果未锁定，则不存在。（b）推开杠杆。（c）单击绿色按钮打开门。

在这个环境中，用户通过点击2D显示器中需要的元素来控制模拟机器人手臂的运动。通过点击内部或外部的轨道，可以推动或拉动杠杆，但不需要拉动杠杆就可以打开门。在每个锁的情况下都有3或4个活动的杠杆。我们将3-杠杆和4-杠杆共同原因情况分别称为CC3和CC4(图1a, 1c)，将3-杠杆和4-杠杆共同效应情况分别称为CE3和CE4(图1b, 1d)。注意，这些数字对应于活动杠杆的数量。门的状态(即，或锁或不锁)是由存在或不存在一个黑色的圆位于门的铰链对面。一旦门被打开，黑色的圆圈消失，参与者可以通过点击一个绿色的按钮来命令机器手臂去推门。机械臂由五个可自由旋转的部分组成，这样机械臂的自由端可以轻松地到达显示屏上的所有元素;采用逆运动学方法实现了机械手的位置控制。碰撞使用Box2D处理，底层仿真环境使用OpenAI Gym作为虚拟游戏场，通过有限状态机训练agent并执行因果模式。

在实验设计中，参与者被随机分配到六种条件中的一种(每一种条件下有40名参与者)，并通过查看一组说明锁环境中的重要组件和细节开始实验2。另外招募了15名参与者，但随后由于他们无法在分配的尝试次数中完成任何试验而从分析中删除。前两个实验条件是基线，其中包含五种不同的锁情况，分别由CC4或CE4试验组成。这两个对照组(分别为CC4和CE4)的基线条件被纳入评估人类因果学习是否会受到潜在结构的影响，比较共因结构的学习和共效结构的学习。对于剩下的四种情况，我们考察了学习一种因果结构是否能促进后续学习同一图式中包含更多因果变量(即主动杠杆)的更复杂版本。

这四个条件包括六次三杆情况下的训练试验，接着是一次四杆情况下的迁移试验。3- 4杠杆情境下的图式要么是一致的(CC3-CC4, CE3-CE4)，要么是不一致的(CC3-CE4, CE3-CC4)，并且在整个3-杠杆训练试验中始终保持不变。参与者大约需要17.4分钟完成基线试验，17.3分钟完成训练和迁移试验。

4.3 人类的结果

我们首先比较了参与者仅完成CC4和CE4试验的两种基线条件下的表现。图3显示了每个基线试验中尝试解决一个四杠杆任务的平均次数。参与者表现出了明显的学习效果，因为以后的试验需要的尝试更少，F(4,75)=40.16;p<0.001。因果结构的主效应呈显著性趋势，F(1;78)=3:63;p=:06，最后一次尝试(即尝试5)的两样本t检验结果表明，CE结构的任务比CC结构的任务需要更多的尝试，t(78)=2:00, p<:05。这一结果表明，当一种情况涉及相对较高的结构复杂性时，CE结构比CC结构更难识别。

Figure 3: Average number of attempts needed to find all unique solutions in the 4-lever common cause (CC4) and common ef- fect (CE4) baseline conditions. Error bars indicate standard er- ror of the mean.

图3:在四杠杆共同原因(CC4)和共同ef- fect (CE4)基线条件中找到所有唯一解决方案所需的平均尝试次数。误差条表示均值的标准偏差。

接下来，我们检查了完成三杆训练试验和四杆迁移试验的四组人员的训练表现。训练试验的显著主效应表明，F(5;152)=56:02;术;:001。CC3组和CE3组在训练表现上无差异，F(1;158)=0:11。与四水平情况下的两组对照组相比，参与者在三水平情况下表现相似，这表明结构复杂性影响了CC和CE试验的相对难度。对于因果变量较少的简单结构，人们似乎同样能很好地学习不同类型的因果结构。然而，随着复杂性的增加，一些因果结构似乎比其他结构更容易学习。为了进一步研究四个训练组是否达到了相同的学习水平，我们比较了在三杠杆任务中最后一次训练试验的表现。CC3-CC4和CC3-CE4组的表现无差异，t(78) = 0.87, CE3-CC4和CE3-CE4组的表现无差异，t(78) = 0.48。这表明，在进行各自的迁移试验之前，每个训练小组的参与者对潜在的因果图式有大致相同的理解。

最后，我们考察了参与者的迁移表现。图4描述了解决转移试验所需的平均尝试次数。双因素方差分析显示，训练结构与测试结构之间存在显著的交互效应，F(1;156)=24:94;当在训练和迁移试验中使用相同类型的因果结构时，表明优越迁移。结果显示，在CC3结构下训练的参与者在CC4条件下比在CE3因果结构下训练的参与者表现更好，t(78)=2:62;p =: 01。同样，在CE3结构下训练的参与者在CE4测试中比在CC3结构下训练的参与者表现更好，t(78)=4:27;术;:001。与基线组相一致的是，迁移测试中因果结构的主效应也显著，CE4条件比CC4条件需要更多的尝试，F(1;158)=17:14;术;:001。

Figure 4: Transfer trial results. Average number of attempts needed to find all unique solutions in the 4-lever common cause (CC4; left) and common effect (CE4; right) conditions. Light and dark grey bars indicate CC3 and CE3 training, respectively. Error bars indicate standard error of the mean.

图4:迁移试验结果。在四杆共同原因中找到所有唯一解决方案所需的平均尝试次数(CC4;(左)和共同效应(CE4;右)条件。浅灰色和深灰色条分别表示CC3和CE3的训练。误差条表示均值的标准误差。

4.4 模型的细节

锁的状态空间环境包含16个二进制尺寸:7每一杆的状态(推或拉),7个维度为每个锁的颜色(灰色或白色),1维的状态锁定(锁定或解锁),和1维的门(关闭或打开)。动作空间由15个维度组成:7个杠杆每个有2个动作(推和拉)，门有一个动作(推)。

底层的Q-learning算法使用的是DDQN。神经网络设置为4个隐层(图5):一个16维状态空间输入向量，与4个层紧密相连，节点128个，每个层使用ReLU激活函数，得到一个15维的线性激活的输出层。在策略评估期间，选择输出最高的动作作为下一个要采取的动作。

Figure 5: Neural network architecture of DDQN. Input con- sists of a 16-dimensional state vector. All hidden layers are 128- dimensional and densely connected with ReLU activation. The output layer is 15-dimensional with linear activation.

图5:DDQN的神经网络结构。输入条件是一个16维状态向量。所有隐藏层都是128维的，并与ReLU激活紧密相连。输出层是线性激活的15维。

奖励函数可能是RL中最重要的部分。奖励功能的目的是在一个行为有助于或有害于实现目标时向施动者发出信号。agent的目标是将其在环境中的经验累积的回报最大化。我们设计了多种奖励函数来编码环境信息：

基本：如果门没有锁，奖励10，如果门打开，奖励50，否则奖励0。
状态改变：建立在基本奖励函数的基础上，但如果agent的行为以任何方式改变了观察向量，则会增加0.5的奖励。
独特的解决方案：建立在基本的奖励功能上，但只有在成功的动作序列之前没有被执行时才给予奖励。
消极的固定：建立在基本奖励功能的基础上，但如果agent与一个不可动的杠杆相互作用，也会给予-0.5的奖励。
消极的重复：基于基本的奖励函数，但对重复的行为增加-0.25的惩罚，以最小化agent重复相同行为的机会。
部分操作序列：建立在基本的奖励功能和状态变化上。如果采取的第一个行动是解决方案的一部分，奖励1。这允许一个更流畅的奖励功能，相当于只奖励第一步的状态改变奖励。
解乘数：建立在基本奖励函数的基础上，但为每一个连续的解决方案增加一个奖励乘数。例如，如果乘数设置为1.5x，第一个解打开门得到1的奖励，第二个解得到1.5的奖励，第三个解得到2.25的奖励。找到解决方案的顺序并不重要。直观地说，这是一种替代机制，用于编码寻找多个解决方案而不是单一解决方案的重要性。

4.5 模型结果

我们测试了RL解决OpenLock任务的能力，从奖励条件和参数值尽可能接近人类参与者开始。唯一解决方案奖励功能只给予成功的动作序列奖励，这相当于人类参与者从控制台窗口收到的信息。然而，这种奖励功能导致agent无法与环境进行有意义的互动。在DDQN的体验重放过程中，如果agent多次执行相同的成功动作序列，则相同的状态-动作对可以产生不同的奖励值(奖励仅在第一次执行时给予)。agent可能会经历相同的状态，采取相同的行动，并获得不同的奖励。更糟糕的是，agent在每次尝试时每个解决方案只会获得一次奖励，这使得在体验重放过程中正确更新网络权值的概率很低。

我们根据经验评估其他奖励功能的组合。我们发现，使用负不可动、部分动作序列和解乘奖励函数可以获得最佳的DDQN性能。这种结合有许多特性，使得它有助于学习，因为它:(1)惩罚执行者执行无意义的行动，(2)编码一个奖励，以找到多个解决方案，(3)创造一个更平滑的奖励函数，以执行正确的第一个行动。

具体来说，最优agent使用以下DDQN参数:折扣因子，g=0:8;开始ε,e = 1;最小，emin =0:01;学习速率,= 0:001;epsilon衰变，edecay =0:995(参考Van Hasselt等人，2016获得更多关于这些参数的信息)。在每次试验结束时，e被设置为0:5，以鼓励更多的探索，并防止agent采用针对前一次试验的特定政策。

对于只有CC4和CE4条件的基线病例，RL agent在每次试验中给予300次尝试，并在所有4杠杆试验中循环10次。对于迁移条件，agent在每次试验中被给予300次尝试(相比之下，人类受试者每次试验为30次尝试)，并在训练过程中循环训练100次(相比之下，人类受试者只有一次尝试)。在测试中，代理在每次试验中被给予300次尝试，并在测试试验中循环10次。然而，这与人类实验不同，当代理在试验中进行一次迭代训练(每次试验的尝试次数更多)时，代理在第一次试验后的表现非常糟糕。

虽然实验设置中的这些差异使得与人类结果进行定量比较较为困难，但可以通过一般的定性评估来判断DDQN在这项任务中的整体性能。

首先，我们检查基线随时间的性能(图6)。类别表示当尝试结束时代理与解决方案的距离有多近(例如，当agent执行了三个操作时)。类别对应奖励积累的各种价值观的一个尝试:(1)寻找每一个可能的解决方案的一个类别(第一题是60，第二题是90，第三题是135，用1.5倍的解乘),(2)一个类别的打开门,和(3)为其他类别(奖励低于其他类别)。我们将每种类别的数量进行汇总，以检查agent如何随着时间的推移进行学习。

Figure 6: Baseline trial results of RL agent. The frequency of each reward category is plotted in log-scale; the number of attempts is the same in each group. The decreasing height of the bars indicates that one reward category is dominating; specifically the else category. The agent s performance decreases as the number of attempts increases, meaning that the agent is getting worse at the task during training.

图6:RL agent基线试验结果。每个奖励类别的频率用对数标度表示;每一组的尝试次数是相同的。柱状图高度的下降表明有一种奖励类别占优势;特别是else类别。随着尝试次数的增加，agent的性能会下降，这意味着agent在训练过程中会变得更差。

对于只有CC4和CE4试验的基线条件，RL模型表明它能够找到所有3种解决方案，这可以从开放3类中尝试的比例得到证明。然而,尝试打开3类的比例低于开放2和开放1(同样适用于开放2和开放1)。这表明agent已经很难找到第二个和第三个解决方案后发现第一,尽管更高回报的第二个和第三个解决方案。更糟糕的是，由于训练更多，代理找到的解决方案更少。图6显示了else类别随着尝试次数的增加而增加，这意味着agent在后期的训练中比在早期训练中更经常地执行导致很少或没有回报的尝试。

图7展示了从三杆训练到四杆转移试验的结果。CE3-CC4和CC3-CC4的模型执行了大约30%的解决方案。我们注意到CE3-CE4迁移情况比其他情况稍容易;一个解决方案在所有尝试中执行了42%。CC3-CE4转移比其他情况更难;一个解决方案在所有尝试中只执行了16%。相比之下，CE3-CE4是人类第二困难的迁移案例;然而，CC3-CE4也是对人类来说最困难的案例。总体而言，与人类绩效相比，在RL s模型中，转移情况之间的不对称似乎不那么明显。

Figure 7: Transfer trial results of RL. The frequency of each reward category is plotted in log-scale; the number of attempts are the same in each transfer case. Note that CC3-CC4 and CE3- CC4 have nearly the same proportions while CC3-CE4 appears more difficult and CE3-CE4 is easier.

图7:RL转移试验结果。每个奖励类别的频率用对数标度表示;在每种传输情况下，尝试的次数是相同的。注意CC3-CC4和CE3- CC4的比例几乎相同，而CC3-CE4看起来更困难，CE3- ce4更容易。

这些结果表明，虽然RL模型能够揭示开锁任务背后的一些机制，但无论是在符合因果图式和不符合因果图式之间转换时，agent都不能在试验之间形成一个有用的抽象概念。如果RL模型学习了一个抽象的因果图式并成功地应用了它，在基线结果中，我们期望看到else类别的相对比例减少，而unlock, open 1, open 2，和open 3的相对比例增加。

在人类的结果中，我们看到尝试的次数单调地减少(从而单调地增加OpenLock任务的性能)。相反，我们看到RL模型在基线训练中单调地增加不成功尝试的次数(因此单调地降低性能)。这一结果表明，我们的DDQN agent无法形成人类隐含或显式编码的抽象因果结构。如果我们的RL模型正在学习试验之间的共同因果结构的编码，我们将期望性能随着时间的推移而增加。

这些结果表明我们的DDQN代理没有形成人类形式的因果抽象。杠杆的不同配置只是在随意的结构中切换每个杠杆的位置;一旦确定了每个杠杆在因果结构中的位置，一个最优主体可以在三杠杆情况下尝试两次或在四杠杆情况下尝试三次来解决任务。在我们的实验中，DDQN无法形成对这种随意结构进行编码的策略。

5 探讨

为什么CE比CC难?

人类结果表明，在所有情况下，CE条件都需要更多的尝试次数。对这一现象的一种可能的解释依赖于执行第一个行动后环境反馈的模糊性。在CC情况下，只有当第一个动作是正确的(即代理推L0杠杆)，环境才会发生变化。在第一个动作中推L0之后，代理就可以推剩下的任何一个活动杠杆来解锁门。一旦agent收到积极的环境反馈，它就不太可能犯错误。

相反，如果第一个动作在CE情况下是正确的(推L1或L2)，那么推剩下的一个活动杠杆并不能保证打开门(例如，如果在L1之后推L2，门仍然是锁着的)。这将在执行正确的第一个操作后给代理带来额外的模糊性。然而，CE有两个正确的第一动作，而CC只有一个正确的第一动作。虽然这使得第一个行动更容易，但我们推测，从代理的规划角度来看，CC包含的模糊性更少。尽管选择正确的第一个行动比较困难，但来自CC的第一个行动的环境反馈(即L1和L2不动)比CE的第二次行动的环境反馈提供了更多的指导。需要进一步的实验来验证这一假设，并将作为未来的工作进行

为什么这个任务对DDQN来说很难?

这里介绍的OpenLock环境对传统的RL提出了许多挑战。首先，试验杠杆配置的变化需要对配置之间的抽象进行学习;每一个试验都可以被认为是具有相同因果图式的不同游戏。设计DDQN是为了一次学习单一的游戏，而不是在不同的游戏之间传递知识。

第二，环境的状态空间和行为空间是低维的、离散的。这导致了一个离散和稀疏的奖励函数，这使得梯度下降对DDQN来说很困难。与大多数Atari游戏不同的是，在大多数Atari游戏中，玩家通常会通过随机行动(或执行另一个不重要的行动)移动，而OpenLock中的探索性错误则非常常见，并且几乎总是导致无法打开门。

第三，状态变化修正了环境的基本机制;例如，对于CC试验，推L0解锁L1和L2。这与传统的雅达利游戏不同，在传统游戏中，环境的视觉动态直接影响奖励功能。虽然这保持了Qlearning中假定的马尔可夫性质，但它需要对因果图式的潜在状态空间进行推理，而这在大多数Atari游戏中并不存在。

第四，使用最佳政策的人们必须记住他们以前的解决方案;也就是说，一个最优政策是非马尔可夫的。如果人类使用马尔可夫政策，那么他们寻找第二个和/或第三个解决方案的尝试应该与找到的第一个解决方案平均分配。然而，许多参与者在2-3次尝试中找到了所有的答案(在两次尝试中找到两个答案需要在第一次尝试时幸运的猜测)。

RL假设问题是马尔可夫的，因此无法记住已经找到的解决方案。我们通过允许状态空间是半马尔可夫的来放松这个约束;找到的解的数量作为二进制向量附加到状态空间。然而，根据经验，这对完全马尔可夫RL结果的性能没有影响。事实上，使用任何独特解决方案的组合奖励功能导致基本没有学习;当agent找到一个解决方案并再次采取完全相同的动作序列时，他们不会得到任何奖励。这意味着代理在每次试验每个解决方案中只有一个积极的例子，这使得在体验回放和梯度下降过程中很难学习有意义的策略。然而，未来的工作应该包括对明确配备记忆的RL agent的探索，比如循环神经网络(RNN)。这些agent可以更好地处理寻找所有解决方案的长期时间限制。

可以从人类参与者那里了解到什么DDQN参数?

在6次训练试验中，我们拟合了一个指数衰减模型;这种指数衰减被用来控制DQN/DDQN agent的探索与开发。这种回归显示，人类学习的中位数和平均值的衰减率分别为0:548和0:743。

0:548和0:743的Epsilon衰减参数非常低;对于两个设置中较高的0:743，在模拟的16步内，RL agent的勘探速率小于1%。典型的RL epsilon衰减设置在0:99以上，以允许对数千个模拟步骤进行探索。这些人为提取的参数设置对RL agent没有任何有意义的学习。相反，RL agent迅速采用了一种不知情的、无意义的策略，并且没有有效地探索环境。

未来的工作应该包括更彻底地探索如何将RL模型与人类性能数据相匹配。拟合这样一个模型可能会对RL和人类因果学习之间的差异产生额外的见解。额外的工作还应该包括直接将因果模型集成到RL中。在探索过程中，DDQN均匀地在动作空间上取样，而不考虑以往的经验。一个贝叶斯网络可以同时学习到RL模型，并用于选择更优的探索(即在贝叶斯网络中最有助于识别或反驳因果联系的探索)。这将大大改善DDQN的勘探过程。

读后感和机翻《人类因果迁移:深度强化学习的挑战》相关推荐

综述—多智能体系统深度强化学习：挑战、解决方案和应用的回顾
多智能体系统深度强化学习:挑战.解决方案和应用的回顾摘要介绍背景:强化学习前提贝尔曼方程 RL方法深度强化学习:单智能体深度Q网络 DQN变体深度强化学习:多智能体挑战与解决方案 M ...
深度强化学习（DRL）一：入门篇
目录前言一.强化学习(RL)的基本概念二.主要强化学习算法 2.1 Qlearning 2.2 Deep-Qlearning 2.3 Double-DQN 2.4 Sarsa 2.5 Sarsa ...
华为诺亚方舟郝建业：深度强化学习的三大挑战
智源导读:近年来,深度强化学习技术在游戏人工智能领域.推荐系统.搜索系统.网络优化.供应链优化.自动驾驶和芯片设计等领域取得了大量成果. 华为诺亚方舟决策与推理实验室郝建业近期在北京智源大会上发表了题 ...
资源 | UC Berkeley CS 294深度强化学习课程（附视频、学习资料）
来源:机器之心本文共4000字,建议阅读10分钟. 本文主要介绍了课程中的强化学习主题,涉及深度强化学习的基本理论与前沿挑战. CS294 深度强化学习 2017 年秋季课程的所有资源已经放出.该课 ...
深度强化学习资料（视频+PPT+PDF下载）
原文地址:https://blog.csdn.net/Mbx8X9u/article/details/80780459 机器之心整理&出品课程主页:http://rll.berkeley. ...
读后感与机翻《基于理论的因果迁移:结合实例级的归纳和抽象级的结构学习》
研究朱松纯FPICU体系的第 3 篇文章 <Theory-based Causal Transfer: Integrating Instance-level Induction and Abst ...
读后感与机翻《人类因果学习的分解:自下而上的联想学习和自上而下的图式推理》
研究朱松纯FPICU体系的第 2 篇文章 <Decomposing Human Causal Learning: Bottom-up Associative Learning and Top-d ...
DeepMind 综述深度强化学习：智能体和人类相似度竟然如此高！
来源:AI科技评论近年来,深度强化学习(Deep reinforcement learning)方法在人工智能方面取得了瞩目的成就,从 Atari 游戏.到围棋.再到无限制扑克等领域,AI 的表现都 ...
深度强化学习之：PPO训练红白机1942
本篇是深度强化学习动手系列文章,自MyEncyclopedia公众号文章深度强化学习之:DQN训练超级玛丽闯关发布后收到不少关注和反馈,这一期,让我们实现目前主流深度强化学习算法PPO来打另一个红白机 ...

读后感和机翻《人类因果迁移:深度强化学习的挑战》

读后感