论文阅读：Emergence of Locomotion Behaviors in Rich Environments

Writer:
Abstract:
Introduction
Large Scale Reinforcement Learning with Distributed PPO
- Robust Policy Gradients with Proximal Policy Optimization
- Scalable Reinforcement Learning with Distributed PPO
- 2.1 Evaluation of Distributed PPO
- - Benchmark tasks
  - Results
3. Methods: Environments and Models
- 3.1 Training Environments
- - Bodies
  - Rewards
  - Terrain and Obstacles
  - Observation
  - 3.2 Policy Parameterization
4. Results
- Planar Walker
- Quadruped
- Analyses
- Humanoid
5. Related Work
6. Discussion
References

Writer:

Nicolas Heess, Dhruva TB, Srinivasan Sriram, Jay Lemmon, Josh Merel, Greg Wayne,Yuval Tassa, Tom Erez, Ziyu Wang, S. M. Ali Eslami, Martin Riedmiller, David Silver

Abstract:

原理上来说，强化学习范式可以直接从简单的奖励信号中学习到复杂的行为。但是，在实践中，需要精确的奖励函数以及鼓励特定的解决方案或者从先验经验中获得。在本文中，探讨了在复杂环境(Rich Environments)中如何帮助促进复杂行为的学习。具体来说，我们在各种环境中训练智能体，并发现了这种良好的结果表现，这些训练出来的行为在一系列任务重表现良好。我们使用基于正向进步的简单奖励函数，在一组充满挑战的地形和障碍物上进行模拟以及训练。实用全新的策略梯度限制学习的可扩展变体，我们的智能体在没有明确的基于奖励的指导情况下学习奔跑、跳跃、蹲伏和转弯。查看下面的网址，查看对学习行为的亮点的视觉描述。

Introduction

强化学习已经表现出了极大的进步，在Atari游戏、3D导航任务和棋盘游戏中取得了明显的进步。在这些方法中，常见的是。有一个明确定义的奖励函数，例如游戏分数，可以对其进行优化以产生所需的行为。但是，还有许多其他任务，‘正确的’奖励函数并不清晰，而是用幼稚的选择的优化(naively selected one)可能会导致不良的结果，使其无法达到设计师的期望。这种情况在连续的控制任务（例如运动）中尤其普遍，并且已经成为手动定义江流函数的标准实践，或者从先验经验中获得奖励函数。

奖励函数已经在许多运动行为中取得了成就，但是这些示例是脆弱的：如果对奖励函数进行细微的更改，他可能导致不同的结果，并且对于更高级的行为，奖励函数在一开始并不是显而易见的。同样，仔细设计的奖励函数的要求是强化学习的主要挑战：智能体如何直接从有限的奖励信号中学习，以实现丰富而有效的行为。在本文中，我们返回到刚才的挑战中。

我们的前提是，如果环境本身包含足够的丰富性和多样性，那么简单的奖励功能将表现出丰富而强大的行为。首先，在不同难度级别上呈现出一系列挑战的环境可能会塑造学习并引导其找到在更有限的环境中难以发现的解决方案。其次，对奖励函数和其他实验细节的敏感性可能是由于一种过度拟合，找到了恰好在特定设置中起作用的特殊解决方案，但当智能体暴露于更广泛的设置时，它并不稳健。因此，向智能体提出各种挑战会增加不同解决方案之间的性能差距，并可能有利于学习跨环境稳健的解决方案。

我们专注于一组新型的运动任务，这些任务大大超出了以前直接从强化学习训练的智能体的最新技术。它们包括针对具有不同身体(bodies)的代理的各种障碍课程。课程是按程序生成的，因此每一集都呈现不同的任务实例。

我们的环境包括各种难度不同的障碍物（例如陡度、不平度、间隙之间的距离）。难度的变化为智能体提供了一个隐含的课程——随着它的能力增强，它能够克服越来越困难的挑战，从而导致表面上复杂的运动技能的出现，这可能天真地似乎需要仔细的奖励设计或其他指导。我们还表明，可以通过明确地构建地形以逐渐增加难度来提高学习速度，以便智能体首先面对更容易的障碍，只有在掌握了简单的障碍后才会面对更难的障碍。

为了在这些丰富而充满挑战的领域中有效学习，有必要拥有可靠且可刺激的强化学习算法。我们利用了最近几个方法中的一些深入强化学习中的组件。首先，我们以强大的策略梯度算法为基础，例如Trustregion策略优化（TRPO）和近端策略优化（PPO），该将界定到信任区域以确保稳定性。其次，就像广泛使用的A3C算法和相关方法一样，我们在代理和环境的许多平行实例上分发了计算。我们的分布式PPO实现在壁时钟时间方面改善了TRPO，稳健性差异很小，并且在使用相同数量的工人时，我们现有的A3C中连续操作的实施也可以改善。

该论文的进行如下。在第2节中，我们描述了分布式PPO（DPPO）算法，使后续实验并从经验上验证其有效性。然后，在第3节中介绍了主要的实验设置：一组具有挑战性的地形和障碍。在第4节中，我们提供的证据表明，有效的运动行为直接从简单的奖励中出现；此外，我们表明，难度的“课程”的地形鼓励了很大的进步，并且在更多样化的条件下接受培训的代理商可以更加健壮。

Large Scale Reinforcement Learning with Distributed PPO

我们的重点是在具有连续的状态和行动空间的丰富模拟环境中进行强化学习。我们需要在广泛的任务变化中具有鲁棒性的算法，并且能够有效的扩展到具有挑战性的域中。我们将依次解决这些问题。

Robust Policy Gradients with Proximal Policy Optimization

基于大规模、高吞吐量优化方法的深度强化学习算法已经在离散和低维动作空间中产生了最先进的结果，例如关于 Atari 游戏和 3D 导航。相比之下，许多关于连续动作空间的先前工作虽然令人印象深刻，但都集中在相对较小的问题上，并且大规模分布式优化的使用没有那么广泛，相应的算法也没有得到很好的开发。我们提出了一种具有鲁棒性的策略梯度算法，适用于高维连续控制问题，可以使用分布式计算扩展到更大的域。

策略梯度算法为连续控制提供了一个有吸引力的范例。他们通过相对于随机策略 π θ ( a ∣ s ) \pi_\theta(a|s) πθ(a∣s)的参数 θ \theta θ直接最大化奖励的期望总和 J ( θ ) = E ρ θ ( τ ) [ ∑ t γ t − 1 r ( s t , a t ) ] J(\theta)=\mathbb{E}_{\rho_\theta(\tau)}\left[\sum_t \gamma^{t-1} r\left(s_t, a_t\right)\right] J(θ)=Eρθ(τ)[∑tγt−1r(st,at)]来操作。期望是关于由策略 π θ \pi\theta πθ和系统动态 p ( s t + 1 ∣ s t , a t ) p(s_{t + 1}|s_{t},a_{t}) p(st+1∣st,at)联合引起的轨迹： τ = ( s 0 , a 0 , s 1 , … ) \tau=\left(s_0, a_0, s_1, \ldots\right) τ=(s0,a0,s1,…)的分布： p ( s t + 1 ∣ s t , a t ) : ρ θ ( τ ) = p ( s 0 ) π ( a 0 ∣ s 0 ) p ( s 1 ∣ s 0 , a 0 ) … p\left(s_{t+1} \mid s_t, a_t\right): \rho_\theta(\tau)=p\left(s_0\right) \pi\left(a_0 \mid s_0\right) p\left(s_1 \mid s_0, a_0\right) \ldots p(st+1∣st,at):ρθ(τ)=p(s0)π(a0∣s0)p(s1∣s0,a0)……目标相对于θ的梯度由 ∇ θ J = E θ [ ∑ t ∇ θ log ⁡ π θ ( a t ∣ s t ) ( R t − b t ) ] \nabla_\theta J=\mathbb{E}_\theta\left[\sum_t \nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right)\left(R_t-b_t\right)\right] ∇θJ=Eθ[∑t∇θlogπθ(at∣st)(Rt−bt)]给出，其中 R t = ∑ t ′ = t γ t ′ − t r ( s t ′ , a t ′ ) R_t=\sum_{t^{\prime}=t} \gamma^{t^{\prime}-t} r\left(s_{t^{\prime}}, a_{t^{\prime}}\right) Rt=∑t′=tγt′−tr(st′,at′), bt是一个不依赖于未来状态和动作的基线。基线通常被选择为： b t = V θ ( s t ) = E θ [ R t ∣ s t ] b_t=V^\theta\left(s_t\right)=\mathbb{E}_\theta\left[R_t \mid s_t\right] bt=Vθ(st)=Eθ[Rt∣st]。在实践中，预期的未来回报通常用样本推出来近似，并且 V θ V^\theta Vθ被带有参数 V ϕ ( s ) V_\phi(s) Vϕ(s)的学习逼近 ϕ \phi ϕ 代替。

策略梯度估计可能具有高方差，并且算法可能对其超参数的设置敏感。已经提出了几种方法来使策略梯度算法更具鲁棒性。一种有效的措施是采用信任区域约束来限制允许任何更新更改策略的数量。一种利用这一思想的流行算法是信任区域策略优化。在给定当前参数 θ o l d \theta_{o l d} θold的每次迭代中，TRPO收集(相对较大的)一批数据并优化代理损失 J T R P O ( θ ) = E ρ θ old ( τ ) [ ∑ t γ t − 1 π θ ( a t ∣ s t ) π θ old ( a t ∣ s t ) A θ old ( a t , s t ) ] J_{T R P O}(\theta)=\mathbb{E}_{\rho_{\theta_{\text {old }}}(\tau)}\left[\sum_t \gamma^{t-1} \frac{\pi_\theta\left(a_t \mid s_t\right)}{\pi_{\theta_{\text {old }}}\left(a_t \mid s_t\right)} A^{\theta_{\text {old }}}\left(a_t, s_t\right)\right] JTRPO(θ)=Eρθold (τ)[∑tγt−1πθold (at∣st)πθ(at∣st)Aθold (at,st)]受限于策略允许改变多少，用 Kullback-Leibler 散度 (KL) KL [ π θ old ∣ π θ ] < δ \left[\pi_{\theta_{\text {old }}} \mid \pi_\theta\right]<\delta [πθold ∣πθ]<δ表示。 A θ A_\theta Aθ 是作为 A θ ( s t , a t ) = E θ [ R t ∣ s t , a t ] − V θ ( s t ) A^\theta\left(s_t, a_t\right)=\mathbb{E}_\theta\left[R_t \mid s_t, a_t\right]-V^\theta\left(s_t\right) Aθ(st,at)=Eθ[Rt∣st,at]−Vθ(st)给出的优势函数。近端策略优化 (PPO) 算法可以看作是 TRPO 的近似版本，它依赖于仅在一阶梯度上，使其更方便地与循环神经网络 (RNN) 和大规模分布式设置一起使用。信任域约束是通过正则化项实现的。这个正则化项的系数根据之前是否违反了约束来调整。算法框 1 以伪代码显示了核心 PPO 算法。

在算法 1 中，超参数 K L t a r g e t KL_{t a r g e t} KLtarget是每次迭代的策略期望变化。如果策略的实际变化显着低于或显着超过目标 KL（即落在区间 [ β low K L target , β high K L target ] ) \left.\left[\beta_{\text {low }} \mathrm{KL}_{\text {target }}, \beta_{\text {high }} \mathrm{KL}_{\text {target }}\right]\right) [βlow KLtarget ,βhigh KLtarget ])之外），则缩放项 α > 1 \alpha>1 α>1 控制 KL 正则化系数的调整。

Scalable Reinforcement Learning with Distributed PPO

为了在丰富的模拟环境中获得良好的性能，我们实现了 PPO 算法（DPPO）的分布式版本。数据收集和梯度计算分布在工作站(workers)上。我们已经尝试过同步和异步更新，并发现平均梯度并同步应用它们在实践中会产生更好的结果。
原始 PPO 算法使用奖励的完整总和来估计优势。为了便于使用带有批量更新的 RNN，同时还支持可变长度的情节，我们遵循类似于 [2] 的策略，并使用长度为 K 的窗口在时间上截断反向传播。这使得使用变得自然（尽管不是必需的） K 步回报也用于估计优势，即我们将相同 K 步窗口上的奖励相加，并从 K 步后的价值函数引导： A ^ t = ∑ i = 1 K γ i − 1 r t + i + γ K − 1 V ϕ ( s t + K ) − V ϕ ( s t ) \hat{A}_t=\sum_{i=1}^K \gamma^{i-1} r_{t+i}+\gamma^{K-1} V_\phi\left(s_{t+K}\right)-V_\phi\left(s_t\right) A^t=∑i=1Kγi−1rt+i+γK−1Vϕ(st+K)−Vϕ(st)。
John Schulman公开的 PPO 实现对核心算法进行了一些修改。这些包括输入和奖励的规范化以及损失中的一个附加项，该项对严重违反信任区域约束的行为进行惩罚。我们在分布式环境中采用了类似的增强，但发现在工作人员之间共享和同步各种统计数据需要一些小心。我们的分布式 PPO (DPPO) 的实现是在 TensorFlow 中，参数驻留在参数服务器上，工作人员在每个梯度步骤后同步他们的参数。补充材料中提供了伪代码和更多详细信息。

2.1 Evaluation of Distributed PPO

我们将 DPPO 与几种基线算法进行比较。这些实验的目标主要是确定该算法允许在有限参数调整的情况下进行稳健的策略优化，并且该算法可以有效地扩展。因此，我们对与我们的研究兴趣相关的选定数量的基准任务进行比较，并与两种算法替代方案进行比较：TRPO 和连续 A3C。有关比较的详细信息，请参阅补充材料。

Benchmark tasks

我们考虑三个连续控制任务来对算法进行基准测试。所有环境都依赖于 Mujoco 物理引擎。两个任务是无障碍环境中的运动任务，第三个任务是需要记忆的平面目标到达任务。 Planarwalker：具有 9 个自由度 (DoF) 和 6 个扭矩驱动关节的简单双足步行者。它收到与其前进速度成正比的主要奖励，附加条款会惩罚控制以及违反躯干高度和角度的盒子约束。当步行者跌倒时，训练会提前终止。人形机器人：人形机器人有 28 个自由度和 21 个锐角关节。类人机器人也获得主要与其沿 x 轴的速度成正比的奖励，以及每一步的恒定奖励，再加上跌倒时的情节终止，鼓励它不要跌倒。Memoryreacher：随机目标到达任务一个简单的 2 DoF 机械臂限制在飞机上。目标位置是为每集的前 10 步提供的，在此期间不允许手臂移动。当手臂被允许移动时，目标已经消失，必须依靠 RNN 记忆才能使手臂到达正确的目标位置。该任务的奖励是末端执行器和目标位置之间的距离，它测试了 DPPO 优化循环网络策略的能力。

Results

图 1 中描绘的结果表明，DPPO 实现了与 TRPO 相似的性能，并且 DPPO 可以很好地随着使用的工人数量而扩展，这可以显着减少挂钟时间。由于它完全基于梯度，它也可以直接与循环网络一起使用，如下所示内存到达任务。当使用相同数量的工作人员时，DPPO 也比我们的 A3C 实现更快（在挂钟方面）。

3. Methods: Environments and Models

我们的目标是研究复杂的运动能力是否可以从简单的奖励中从各种难度水平的各种挑战中学习。在验证了更简单的基准任务上的我们的可扩展DPPO算法后，我们接下来描述了我们将展示更复杂行为的出现的设置。

3.1 Training Environments

为了使我们的智能体面临各种各样的运动挑战，我们使用了与平台游戏大致相似的物理模拟环境，该环境再次在Mujoco中实现。我们程序不断地产生许多不同的地形，并带有各种障碍。每个场景都产生了地形和障碍的不同实例。

Bodies

我们考虑了三个不同的扭矩控制的身体，大致描述了增长的复杂性。Planarwalker：一个简单的步行者，带有9 自由度和6个驱动关节，并被限制在平面中。Quadruped：一种三维的四足体，具有12个自由度以及8个去东关街。Humanoid：一个三维人形机器人，具有21个驱动关节和28个自由度。在图4、5和7中，可以在作用中看到这些智能体。请注意，Planarwalker 和 Humanoid 身体与上一节中描述的基准测试任务中使用的那些重叠，但是基准任务仅包括在开放平面中的简单运动。

Rewards

我们保持所有任务的奖励简单且跨地形一致。奖励包括与沿 x 轴的速度成比例的主要分量，鼓励智能体沿着轨道向前推进，加上一个小项惩罚扭矩。对于步行者，奖励还包括与第 2 节中相同的姿势框约束。对于四足动物和类人动物，我们惩罚偏离轨道中心的偏差，类人动物在每个时间步都会因不跌倒而获得额外的奖励。详细信息可以在补充材料中找到。我们注意到，不同身体奖励函数的差异是我们调整先前提出的奖励函数的结果，而不是仔细调整的结果，虽然奖励函数在身体之间略有不同，但我们不会改变它们以引发单个身体的不同行为。

Terrain and Obstacles

我们所有的课程都是程序生成的；在每一集中，都会根据预定义的统计数据生成一个新课程。我们考虑了几种不同的地形和障碍物类型： (a) 障碍：步行者需要跳跃或越过的高度和宽度可变的障碍物； (b) 空隙：必须跳过的地面空隙； © 可变地形：具有不同特征的地形，例如坡道、缝隙、丘陵等； (d) 激流回旋墙：形成需要四处走动的障碍物的墙， (e) 平台：悬停在地面上的平台，可以跳上或蹲在下面。课程由用户指定的参数范围内的上述地形类型的一系列随机实例组成。

我们针对不同类型的课程进行培训：单一类型的课程（例如仅间隙、仅障碍等）；单一类型课程的混合（例如，每一集都选择不同的地形类型）；和混合地形（由一种以上地形类型组成的单独课程）。我们考虑障碍物统计在课程长度内有效固定的固定课程，以及地形难度在课程长度内逐渐增加的“课程”课程。图 3 显示了几种不同的课程类型。

Observation

智能体收到两组观察结果[22]：（1）一组以自我为中心的“前感知”特征，包含关节角度和角速度；对于四足机器人和人形机器人，这些功能还包含速度计、加速度计和位于躯干的陀螺仪的读数，提供以自我为中心的速度和加速度信息，以及连接在脚和腿上的接触传感器。人形机器人的下肢关节也有扭矩传感器。 (2) 一组包含任务相关信息的“外部感知”特征，包括相对于轨道中心的位置以及前方地形的轮廓。有关地形的信息以在沿 x 和 y 轴随身体平移的采样点的高度测量值阵列的形式提供，并且其密度随着与身体的距离而减小。 Pla
nar Walker 仅限于 xz 平面（即它不能左右移动），这简化了它的感知特征。有关详细信息，请参阅补充材料。

3.2 Policy Parameterization

与[22]类似，我们旨在在基本的运动技能和地形感知和导航之间分离关注点。我们将政策构成两个子网，其中一项仅本体感受信息，而另一个仅接收外部感受的信息。正如上一段中所述的，带有本体感受的信息，我们所指的信息是独立于任何任务，而在exteroceptive信息的同时，exteroceptive to exteroceptive信息包括前方地形的代表。我们将这种体系结构与简单的完全连接的神经网络进行了比较，发现它大大提高了学习速度。图2显示了示意图。

4. Results

我们将分布式 PPO 算法应用于各种物体、地形和障碍物。我们的目标是确定当智能体在丰富的环境中接受训练时，简单的奖励函数是否可以导致复杂运动技能的出现。我们更感兴趣的是地形结构是否会影响学习成功和结果行为的鲁棒性。

Planar Walker

我们分别在障碍、间隙、平台和可变地形上训练步行者，在包含交错的所有特征的混合路线上，以及在混合地形上（即步行者在不同的情节中被放置在不同的地形上）。它获得了健壮的步态，学会了越过障碍物和缝隙，以及在平台下行走或蹲伏。所有这些行为都是自发出现的，没有特殊的塑造奖励来诱导每个单独的行为。图 4 显示了 Planar Walker 穿越瓦砾场、越过障碍、越过间隙以及蹲伏在平台下的运动序列。可以在补充视频中找到相应行为的示例。这些技能的出现在种子中都很强大。在学习结束时，Planar Walker 跳过了几乎和它自己的身体一样高的障碍。

Quadruped

四足动物的身体通常不如步行者灵活，但它为控制问题增加了第三个维度。我们考虑了三种不同的地形类型：可变地形、回旋壁、间隙以及包含可以避开的障碍物的跨栏地形的变体，以及其他需要攀爬或跳跃的地形。

The Quadruped 也学会了相当可靠地导航大多数障碍物，种子之间只有很小的变化。它发现向上或向前跳跃（在某些情况下以惊人的准确度）是克服障碍和间隙的合适策略，并且它学会了在墙壁上导航，在这两种情况下都可以适当地向左和向右转——尽管只有向前移动才能获得奖励。对于障碍-地形的变化，它学会区分它可以和/或必须越过的障碍，以及它必须四处走动的障碍。多变的地形可能看起来很容易，但实际上却出奇地难，因为四足动物的身体形状不适合（即四足动物的腿与地形的变化相比是矮小的）。然而，它学会了合理稳健地遍历的策略。图5显示了一些代表性的运动序列；更多示例可以在补充视频中找到。

Analyses

我们调查地形的性质是否影响学习。特别是，很容易想象，例如，仅在非常高的障碍上进行训练不会有效。为了在我们的设置中成功训练，步行者需要偶尔偶然“解决”障碍，并且当所有障碍都非常高时，发生这种情况的概率当然是微不足道的。我们通过在两种不同类型的障碍地形上训练 Planar Walker 来验证这一点。第一个具有静态统计，高低障碍随机交错。在第二个地形中，难度由障碍的最小和最大高度给出，随着路线的长度逐渐增加。我们通过在两个测试地形上评估学习过程中的策略来衡量学习进度，一个简单的障碍较浅，一个困难的障碍较高。结果如图所示。 6a 代表Planar Walkerpolicy。在难度逐渐增加的地形上训练的策略比在静止地形上训练的策略改进得更快。

我们进一步研究与平面上前进的通常任务相比，在不同地形上进行训练是否会导致更健壮的步态。为此，我们在平坦的场地以及（更具挑战性的）障碍上训练 Planar Walker 和 Quadruped 策略。然后，我们评估每个实验中的代表性策略对（a）未观察到的表面摩擦变化，（b）未观察到的停车震动带，（c）身体模型的变化，（d）未观察到的地面倾斜/下降的鲁棒性.图 6b 中描绘的结果显示了障碍训练的趋势，增加了对地形中其他形式的未观察到的变化的鲁棒性。

Humanoid

我们的最后一组实验考虑了 28 自由度人形机器人，它比 Planar Walker 和 Quadruped 复杂得多。这组地形在质量上与用于其他物体的地形相似，包括间隙、障碍、可变地形以及回转壁。我们还训练了上述地形的混合体。
至于之前的实验，我们考虑了一个简单的奖励函数，主要与沿 x 轴的速度成正比（见上文）。我们尝试了两种可选的终止条件：（a）当头脚之间的最小距离低于 0.9m 时，剧集终止； (b) 当头部与地面之间的最小距离低于 1.1m 时，训练终止。

一般来说，类人机器人提出了一个相当困难的学习问题，主要是因为它具有相对大量的自由度，它很容易利用任务规范中的冗余和/或陷入局部最优，导致有趣但视觉上不令人满意的步态。学习结果往往对特定算法、探索策略、奖励函数、终止条件和权重初始化敏感。

我们为类人动物获得的结果确实比其他两个实体更加多样化，对于相同的超参数设置，种子之间存在显着差异。一些行为的变化与学习速度和渐近性能的差异有关（表明局部最优）；其他人则不是（建议替代解决策略）。

尽管如此，我们还是为每个地形获得了几个表现良好的代理，无论是在性能方面还是在视觉上令人愉悦的步态方面。图 7 显示了几个经过训练的智能体示例，包括障碍、障碍、障碍墙和可变地形。与之前的实验一样，地形的多样性和固有的课程引导智能体发现健壮的步态、克服障碍、跨越间隙和导航障碍赛的能力。我们在补充视频中强调了针对每个地形的几种解决方案策略，包括视觉吸引力较低的策略。为了测试学习行为的稳健性，我们进一步构建了两个测试课程，其中 (a) 统计数据与训练地形有很大不同，以及 (b) 以跷跷板和随机力形式应用于人形机器人躯干的未观察到的扰动，这也在视频中展示.定性地，我们看到了对这些探测挑战的中等程度的鲁棒性（见补充视频）。

5. Related Work

基于物理的角色动画是一个长期活跃的领域，已经产生了大量的工作并取得了令人印象深刻的成果，赋予模拟角色运动和其他运动技能。例如，[24] 展示了在参数化地形上机动障碍物的复杂技能排序，而 [25,26,27] 展示了地形自适应行为或其他熟练动作如何作为优化问题的结果出现。虽然有非常多样化的方法，但基本上都依赖于对问题领域的重要先验知识，并且许多方法都依赖于运动捕捉数据等演示。

例如，[7,12,6,13] 或引导策略搜索 [10] 已经证明了通过 RL 端到端学习的基本运动行为。 [22] 中考虑了更高级别任务背景下的运动。 [28] 已经证明了具有 RL 的地形自适应运动，但它们仍然在其解决方案中施加了相当大的结构。最近通过学习 3D 人形体的运动控制器取得了令人印象深刻的结果 [29]，但这些依赖于特定领域的结构和人体运动捕捉数据来引导在平坦地形中导航的运动技能。

课程的概念在机器学习文献中由来已久（例如 [30]）。它已被用于学习运动技能，例如 [31]。目前的工作结合并发展了许多这些研究线程中的元素，但在特定方向上取得了独特的进展——使用简单的 RL 奖励和课程培训在具有挑战性的环境中产生自适应运动，同时仅对政策和行为施加有限的结构。

6. Discussion

我们已经调查了在丰富的环境中训练智能体是否以及在多大程度上会导致出现未通过奖励函数直接激励的行为的问题。这与控制中的常见设置不同，在该设置中仔细调整奖励函数以实现具体解决方案。相反，我们故意使用简单和通用的奖励函数，但在广泛的环境条件下训练代理。我们的实验表明，在不同的地形上进行训练确实可以促进非平凡的运动技能的发展，例如跳跃、蹲伏和转弯，而设计合理的奖励并不容易。虽然我们并不声称环境变化就足够了，但我们相信，在更丰富的环境和更广泛的任务范围内训练智能体可能会提高学习行为的质量和鲁棒性，以及它们的易用性。从这个意义上说，选择一个看似更复杂的环境实际上可能会使学习更容易。

References

论文阅读：Emergence of Locomotion Behaviors in Rich Environments相关推荐

【论文阅读】Low-Drift Visual Odometry in Structured Environments by Decoupling Rotational and Translationa
这篇论文中设计的提取曼哈顿坐标系的方法,就是MSC-VO里面使用的方法,这里主要记录一下曼哈顿坐标系的提取方法,而文章设计的里程计部分则忽略不计. 一.曼哈顿世界假设和曼哈顿坐标系曼哈顿世界假设说的 ...
论文阅读|用于不同问题的MADDPG算法框架系列论文汇总
MADDPG论文阅读: 论文阅读|<Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments>(Neu ...
深度学习论文阅读目标检测篇（一）：R-CNN《Rich feature hierarchies for accurate object detection and semantic...》
深度学习论文阅读目标检测篇(一):R-CNN<Rich feature hierarchies for accurate object detection and semantic segmen ...
[论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
论文阅读2018-10-13
论文阅读2018-10-13 Addressing the minimum fleet problem in on-demand urban mobility 原文及翻译 METHODS Addres ...
3D目标检测论文阅读多角度解析
3D目标检测论文阅读多角度解析一．前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...
【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门]（7）
[论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](7) Into the Weeds Other types of grap ...
【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门]（6）
[论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](6) GNN playground Some empirical GNN ...
[论文阅读] (13)英文论文模型设计（Model Design）如何撰写及精句摘抄——以入侵检测系统(IDS)为例
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

论文阅读：Emergence of Locomotion Behaviors in Rich Environments

论文阅读：Emergence of Locomotion Behaviors in Rich Environments

Writer:

Abstract:

Introduction

Large Scale Reinforcement Learning with Distributed PPO

Robust Policy Gradients with Proximal Policy Optimization

Scalable Reinforcement Learning with Distributed PPO

2.1 Evaluation of Distributed PPO

Benchmark tasks

Results

3. Methods: Environments and Models

3.1 Training Environments

Bodies

Rewards

Terrain and Obstacles

Observation

3.2 Policy Parameterization

4. Results

Planar Walker

Quadruped

Analyses

Humanoid

5. Related Work

6. Discussion

References

论文阅读：Emergence of Locomotion Behaviors in Rich Environments相关推荐

最新文章

热门文章