Policy Search in Continuous Action Domains: an Overview

Brief

18年综述，这篇太长了，翻到吐血……
作者是 Oliver Sigaud 法国索邦大学和 Freek Stulp 德国航空航天中心。
本文链接链接

Abstract

Continuous action policy search is currently the focus of intensive research, driven both by the recent success of deep reinforcement learning algorithms and the emergence of competitors based on evolutionary algorithms. In this paper, we present a broad survey of policy search methods, providing a unified perspective on very different approaches, including also Bayesian Optimization and directed exploration methods. The main message of this overview is in the relationship between the families of methods, but we also outline some factors underlying sample efficiency properties of the various approaches.
连续动作策略搜索是目前深入研究的重点，这既是由最近深度强化学习算法的成功所推动的，也是基于进化算法的竞争者的出现。在本文中，我们对策略搜索方法进行了广泛的综述，为非常不同的方法提供了一个统一的视角，其中也包括贝叶斯优化和定向探索方法。这篇综述的主要信息在于方法家族之间的关系，但我们也概述了各种方法的样本效率特性的一些基本因素。

1. introduction

第一段：策略-行动的关系

自主系统是指无需外部干预就能知道在其领域内做什么的系统。一般来说，它们的行为是通过策略来确定的。例如，机器人的策略是通过控制器来确定的，控制器决定机器人在其环境中的任何状态下应采取的行动或向执行器发送的信号。

第二段：

机器人策略通常是人工设计的，但这种人工设计 manual design 只对在结构良好的环境中 well-structured environments 行动的系统和明确规定的任务 well-specified 可行。当这些条件无法满足时，一种更有吸引力的替代方法 more appealing alternative 是让系统通过探索各种行为，并利用那些在某些预定义效用函数 predefined utility function 方面表现良好的行为来找到自己的策略。这种方法被称为策略搜索，是强化学习（RL）的一种特殊情况（Sutton and Barto, 1998），其中动作是来自连续空间的向量。【具体解释】More precisely 更确切的说，策略搜索的目标是优化一个策略，在这个策略中，与行为及其效用相关的函数是黑箱的 black-box，即，没有效用函数的分析模型或梯度 no analytical model or gradient of the utility function is available。【进一步阐释】In practice，在实践中，策略搜索算法用一些策略运行系统，生成的由若干状态和动作步骤组成的 rollouts，并得到效用 utility 作为返回（见图1）。然后，这些 utility 被用来改进策略，这个过程被重复，直到找到一些满意的行为集。一般来说，策略用参数函数表示，策略搜索探索策略的参数空间。为此，策略改进算法讲 rollout 和 utility 数据作为一组样本进行处理。

Figure 1: Visualization of one episode, the information contained in a rollout, and the denition of the episode utility (which is also known as the episode return when the utility is a reward). 图1：一个episode的可视化，一个rollout 包含的信息和 episode utility的定义（当utility是reward时，也称为 episode return）。

第三段：机器人背景下的样本效率。

在机器人技术的背景下，样本效率 sample efficiency 是一个重要的问题，样本效率有三个方面。(1) data efficiency, i.e. extracting more information from available data (de nition taken from (Deisenroth and Rasmussen, 2011)), (2) sample choice, i.e. obtaining data in which more information is available and (3) sample reuse, i.e. improving a policy several times by using the same samples more than once through experience replay.
（1）数据效率，即从现有数据中提取更多的信息；
（2）样本选择，即获得可获得更多信息的数据；
（3）样本复用，即通过经验回放，多次使用相同的样本来改进策略。
本文从这三个方面的角度出发，对策略搜索算法进行了大致的概述。

1.1. Scope and Contributions

机器人领域的综述3个，都是2013年的。
Three surveys about policy search for robotics have been published in recent years (Deisenroth et al., 2013; Stulp and Sigaud, 2013; Kober et al., 2013).
[1] Deisenroth, M. P., Neumann, G., Peters, J., et al., 2013. A survey on policy search for robotics. Foundations and Trends R in Robotics 2 (1-2), 1-142.
[2] Stulp, F., Sigaud, O., august 2013. Robot skill learning: From reinforcement learning to evolution strategies. Paladyn Journal of Behavioral Robotics 4 (1), 49-61.
[3] Kober, J., Bagnell, J. A., Peters, J., 2013. Reinforcement learning in robotics: A survey. The International Journal of Robotics Research 32 (11), 1238-1274.
关于之前的这些调查，我们涵盖了更广泛的政策搜索算法，包括无效用模型的优化、贝叶斯优化（BO）、定向探索方法和深度RL。与这种广度相对应的是，我们没有对相应的算法进行详细的介绍，也没有对其数学推导进行详细的说明。为了弥补细节上的不足，我们向读者推荐（Deisenroth等，2013）对2013年以前大多数算法的数学推导和描述，在描述较新算法时，我们根据需要提供精心挑选的参考文献。
此外，我们关注的是系统学习解决单一任务的情况。也就是说，我们并没有涉及到更广泛的终身、持续或开放式的学习领域，在这种情况下，机器人必须学习如何在潜在的无限范围内执行各种任务（Thrun和Mitchell，1995）。此外，虽然策略搜索方法的一个子集是基于RL的，但我们并没有涵盖最近关于RL与离散动作的工作，如dqn及其后继者（Mnih等，2015；Hessel等，2017）。最后，我们将自己限制在样本是改进政策的唯一信息来源的情况下。也就是说，我们不考虑人类用户可以提供外部指导的交互式情境（Najar等，2016），无论是通过反馈、塑造还是演示feedback, shaping or demonstration（Argall等，2009）。

1.2. Perspective and structure of the survey

本文的主要信息如下。

在优化中，当待优化的效用函数已知且为 convex 凸函数时，可以应用高效的凸方法 convex method 。
如果函数已知但不凸，则可以利用梯度下降法找到局部最优值，按照此时函数导数提供的方向，从当前点向局部最优值迭代移动。
如果函数是黑箱 black-box，则函数及其分析梯度 analytic gradient 都不知道。在策略梯度方法中，策略参数只是通过一组中间观察行为间接与其效用相关。

鉴于策略搜索对应的是这种比较困难（black-box）的情况，我们考虑五种解决方案。

searching for high utility policy parameters without building a utility model (Section 2)
learning a model of the utility function in the space of policy parameters and performing stochastic gradient descent (SGD) using this model (Section 3),
defining an arbitrary outcome space and using directed exploration of this outcome space for finding high utility policy parameters (Section 4),
doing the same as in Solution 2 in the state action space (Section 5),
learning a model of the transition function of the system-environment interaction that predicts the next state given the current state and action, to generate samples without using the system, and then applying one of the above solutions based on the generated samples
1.在不建立效用模型的情况下，寻找高效用的策略参数（第2节）。
2.学习策略参数空间中的效用函数模型，并利用该模型进行随机梯度下降（SGD）（第3节）。
3.定义一个任意的结果空间 outcome space，并利用对这个结果空间的定向探索 directed exploration 来寻找高效用的策略参数（第4节）。
4.在状态行动空间state action space中做与解决方案2相同的工作（第5节）。
5.学习系统与环境相互作用的 transition function 模型，在给定当前状态和动作的情况下，预测下一个状态，在不使用系统的情况下，生成样本，然后根据生成的样本应用上述的一种解决方案。

策略搜索方法领域的一个重要区别是优化方法是 episode-based 还是 step-based。上面的前三个解决方案是 episode-based，第四个是step-based，第五个可以应用于所有其他的解决方案。
2-5章节分别对应方案1-4，方案5是model-based 策略搜索方法，本文不讨论，具体参考（Chatzilygeroudis, K., Rama, R., Kaushik, R., Goepp, D., Vassiliades, V., Mouret, J.-B., 2017. Black-box data-efficient policy search for robotics. arXiv preprint arXiv:1703.07261.）Then, in Section 6, we discuss the different elementary design choices that matter in terms of sample efficiency. 然后，在第6节，我们讨论了在样本效率方面重要的不同的基本设计选择。
下面是这篇的摘要：
The most data-efficient algorithms for reinforcement learning (RL) in robotics are based on uncertain dynamical models: after each episode, they first learn a dynamical model of the robot, then they use an optimization algorithm to find a policy that maximizes the expected return given the model and its uncertainties. It is often believed that this optimization can be tractable only if analytical, gradient-based algorithms are used; however, these algorithms require using specific families of reward functions and policies, which greatly limits the flexibility of the overall approach. In this paper, we introduce a novel model-based RL algorithm, called Black-DROPS (Black-box Data-efficient RObot Policy Search) that: (1) does not impose any constraint on the reward function or the policy (they are treated as black-boxes), (2) is as data-efficient as the state-of-the-art algorithm for data-efficient RL in robotics, and (3) is as fast (or faster) than analytical approaches when several cores are available. The key idea is to replace the gradient-based optimization algorithm with a parallel, black-box algorithm that takes into account the model uncertainties. We demonstrate the performance of our new algorithm on two standard control benchmark problems (in simulation) and a low-cost robotic manipulator (with a real robot).
机器人技术中强化学习(RL)最节省数据的算法是基于不确定的动态模型：在每个episode后，它们首先学习机器人的动态模型，然后使用优化算法找到一个给定模型及其不确定性的预期收益最大化的策略。人们通常认为，只有使用基于梯度的解析算法，这种优化才是可行的；然而，这些算法需要使用特定的奖励函数和策略系列，这大大限制了整体方法的灵活性。
在本文中，我们引入了一种新型的基于模型的RL算法，称为Black-DROPS(Black-box Data-efficient RObot Policy Search)，该算法
(1)不对奖励函数或策略施加任何约束(它们被视为黑盒)，
(2)与机器人学中最先进的数据高效data-efficient RL算法一样高效，
(3)当有多个核cores时，与分析方法一样快(或更快)。
其关键思想是将基于梯度的优化算法替换为考虑到模型不确定性的并行黑盒算法。我们在两个标准控制基准问题(模拟)和一个低成本的机器人操纵器(使用真实的机器人)上展示了我们新算法的性能。

2.Policy search without a utility model

当待优化的函数可用，但没有有利的性质时，标准的优化方法称为 “梯度下降”（Gradient Descent），它包括沿着这个函数的梯度向局部最优迭代。当只有通过从一批样本回归建立的模型才能知道同一函数时，我们也可以做同样的事情，但计算梯度需要对整个批次进行评估，这在计算上可能很昂贵。一种被称为随机梯度下降（SGD）的替代方法通过在每次迭代时抽取一小批样本的子集来规避这一困难（Bottou，2012）。在第 3 节开始介绍这些方法之前，我们先研究一个系列的方法，这些方法在完全不学习效用函数模型的情况下进行政策搜索。它们通过对策略参数空间θ进行采样，并向效用较高的策略参数J(θ)移动。

2.1. Truly random search

在一个极端，最简单的黑盒优化（BBO）方法随机搜索θ，直到偶然发现一个足够好的效用。我们称这种方法为 “真正的随机搜索”，因为在优化界，"随机搜索 "这个名字是用来指无梯度方法的（Rastrigin，1963）。它的显著特征在于它的样本选择策略：前一个θ的效用对下一个θ的选择没有影响。
很明显，这种样本选择策略并不古老，但它完全不需要对要优化的函数进行假设。因此，当这个函数没有显示出任何可以利用的规律性时，它是一种选择。所有其他方法都依赖于隐含的假设，即J(θ)在optima θ*周围呈现出一些平滑性，这是使用梯度的第一步。
所以在全球范围内，这种方法提供了一个概念证明，即代理可以在完全不估计任何梯度的情况下获得更好的效用。最近，其他形式的无梯度方法被称为随机搜索，虽然它们不是真正的随机，但已被证明与深度RL具有竞争力（Mania等，2018）。
接下来的三个系列的方法，基于种群的优化，进化策略和估计分布算法，都是进化方法的变种。图3描述了这些方法的概述。

进化方法的一次迭代。a）基于种群的方法（b）进化策略（c）EDA。蓝色：当前生成和采样域。全蓝色的点：评价良好的样本。带红叉的点：评价较差的样本。绿色：新的一代和采样域，空点还没有评价。红点：最佳猜测。
在基于种群的方法中，下一代是由上一代的几个精英个体的后代。在ES中，它是由固定的高斯噪声的最佳猜测和采样得到的。在EDA中，高斯噪声是通过协方差矩阵适应来调整的。

2.2. Population-based optimization

基于种群的BBO方法管理有限的个体群体，并在前一个精英个体的附近随机产生新的个体。基于种群的优化方法有几个系列，最著名的是遗传算法(GAs)(Goldberg，1989)、遗传编程(GP)(Koza，1992)和更先进的NEAT框架(Stanley和Miikkulainen，2002)。在这些方法中，对应于个体的参数θ通常被称为其基因型，相应的效用被称为其适配度，进一步的阅读请参见（Back，1996）。这些方法已经与神经网络相结合，引起了神经进化（Floreano等人，2008），但是，直到最近，这些方法大多应用于中小规模的策略表示。然而，现代计算资源的可用性使得将其应用于大型和深度神经网络表征成为可能，定义了深度神经进化的新兴领域（Petroski Such等人，2017）。其中，研究表明，在给定足够大的计算资源的情况下，像GAs这样简单的方法可以为第5节中提出的深度RL方法提供一个有竞争力的替代方案，这主要是由于它们出色的并行化能力（Petroski Such等人，2017；Conti等人，2017）。

2.3. Evolutionary strategies

进化策略（Evolutionary Strategies，ES）可以看作是特定的基于种群的优化方法，在这种方法中，从一代到下一代只保留一个个体。更具体地说，从前一个样本中计算出一个最优猜测，然后在当前最优猜测的基础上加入高斯噪声，得到下一个样本。
从一个最优猜测到下一个最优猜测，实现了一种类似于SGD的策略改进形式，但梯度是通过对样本进行平均而不是分析计算来逼近的。因此，这种方法比较灵活，但由于梯度逼近使用了随机探索成分，所以数据效率较低。然而，当样本的采样域重叠时，可以通过在一代和下一代之间重用样本来提高数据效率，这种方法称为重要性混合（Sun等，2009）。最近在(Pourchot等人，2018)中提出了重要性混合的改进版本，显示出对样本效率的影响很大，但不足以在这方面与深度RL方法竞争。关于重要性混合的进一步结果可以在（Pourchot和Sigaud，2018）中找到，这表明有必要进行更多的调查，以更好地了解这种机制在哪些情况下最有用。
SGD给出的梯度方向与ES的相同方向之间的相关性取决于进化算法。有趣的是，即使在相关性不高的情况下，也能获得良好的ES性能，不过这一结果在策略搜索的情况下仍需推敲（Zhang等，2017）。
一个特定的深度神经进化的ES实现，其中在每一代都使用恒定的高斯噪声，被证明可以在标准基准上与深度RL方法竞争。这个简单的实现根据不同的梯度景 landscapes 与基于SGD的方法产生了深刻的比较，表明在哪些条件下ES可以找到比SGD更好的optima（Lehman等，2017）。
最后，nes(Wierstra等人，2008)和xnes(Glasmachers等人，2010)不是逼近效用的 vanilla 梯度，而是逼近其自然梯度natural gradient (Akimoto等人，2010)，但为此他们必须计算 Fisher信息矩阵的逆，这在大维度上是非常昂贵的 which is prohibitively expensive in large dimensions (Grondman等人，2012)。我们向读者推荐（Pierrot等人，2018），以了解自然梯度和其他高级梯度下降概念的详细介绍。

2.4. Estimation of Distribution Algorithms

关于EDA的标准观点是，它们是使用协方差矩阵 Σ \Sigma Σ 的特定ES系列。这个协方差矩阵在 Θ \Theta Θ 上定义了一个多元高斯函数，因此它的大小是 ∣ θ ∣ 2 |\theta|^2 ∣θ∣2。在下一次迭代中的样本以与这个高斯函数成正比的概率被抽取。沿着迭代，由 Σ \Sigma Σ表示的椭圆体被逐步调整到对应于局部最优 θ ∗ \theta^* θ∗的山顶部分。
Σ \Sigma Σ的作用是控制探索。当探索策略 exploration policy 只更新 Σ \Sigma Σ 的对角线时，可以将其定性为不相关 uncorrelated，当其更新全部 full Σ \Sigma Σ 时，可以将其定性为相关 correlated（Deisenroth等，2013）后者在小参数空间中效率较高，但计算要求较高，在较大的空间中可能不准确，因为需要更多的样本。特别是，它不能应用于深层神经进化的背景下，因为 θ \theta θ 的大小数量级在数千到数百万之间。
在（Stulp and Sigaud，2012a，b，2013）中涉及到EDA的各种实例 various instances，如cem、CMAES、 P I 2 − C M A PI^2-CMA PI2−CMA 等。其中，CMA-ES 算法还被证明可以近似于自然梯度（Arnold等，2011）。相比之下， P I B B PI^{BB} PIBB 算法也在(Stulp和Sigaud，2013)中描述，是 P I 2 − C M A PI^2-CMA PI2−CMA 的简化，其中去掉了协方差矩阵适应。因此，它应该被认为是前者ES类的一个实例。

2.5. Finite difference methods

在有限差分法中，效用相对于θ的梯度是以效用函数的泰勒展开的一阶近似来估计的。这种估计是通过对当前输入施加局部扰动来进行的。因此，这些方法是无导数的，我们将其归类为不使用模型，即使它们是基于梯度的局部线性近似。
在有限差分法中，梯度估计可以作为一个标准的回归问题，但沿每个维度的扰动可以单独处理，这导致了一个非常简单的算法（Riedmiller等人，2008）。 Θ \Theta Θ 这种简单性的反面是，它来自于大量的方差，所以在实践中，这些方法被限制在确定性政策上。

2.6. Reference to the main algorithms

2.7. Sample efficiency analysis

在所有的无梯度方法中，对策略参数 θ \theta θ 的向量进行采样，可以得到其效用 utility J ( θ ) J(\theta) J(θ) 的准确信息。然而， J J J 函数可以是随机的，在这种情况下， J ( θ ) J(\theta) J(θ) 的一个值只包含该 θ \theta θ 值的部分信息。无论如何，样本重用可以通过存储已经采样的对 < θ ， J ( θ ) > <\theta，J(\theta)> <θ，J(θ)>的存档 storing an archive 来实现。每次算法需要样本的效用J(θ)时，如果这个效用在存档中已经有了，就可以用它来代替再次采样。在确定性的情况下，使用存储的值就足够了。在随机情况下，档案库 archive 可以提供一个关于值 J ( θ ) J(\theta) J(θ) 的分布，算法可以从这个分布中抽取一个值，或者根据精度要求再次抽样。

Message 1：
没有效用模型的策略搜索一般比随机梯度下降（SGD）的数据效率低。尽管从技术上讲，在没有效用模型的情况下，样本重用是可能的，但在实践中很少使用。尽管与SGD相比，这些方法的样本效率较低，但其中一些方法具有高度的可并行性 highly parallelizable，只要有足够的计算资源 enough computational resources，就可以为深度RL提供可行的替代方法 viable alternative。

3. Policy search with a model of utility in the space of policy parameters 在策略参数空间中用效用模型进行策略搜索

如引言所述，策略参数向量的效用 utility 只有通过观察相应的行为才能获得。虽然没有给出将策略参数与效用联系起来的模型，但人们可以通过收集由（策略参数、效用）对组成的样本，并利用回归推断出相应的函数模型，从这些观测值中近似地得到 Θ \Theta Θ 中的效用函数（如见（Stulp和Sigaud，2015））。这种模型既可以是确定性的，给每个策略参数向量一个效用，也可以是随机性的，给效用值一个分布。
一旦学习了这样一个模型，就可以对这个模型进行梯度下降。这些步骤可以按顺序进行（先学习模型，然后进行梯度下降），也可以按递增的 invrementally 方式进行（在每一个新的效用观测之后改进模型并进行梯度下降）。在后一种情况下，模型必然是持久性的 persistent：在给定新信息的情况下，模型从一个迭代到另一个迭代都在演化，与顺序性的情况不同，它可能是短暂的 transient，在每次迭代时都要从头开始重新计算 that is recomputed from scratch at each iteration。

3.1. Bayesian Optimization

虽然上述方法似乎很吸引人 seems appealing，但我们并不知道有任何算法在确定性的情况下deterministic case 执行上述内容。一个很好的原因是，效用函数在 Θ \Theta Θ 中一般是随机的。因此，学习一个模型 J ( θ ) J(\theta) J(θ) 的算法必须学习这种模型的分布。这正是贝叶斯优化（BO）所做的工作。模型上的分布是通过贝叶斯推理 Bayesian inference 更新的。它是用一个先验 prior 初始化的，每一个新的样本，都被认为是一些新的证据 evidence，有助于调整模型的分布，使其趋向于真实值的峰值，同时跟踪模型的方差 whilst keeping track of the variance over models。通过估计模型分布的不确定性，BO方法被赋予 endowed with active learnign capablitities 了主动学习能力，极大地提高了其样本效率，但代价是较差的可扩展性 dramatically improving their sample efficiency at the cost of a worse scalability。

BO算法带有一个协方差函数 covariance function，它决定了新样本提供的信息如何影响这个样本周围的模型分布。它还带有一个获取函数 acquisition function，用于给定当前模型分布选择下一个样本。一个好的获取函数应该考虑到模型在采样空间的价值和不确定性。A good acquisition function should take into account the value and the uncertainty of the model over the sampled space.
通过快速降低不确定性 uncertainty，BO实现了一种主动学习的形式 implements a form of active learning。因此 As a sonsequence，因此，当参数空间足够小的时候，它的采样效率非常高，它搜索的是全局最优，而不是局部最优。然而，考虑到必须对 acquisition function 进行全局优化，它在参数空间大小上的伸缩性很差it scales poorly in the size of the parameter space.。更多细节，请参见（Brochu等人，2010）。
ROCK*算法是BO的一个实例 instance，它搜索局部最优值而不是全局最优值（Hwangbo等人，2014）。它使用 CMA-ES 来寻找模型函数上的最优值。通过这样做，它执行的是自然而非 vanilla 梯度优化，但它并没有使用效用函数的可用模型，尽管这可以提高样本效率。
贝叶斯优化算法 Bayesian optimization 一般使用高斯核 Gaussian kernels 来有效表示模型上的分布。然而，一些作者已经开始注意到，在策略搜索的specic context 背景下，BO并没有使用 agent 的基本步骤 elementary steps 中的所有信息。这导致了基于两个策略产生的rollout 密度 density 之间的Kullbak-Leibler divergence 散度，研究更合适的数据驱动的内核（Wilson等人，2014）。
在策略搜索的背景下使用BO是一个新兴的领域 emerging domain（Lizotte等，2007；Calandra等，2014；Metzen等，2015；Martinez-Cantin等，2017）。Furthermore 此外，最近将BO与强化学习方法相结合的尝试，giving rise to 产生了贝叶斯优化强化学习（BORL）框架，在第5节中进行了描述。

3.2. Reference to the main algorithms

3.3. Sample efficiency analysis

在 Θ \Theta Θ 中学习效用函数的模型应该比在没有模型的情况下尝试优化更有样本效率 more sample efficient ，因为相对于模型的梯度可以用来加速参数改进 accelerate parameter improvement。然而，对于大多数情况下，学习确定性模型是不够的，因为真实的效用函数 true utility function 一般是随机的 Θ \Theta Θ，学习随机模型会带来额外的计算成本，从而影响方法的可扩展性 scalability。

Message 2：
贝叶斯优化是BBO管理政策参数空间中模型的分布。它的样本效率得益于主动选择样本。但由于它执行的是全局搜索，因此不能很好地扩展到大的策略参数空间。因此，它很难应用于深度神经网络表示。
Bayesian Optimization is BBO managing a distribution over models in the policy parameter space. Its sample efficiency benets from active choice of samples. But as it performs global search, it does not scale well to large policy parameter spaces. Thus, it is dicult to apply to deep neural network representations.

4. Directed exploration methods

Directed exploration 定向探索方法在具有稀疏奖励 sparse rewards 的任务中特别有用，即搜索空间的大部分具有相同的效用信号where large parts of the search space have the same utility signal.。这些方法有两个主要特点。

首先，它们不是直接在策略参数空间 Θ \Theta Θ 中搜索，而是在一个较小的结果空间 O O O（也称为描述符空间或行为空间 also called descriptor space or behavioral space）中搜索，并学习 Θ \Theta Θ 和 O O O 之间的可逆映射 invertible mapping；
其次，它们都优化了一个与任务无关的准则they all optimize a task-independent criterion，称为新颖性 novelty 或多样性 diversity，用于有效地覆盖结果空间。

结果本身对应于观察行为的属性。一般的直觉是 general intuition，如果结果空间被已知的策略参数恰当地覆盖，如果效用可以很容易地与结果相关联，那么应该很容易找到具有高效用的策略参数，即使对大多数策略参数而言，效用函数为空 the utility function is null。图4直观地说明了为什么在专门的结果空间 dedicated outcome space 中进行新解的搜索，并学习从 Θ \Theta Θ 到 O O O 的映射，一般来说比直接在 Θ \Theta Θ 中进行这种搜索更有效（Baranes等，2014）。

Figure 4：
策略参数空间Θ和结果空间O之间的标准映射，大多数情况下，许多策略参数会导致相同的结果（例如，在机器人手臂必须移动一个球的情况下，如果策略否认手臂运动，而结果空间被定义为球的位置，大多数策略参数将导致一个静态的球）。在这种情况下，直接在 Θ \Theta Θ 中取样效果很差：你必须以这样的方式取样，才能有效地覆盖 O O O 。

所以，为了使该方法有效，结果空间必须以这样一种方式被否定，即确定一个结果所对应的效用是直接的。一般来说，结果空间是由外部用户来定义的，以满足这一要求。尽管如此，使用表示学习方法让agent 自主 autonomously 定义自己的结果空间是一个新兴的感兴趣的话题 is an emerging topic of interest（Pere等，2018；Laversanne-Finot等，2018）。
定向探索方法可分为新颖性搜索 novelty search（NS）（Lehman和Stanley，2011）、质量多样性 quality-diversity（QD）（Pugh等，2015）和目标探索过程 goal exploration processes（GEPs）（Baranes和Oudeyer，2010；Forestier和Oudeyer，2016；Forestier等，2017）。前两者来源于进化方法，而 GEPs 来源于发展学习和内在动机文献。whereas geps come from the developmental learning and intrinsic motivation literature.
它们之间的一个重要区别是，NS和 GEPs 只是为了优化多样性，因此它们根本不使用效用函数，而QD方法则依靠多目标优化方法同时优化多样性和效用 diversity and utility。
NS方法的产生是因为认识到将效用优化作为单一目标并不是唯一的选择The NS approach arose from the realization that optimizing utility as a single objective is not the only option（Doncieux和Mouret，2014）。In particular 特别是，在稀疏或欺骗性奖励问题的情况下 in the case of sparse or deceptive reward problems，人们发现，寻求新颖性或多样性是获得高效用解的有效策略，即使不明确优化这个效用也是如此（Lehman和Stanley，2011）。
GEP 方法更多的是受内在动机 intrinsic motivations的思想启发，其目标是让 agent 在没有外部效用信号的情况下实现自己的目标（Forestier等，2017）。然而，进化方法的研究者也意识到多样性和效用可以联合优化（Cuccu和Gomez，2011），从而产生了更先进的NS和QD算法（Pugh等人，2015；Cully和Demiris，2017）。
所有这些方法都有很多相似之处。它们都是从随机搜索阶段开始的，当它们评估一个策略参数向量 Θ \Theta Θ 导致结果空间 O O O 中的一个点 o o o 时，它们将相应的 < θ ， o > <\theta，o > <θ，o> 对存储在一个档案archive 中。因为它们利用这个档案 archive 来改进策略，所以它们都实现了一种懒惰学习 lazy learning的形式，使它们具有有趣的样本效率特性endowing them with interesting sample efficiency properties （Aha，1997）。档案 archive 本身可以被看作是与 Θ \Theta Θ 与 O O O 相关的函数的随机模型，这在MAP-Elites算法中表现得尤为明显（Cully等人，2015）。
更详细地说，这些方法之间的主要区别在于它们覆盖结果空间 O O O 的方式。NS和QD方法对档案 archive 中存在的精英 elite θ \theta θ 向量进行不定向的变化 undirected variations。More precisely 更准确地说，在NS中，the resulting solution 结果的解只是被添加到档案 archive 中，而在QD中，如果新的解在多样性 diversity 和效用 utility 方面都优于以前的解，那么新的解就会取代以前的解。By contrast 相比之下，GEPS 选择一个期望的结果desired outcome o ∗ o^* o∗，并修改档案 archive 中导致最接近结果的 θ \theta θ 的副本。期望结果 o ∗ o^* o∗ 的选择可以随机进行，也可以使用课程学习或学习进度概念进行using curriculum learning or learning progress concepts（Baranes和Oudeyer，2013；Forestier等人，2017）。同样， θ \theta θ 的改进也可以使用不定向高斯噪声 undirected Gaussian noise 或更高级的方式进行。例如，一些 GEP 方法建立了从 Θ \Theta Θ 到 O O O 的映射的局部线性模型，以有效地对其进行反转 to efficiently invert is，从而找到对应于所需结果 o ∗ o^* o∗ 的 θ ∗ \theta^* θ∗（Baranes和Oudeyer，2013）。
因此，定向探索方法都能学习到 Θ \Theta Θ 和 O O O 之间的随机和可逆映射 stochastic and invetible mapping。BO方法。在这种情况下，结果空间是Θ和效用之间的一个中间空间：首先将策略参数投射到结果空间中，然后可以学习这个结果空间中的效用函数模型。
在 O O O 中学习 utility 与在状态动作空间 X × U X\times U X×U中学习批判有一些相似之处，如第5节中提出的。从这个角度来看，这些方法可以被看作是在进化、BO和强化学习方法之间提供了一个中间家族。然而，我们很快就会看到，在状态动作空间 X × U X\times U X×U中学习 critic 得益于与时差学习相关的附加属性 benefits from additional properties related to temporal difference learning，which limits the use of the above unifying perspective 这限制了上述统一观点的使用。

4.1. Reference to the main algorithms

4.2. Sample efficiency analysis

所有定向探索方法的决定性特征是其广泛覆盖结果空间的能力The defi ning characteristic of all directed exploration methods is their capability to widely cover the outcome space.。这提供了高效的探索，反过来，当与第2节中提到的更标准的进化方法（Conti等人，2017）或第5节中提到的深度RL方法（Colas等人，2018）结合时，这又极大地 critically 提高了样本效率。
尽管我们的文章主要关注单任务学习 single-task learning，但值得一提的是，在多任务学习场景中 multi-task learning scenarios，直接探索方法可能会非常提高样本效率。这是因为这类方法的目标是覆盖（interesting）结果空间，因此在面对多个任务，从而可能是多个结果时，可以更容易适应。and can thus more easily adapt when facing multiple tasks, and thus potentially multiple outcomes.

Message 3：
只在用户定义的结果空间中寻找多样性是执行探索的有效方法，并且可以帮助解决稀疏或欺骗性奖励问题sparse or deceptive reward problems，而更多的标准探索会失败。因此，定向探索方法是本调查中涉及的其他方法的有益补充Directed exploration methods are thus useful complements to other methods covered in this survey.。

5. Policy search with a critic

前面两节介绍了从策略参数空间 Θ \Theta Θ 学习映射到效用 utilities 或结果 outcomes 的方法。现在我们介绍学习状态动作空间 state-action space X × U X \times U X×U中的效用模型的方法。
RL形式化 formalization 中的一个重要组成部分，效用 U ( x , u ) U(x, u) U(x,u) 对应于当 agent 处于状态 x x x，然后遵循当前策略 π θ \pi_\theta πθ 或最优策略 π ∗ \pi^* π∗时，执行动作 u u u 可能期望的回报。这个量还可能取决于一个折扣因子 γ \gamma γ 和一个噪声参数 β \beta β。
真实效用 U ( x , u ) U(x, u) U(x,u) 可以用参数 η \eta η 的模型 u ^ ( x , u ) \hat u(x,u) u^(x,u) 来逼近。这样的模型称为 a critic。一个关键的特征是，critic 可以从对应于 agent 的单步 single steps 推出 rollouts 的样本中学习，可以用时间差分法，也可以用蒙特卡洛法 temporal dierencing or Monte Carlo。用 u ^ η \hat u_\eta u^η 来逼近 U U U，并通过递减相对于 u ^ η \hat u_\eta u^η 的梯度来确定策略参数 θ \theta θ 的方法称为 a c t o r − c r i t i c actor-critic actor−critic 法，策略 π θ \pi_\theta πθ 就是行为者 actor（Peters和Schaal，2008b；Deisenroth等，2013）。
这种 a c t o r − c r i t i c actor-critic actor−critic 方法可适用于随机和确定性政策（Silver等人，2014年）。确定性政策的空间比随机策略的空间小，后者可能是有利的，因为搜索前者比搜索后者快。然而，当马尔科夫属性不成立时（Williams和Singh，1998；Sigaud和Buet，2010）或在对抗性情境下 in adversarial contexts，随机策略可能更合适（Wang等，2016b）。

5.1. Exploration in parameter or state-action space

如第3节所述，学习空间 Θ \Theta Θ 中的效用模型是一个回归问题 regression problem，即直接在 Θ \Theta Θ 中进行采样和探索。In contrast 相反， X × U X\times U X×U不能直接取样，因为人们事先并不知道哪些策略参数会导致访问哪些状态和执行哪些行动as one does not know in advance which policy parameters will result in visiting which states and performing which action。因此，探索的方式有两种，一是向（策略参数扰动）添加噪声，二是向策略输出的动作（动作扰动）添加噪声。在后一种情况下，探索一般是不定向的，在策略采取的行动中加入高斯噪声 Gaussian noise 或相关的Ornstein-Ulhenbeck噪声。策略参数扰动是在 PEPG、PoWER和 P I 2 PI^2 PI2 中进行的，最近又对 DDPG 进行了扰动（Fortunato等，2017；Plappert等，2017），而本文介绍的其他算法中的动作扰动。
所有的actor-critic 算法都会经过以下三个步骤进行迭代。
A：从当前策略中收集新的步骤样本，并进行策略参数扰动或动作扰动探索。
B：根据这些样本计算新的critic u ^ η \hat u_\eta u^η，通过时差法 temporal difference method 确定 η \eta η。
C：通过梯度下降对critic 更新策略参数 θ \theta θ。
这里应该区分是

critic 在步骤C之后被丢弃 discarded ，因此必须在下一次迭代的步骤B中从头开始学习，还是
critic 在整个学习过程中是持久的 persistent，并在步骤B中逐步更新 incrementally updated。
我们在接下来的两节中更详细地讨论这两种 variants之间的差异–我们分别将其称为瞬时批判 transient critic和持久批判 persistent critic 。

5.2. Transient Critic Algorithms

在具有瞬时transient critic 的方法中，蒙特卡洛采样Monte Carlo sampling–运行大量的事件集episodes并对随机回报进行平均–被用来评估当前的策略并生成一组新的步骤样本。然后，确定给定这些样本的最优critic 参数可以投向一个batch 回归问题Then, determining the optimal critic parameters given these samples can be cast as a batch regression problem。
在这些方法中，必须区分三个家族 families：似然比方法likelihood ratio methods，如 REINFORCE（Williams，1992）和 PEPG（Sehnke 等人，2010），自然梯度方法 *natural gradient，*如 NAC 和 eNAC（Peters 和 Schaal，2008a），以及基于 EM 的方法，如 PoWER和 REPS 的变体（Peters 等人，2010）。所有相应的算法在（Deisenroth等人，2013年）中都有详细描述
虽然它们来自不同的数学框架 mathematical framework，但似然比方法和基于EM的方法是相似的：它们都是通过蒙特卡洛采样来使用无偏估计梯度 unbiased estimation，它们都是通过数学设计methematically designed，使最有价值的 rollouts 获得最高的概率。
TRPO (Schulman等，2015)算法也是遵循迭代的方法，并且可以使用深度神经网络表示，因此可以将其归为深度RL方法。其中，它采用了对连续迭代时策略之间的Kullback-Leibler divergence KL散度的约束，以保证探索的安全和高效 safe and efficient exploration。最后，Guided Policy Search（GPS）算法（Levine和Koltun，2013；Montgomery和Levine，2016）是另一种从REINFORCE中得到启发的瞬时批判 transient critic 深度RL方法，但增加了从简单策略中获得的指导性推出 but adding guiding rollouts obtained from simpler policies。

5.3. Persistent Critic Algorithms

与瞬时批判算法相比，持久性批判算法在训练过程中逐步更新批判 In contrast with transient critic algorithms, persistent critic algorithms incrementally update the critic during training.。大多数这样的算法都使用了actor-critic architecture 架构，除了NAF（Gu等人，2016b）这个明显的例外，它没有明确的actor 表示which does not have an explicit representation of the actor 。据我们所知，在下文描述的深度RL算法出现之前，四个iNAC 算法是这个家族的唯一代表（Bhatnagar等人，2007）。
递增计算批判的方式可以命名为时间差分法（TD），也叫引导法（Sutton，1988）The way to compute the critic incrementally can be named a temporal difference (TD) method, also named a bootstrap method。他们在每一步都计算出 critic 当前值所预测的即时奖励与 agent 实际得到的奖励之间的时间差分或奖励预测误差 reward prediction error（RPE）。这个RPE可以作为批评者在迭代过程中应该最小化的损失This RPE can then be used as a loss that the critic should minimize over iterations（Sutton和Barto，1998）。

5.4. Key properties of Persistent Critic Algorithms

大多数使深度 actor-critic 算法成为可能的机制最早是在 DQN 中引入的（Mnih等，2015）。虽然 DQN 是一种离散动作 discrete action 算法，不在本调查范围内，但在列出连续作用深度RL方法家族中的主要算法之前，我们简要回顾一下它的重要概念和机制。

5.4.1. Accuracy and scalability: deep neural networks

通过使用深度神经网络作为逼近函数，并利用现代计算机集群的大计算能力获利，所有的深度RL算法都能解决比以前大得多的问题，并能以前所未有的精度逼近梯度，这使得它们比以前的NAC和PoWER的线性架构更加稳定，因此有利于增量更新一个持续的persistent critic，而不是重新计算一个瞬态的 transient 批评者。

5.4.2. Stability: the target critic

深度RL方法引入了目标 target critic，作为提高稳定性 stability 的方法。标准回归是将样本拟合到一个模型上，从而逼近一个未知的 stationary function 固定函数的过程（Stulp和Sigaud，2015）。通过时间差分方法估计 critic 类似于回归，但目标函数不是静止的 stationary：它本身就是估计critic的函数，因此每次修改 critic 时都会修改它。当目标函数和估计的批判者相互竞赛时，这可能导致批判者的分歧（Baird，1994）This can result in divergence of the critic when the target function and the estimated critic are racing after each other。为了缓解这种不稳定性To mitigate this instability,，应该在多次更新中保持目标函数的静止 stationary，并定期将其重置为对应于当前批判估计的新函数，从一个回归问题切换到另一个问题reset it periodically to a new function corresponding to the current critic estimate, switching from a regression problem to another。这个想法最早是在 DQN 中引入的（Mnih等人，2015），然后从定期更新修改为平滑 DDPG 的变化then modi ed from periodic updates to smooth variations in DDPG（Lillicrap等人，2015）。

5.4.3. Sample reuse: the replay buffer

由于它们是基于值传播的 value propagation，TD方法比标准回归方法可以引起更多的样本重用give rise to more sample reuse than standard regression methods，但前提是这些样本要保存到重放缓冲区replay buffer。使用重放缓冲器replay buffer是深层RL中出现的现代actor-critic 方法的核心。事实上 Actually，按照样本收集的顺序来学习是不利于学习性能和稳定性的，因为这些样本不是独立同分布的（i.i.d.）not independent and identically distributed。通过从重放缓冲区随机抽取样本来提高稳定性，通过更好地选择样本，使用优先体验重放 prioritized experience replay，可以进一步提高样本效率（Schaul等，2015）。

5.4.4. Adaptive step sizes and return lengths

现在大多数机器学习库提供的现代SGD方法都加入了自适应的步长大小，消除了以前的 actor-critic 算法（如eNAC）的一个缺陷。最近一些方法成功的另一个重要因素 ingredient 是使用n步返回 n-step return，它包括在几个时间步上执行时间差更新，从而有可能控制偏置-变异权衡 bias-variance trade-off (（见6.3.1节）。

5.5. Overview of deep RL algorithms

所有这些有利的特性都是几个增量深度RL算法的共同特征：DDPG（Lillicrap等，2015）、NAF（Gu等，2016b）、PPO（Schulman等，2017）、ACKTR（Wu等，2017）、SAC（Haarnoja等，2018）、TD3（Fujimoto等。2018）和D4PG（Barth-maron等人，2018）。如图2所示，最后一个D4PG 是贝叶斯优化强化学习(BORL)算法的一个实例，它源于BO，但属于第5节中描述的基于步骤 step-based category 的方法类别。这些算法源于将贝叶斯计算纳入深度RL框架的努力，对应的是该领域非常活跃的趋势。这些作品大多解决离散动作（Azizzadenesheli等，2018；Tang和Kucukelbir，2017），但D4PG是一个例外，它源于采用分布视角进行策略梯度计算，从而对梯度进行更准确的估计，并提高样本效率（Bellemare等，2017）。
最后，一些算法，如 ACER(Wang等，2016b)、Q-prop(Gu等，2016a)和 PGQL (O’Donoghue等，2016)结合了瞬时和持久批判方法的特性combine properties of transient and persistent critic methods，并被捕捉到了更一般的插值策略梯度Interpolated Policy Gradient (IPG) 框架中(Gu等，2017)。关于所有这些算法的更详细的描述，我们请读者参考相应的论文和最近的调查（Arulkumaran等，2017）。

5.6. Reference to the main algorithms

5.7. Sample efficiency analysis

Message 4:
Being step-based, deep RL methods are able to use more
information from rollouts than episode-based methods. Furthermore,
using a replay buffer leads to further sample reuse.

信息4：由于是 step-based 的，深度RL方法比 episode-based 的方法能够使用更多的 rollouts 信息。此外，使用重放缓冲区 replay buffer 可以进一步重用样本。

6. Discussion

在前面的章节中，我们介绍了以下方法：
（1）不建立 utility 模型；
（2）学习 utility 新型：
（2a）在策略参数空间 Θ \Theta Θ 中，
（2b）在任意结果空间 O O O 中，
（2c）在状态-动作空间 X × U X\times U X×U中。
在本节中，我们将回到这些不同方法的样本效率特性。我们通过从图2中所示的设计选择树下降来实现这一点。

6.1. Building a model or not

我们已经概述了 outlined 建立效用函数模型的策略搜索方法通常比不建立效用模型的方法更具有样本效率。然而，后者对SGD的依赖会使其对局部最优值的鲁棒性降低(Lehman等，2017)，最近已经证明，不建立效用模型的方法由于其较高的并行化能力和对各种梯度景观的区分特性，在最终性能方面仍然具有竞争力(Salimans等，2017；Petroski Such等，2017；Zhang等，2017)。it has been shown recently that methods which do not build a model of utility are still competitive in terms of nal performance, due to their higher parallelization capability and distinguishing properties with respect to various gradient landscapes。

6.2. Building a utility function model in the policy parameter space versus the state-action space.

有几个要素有利于在状态-动作空间 X × U X\times U X×U 中学习一个 critic 的更高样本效率，首先，与学习 Θ \Theta Θ 中的效用函数模型相比，它可以引起更多的样本重用 give rise to more sample reuse。其次，与从全局事件 global episodes 中学习相比，分别从每个步骤中学习可以更好地利用 rollout 的信息。
此外， X × U X\times U X×U 可能自然地表现出一种层次结构–尤其是状态–这对于 Θ \Theta Θ 来说并不那么明显。因此 As a consequence，在 X × U X\times U X×U 中对效用 utility 进行建模的方法可能会从学习层次结构中不同层次的中间表征中受益，从而降低策略搜索问题的维度。学习这种中间和更紧凑的表征是层次强化学习的重点 Learning such intermediate and more compact representations is the focus of hierarchical reinforcement learning，这个领域也受到了深度RL的出现的影响（Kulkarni等，2016；Bacon等，2017）。层次强化学习也可以离线 off-line 进行，这与DREAM项目的观点相对应，例如在（Zimmer和Doncieux，2017）中进行了说明。
最后，样本效率的一个重要因素是 X × U X\times U X×U 相对于 Θ \Theta Θ 的大小和结构 size and structure。在这两方面 in both respects，使用大型神经网络作为策略表示的深度RL方法的出现改变了人们的观点perspective。首先，在深度RL中， Θ \Theta Θ 的大小可以变得比 X × U X\times U X×U 的大小更大，这说明有利于学习批评 which speaks in favor of learning a critic。其次，深度神经网络似乎一般会诱导 induce Θ \Theta Θ 和 X × U X\times U X×U之间的平滑结构 smooth structure，这有利于学习 which facilitates learning。最后，在更大的空间中建模的效用函数可能会受到更少的局部最小值的影响，因为还有更多的方向可以改进梯度（Kawaguchi，2016）。Finally, a utility function modeled in a larger space may suffer from fewer local minima, as more directions remain for improving the gradient.
通过考虑探索，上述结论可能会得到缓解 mitigated。事实上indeed，在一些关于机器人的策略搜索的调查中，策略参数扰动方法被认为优于 superior 动作扰动方法（Stulp和Sigaud，2013；Deisenroth等人，2013）。这种分析有几个数学论据支持 backed-up with several mathematical arguments，但当空间 Θ \Theta Θ 小于空间 X × U X\times U X×U 时，它可能主要是真实的。直到最近 until recently，所有的深度RL方法都是使用动作扰动 action perturbation。但最近发表了使用策略参数扰动 policy parameter perturbation 的深度RL算法，再次表明可以在 X × U X\times U X×U 中模拟效用函数 model the utility function，while performing exploration in 同时在 Θ \Theta Θ 中进行探索（Fortunato等，2017；Plappert等，2017）。探索是目前深度RL中最热门 hottest 的话题之一，第4节中提出的定向探索方法可能会在这个故事中发挥关键作用，尽管其策略改进机制的数据效率较低（Conti等人，2017；Colas等人，2018）
信息5：在 X × U X\times U X×U 中学习utility model 的论据比在 Θ \Theta Θ 中学习 utility 的论据更多 more arguments ，但这最终取决于这些空间的大小和它们的关系结构。

6.3. Transient versus persistent critic

乍一看At first glance，拥有一个持久的批判者似乎比拥有一个短暂的批判者要好having a persistent critic may seem superior to having a transient one, for three reasons.，原因有三。
首先，通过避免在每次迭代时再次计算批判 critic，它的计算效率更高。First, by avoiding to compute the critic again at each iteration, it is computationally more efficient.
第二，即时更新有利于提高数据效率，因为政策会尽快得到改进，这反过来又有助于生成更好的样本。 Second, immediate updates favor data efficiency because the policy is improved as soon as possible, which in turn helps generating better samples.
第三，由于是基于bootstrap方法，所以会引起更多的样本重用。 Third, being based on bootstrap methods, they give rise to more sample reuse.
然而，这些说法必须加以区分，因为必须考虑到两个因素（如下所述）。

6.3.1. Trading bias against variance

在 X × U X\times U X×U 中估计一个策略的效用 utility，需要进行偏差-变量折衷bias-variance compromise（Kearns和Singh，2000）。一方面，通过蒙特卡洛抽样 Monte Carlo sampling 来估计一个给定政策的效用 utility–通常在瞬时批判 transient critic 方法中这样做–受制于一个随事件长度增长的方差is subject to a variance which grows with the length of the episodes。另一方面，增量 incrementally 更新一个持久性批判 persistent critic 可以减少方差 variance，但可能会受到偏差bias的影响，导致潜在的次优，甚至是分歧 divergence。On the other hand, incrementally updating a persistent critic reduces variance, but may suffer from bias, resulting in potential sub-optimality, or even divergence。与其在一个步骤中执行引导更新批判 bootstrap updates of a critic ，不如在N个步骤中进行更新。N越大，越接近蒙特卡洛估计，因此，调整N是控制偏差-变量折衷的一种方式 Instead of performing bootstrap updates of a critic over one step, one can do so over N steps. The larger N, the closer to Monte Carlo estimation, thus tuning N is a way of controlling the bias-variance compromise.。例如 For instance，瞬时批判器transient critic TRPO 算法的样本效率比行为批判器方法actor-critic methods低，但更稳定，往往会带来更优的性能 superior performance（Duan等，2016），而它的直接后继者 its immediate successor PPO uses N steps return 则使用N步返回，从而在这两个家族之间取得了很好的折衷resulting in a good compromise between both families（Schulman等，2017）。

6.3.2. Off-policy versus on-policy updates

在 on-policy 方法（如Sarsa）中，用于学习critic 的样本必须来自当前策略current policy，而在off-policy 方法（如q-learning）中，样本可以来自任何策略。在大多数瞬时批判 transient critic 方法中，样本在一次迭代到下一次迭代时都会被丢弃 the samples are discarded from one iteration to the next，这些方法一般都是 on-policy 的。相比之下，使用重放缓冲区replay buffer 的持久性批判 persistent critic方法通常是off-policy 的。
这种on-policy与off-policy 区别与偏倚-变量折衷 bias-variance compromise 有关。事实上，当增量学习一个持久性批判 persistent critic 时，使用off-policy 更新更灵活，因为样本可以来自任何策略，但这些off-policy 更新会在批判的估计中引入偏差 bias。因此，DDPG 和 NAF 等off-policy 方法由于使用了重放缓冲区 replay buffer，所以样本效率更高，但它们也更容易出现次优化和分歧but they are also more prone to sub-optimality and divergence。在这方面，ACER 和Q-prop的一个关键贡献是它们提供了一种off-policy、样本高效的更新方法，有力地控制了偏差，从而使其更加稳定（Gu等，2016a；Wang等，2016b；Wu等，2017；Gu等，2017）。这些方面目前都是深入研究 intensive research 的课题，但所得到的算法受制于比较复杂，需要额外的元参数。These aspects are currently the subject of intensive research but the resulting algorithms suffer from being more complex, with additional metaparameters。

7. Conclusion

在本文中，我们对策略搜索的各种方法进行了对比，从不学习效用函数模型的进化方法 evolutionary 到在状态-动作空间中学习的深度RL方法。
在(Stulp and Sigaud，2013)中，作者已经表明，应用于机器人 robotics 的策略搜索正在从行为者批判方法 actor-critic 转向shifting from 进化方法。这种转变一部分是由于使用开环 open-loop DMPs(Ijspeert等，2013)作为策略表示 as a policy representation，有利于基于偶发事件的方法which favors episode based approaches，但另一部分是由于当时进化方法的稳定性和效率较高。but another part resulted from the higher stability and efficiency of evolutionary methods by that time.
深度RL方法的出现改变了这一观点 perspective。从这次调查中应该可以清楚地看到，在深度神经网络表征已经成为标准选项的大型问题中in the context of large problems where deep neural network representations are now the standard option，深度RL一般比深度神经进化方法的样本效率更高，这在（de Froissard de Broissia和Sigaud，2016）和（Pourchot等人，2018）中得到了实证。深度RL方法，特别是具有持久批评者 persistent critic 的演员批评者架构 actor-critic architectures 的更高样本效率是由几种机制造成的。它们受益于 benefit from 非线性批判者更好的逼近能力better approximation capability of non-linear critics以及在SGD中加入适应的步长大小 an adapeted step size，它们在状态-动作空间中对效用函数进行建模，并且通过使用重放缓冲器reply buffer 受益于大规模的样本重用 massive sample reuse。使用目标网络 target network 也减轻了 mitigated 增量近似批判的内在不稳定性intrinsic instability of incrementally approximating a critic.。然而，必须承认，增量式深度RL方法仍然存在显著的不稳定性。However, it is important to acknowledge that incremental deep RL methods still suffer from significant instability ^8.
As outlined at 8.

7.1. Future directions

目前，策略搜索领域是提高性能、稳定性和样本效率的激烈竞赛对象。我们现在概述一下我们目前认为有希望的研究方向。

7.1.1. More analyses than competitions

到目前为止，文献中的主要趋势集中在性能比较上（Duan等，2016；Islam等，2017；Henderson等，2017；Petroski Such等，2017），表明尽管其样本效率较低，但不建立效用模型的方法在纳尔性能方面仍是一种有竞争力的选择（Salimans等，2017；Chrabaszcz等，2018）。但是稳定性和样本效率的比较是缺失的，分析一个算法比另一个算法表现更好的原因的作品才刚刚出现（Lehman等人，2017；Zhang等人，2017；Gangwani和Peng，2017）。本文通过对整个领域的概述，并揭示样本效率背后的一些重要因素，旨在作为一个起点，走向更广泛、更深入地分析各种策略搜索方法的功效。

7.1.2. More combinations than competitions

一个重要的趋势对应于结合上述各个家族算法的方法的出现。正如在第4节中已经指出的那样，定向探索方法经常与进化或深度RL方法相结合（Conti等人，2017；Colas等人，2018）。还有一种新兴的趋势是将进化或基于种群的方法和深度RL方法结合起来（Jaderberg等人，2017；Khadka和Tumer，2018；Pourchot和Sigaud，2018），这似乎能够取两者之长。我们相信，我们只是处于这种组合的开端，这个领域有很大的潜力。
An important trend corresponds to the emergence of methods which combine algorithms from various families described above. As already noted in Section 4, directed exploration methods are often combined with evolutionary or deep RL methods (Conti et al., 2017; Colas et al., 2018). There is also an emerging trend combining evolutionary or population-based methods and deep RL methods (Jaderberg et al., 2017; Khadka and Tumer, 2018; Pourchot and Sigaud, 2018) which seem to be able to take the best of both worlds. We believe we are just at the beginning of such combinations and that this area has a lot of potential.

7.1.3. Beyond single policy improvement

尽管我们决定将终身学习、持续学习和开放式学习 lifelong, continual and open-ended learning 保留在本次调查的范围之外，但我们必须提到，政策改进的快速进展有利于同时解决几个任务的重要趋势（Yang和Hospedales，2014）。这个子领域目前非常活跃，在多任务学习（Vezhnevets等，2017;Veeriah等，2018;Gangwani和Peng，2018）、层次强化学习（Levy等，2018;Nachum等，2018）和元强化学习（Wang等，2016a）方面有很多作品，仅举几例。
最后，由于我们专注于这些基本方面 elementary aspects，我们抛开了left aside the emerging topic of state representation learning 状态表示学习（Jonschkowski和Brock，2014；Raffin等人，2016；Lesort等人，2018）或使用辅助任务using auxiliary tasks 改进深度RL的新兴话题（Shelhamer等人，2016；Jaderberg等人，2016；Riedmiller等人，2018）。这些方法的影响应该在未来更加明确。

7.2. Final word

正如我们在文章中所强调的那样，策略搜索和深度RL的研究发展速度非常快。因此，像我们上面所做的那样，预测未来的趋势是有风险的，甚至试图分析当前趋势背后的因素也可能很快就会过时，但这也是使这一研究领域如此令人兴奋的原因。

【文献阅读】PS 综述 in Continuous Action Domains: an Overview相关推荐

【文献阅读】综述：集成式工艺规划与车间调度（IPPS）问题研究现状及发展
作者:文笑雨高亮期刊:重庆大学学报核心时间:2021.02 (注:文中的数字代表引用的文献序号) 1.IPPS的3种主要建模方法(依据信息交互方式不同) 非线性方法交互简单,应用广泛.建立混合 ...
【知识图谱】本周文献阅读笔记（3）——周二 2023.1.10：英文）知识图谱补全研究综述 + 网络安全知识图谱研究综述 + 知识图谱嵌入模型中的损失函数 + 图神经网络应用于知识图谱推理的研究综述
声明:仅学习使用~ 对于各文献,目前仅是泛读形式,摘出我认为重要的点,并非按照原目录进行简单罗列! 另:鉴于阅读paper数目稍多,对paper内提到的多数模型暂未细致思考分析.目的是总结整理关于KG ...
【知识图谱】本周文献阅读笔记（4）——周三 2023.1.11：英文）基于动态知识图谱的虚假评论检测 + 基于知识图谱的推荐系统研究综述 + 基于知识图谱的推荐算法研究综述+新一代知识图谱关键技术
声明:仅学习使用~ 对于各文献,目前仅是泛读形式,摘出我认为重要的点,并非按照原目录进行简单罗列! 另:鉴于阅读paper数目稍多,对paper内提到的多数模型暂未细致思考分析.目的是总结整理关于KG ...
研究生如何进行文献检索和文献阅读
阅读文献一定不要心浮气躁,要沉下心来大量阅读.在读的过程中有的文献看懂了,但是看不懂的文献也可能会居多.看懂的认真学习借鉴,看不懂的深入探索,实在不行就暂时放下,过一段时间,随着知识和能力的提高慢慢也 ...
科研入门——文献阅读
目录 (一)文献管理 1.文献选择 2.文献分类 3.其他资料搜集 (二)文献阅读 1.每个版块的阅读 2.带着问题去阅读 3.学会做笔记 (三)科研态度 1.扎实 2.思考参考资料研究生该如何进 ...
货运服务网络设计：经典文献阅读笔记（3）复现Netplan
**货运服务网络设计:经典文献阅读笔记(2)**提到说要把Crainic T G(1984年)文献使用的模型复现一下,但是文章给出的通用框架还是太笼统,在尝试后决定使用Jacques Roy & ...
四位科研牛人介绍的文献阅读经验
每天保持读至少2-3 篇的文献的习惯.读文献有不同的读法,但最重要的自己总结概括这篇文献到底说了什么,否则就是白读,读的时候好像什么都明白,一合上就什么都不知道,这是读文献的大忌,既浪费时间,最 ...
那些文献阅读能力爆表的科研学子，都在偷偷做这件事……
对于广大科研学子来说,阅读文献这件事可谓是贯穿整个学术生涯,因为文献是了解现在所学专业的领域切入点,且做科研遇到难题时还可以在文献中寻找答案. 以及科研实验完毕后,若是准备发表论文,那么还得再看看文献 ...
存用部首查字典如何查_文献阅读技巧：牛人博士如何看文献!
这是社科学术圈推送的第1658篇文章发表学术论文,阅读文献是最基本的.今天我们总结了几个牛人博士的文献阅读经验,希望能让你有所思考和感悟.(一)从phd到现在工作半年,发了12篇paper, 7 ...

【文献阅读】PS 综述 in Continuous Action Domains: an Overview