Meta-Q-Learning

如有错误，欢迎指正
- 摘要
- Introduction
- background
- - Meta-Reinforcement Learning (Meta-RL）
  - Logistic regression for estimating the propensity score
- MQL
- - Meta-training
  - - Designing context
  - Adaptation to a new task
- 实验
- - 设置
  - 结果
  - 消融实验
  - 相关工作
- 讨论
感想

如有错误，欢迎指正

本文翻译为机翻，仅作初步了解学习使用，需要用到的时候再回来整理。
原文链接: https://arxiv.org/pdf/1910.00125v1.pdf.
如有侵权，请私信本人。
参考链接：https://zhuanlan.zhihu.com/p/109064006.

摘要

介绍了元强化学习（Meta-Q-Learning，MQL）的一种新的off-policy算法Meta-RL。MQL建立在三个简单的思想之上。首先，我们证明了Q学习与最先进的meta-RL算法相比是有竞争力的，如果给定一个上下文变量来表示过去的轨迹。第二，使用多任务目标使训练任务的平均报酬最大化是元训练RL策略的有效方法。第三，元训练回放缓冲区中的过去数据可以被重用，以便使用off-policy更新来调整新任务的策略。MQL利用倾向估计的思想来这样做，从而放大了可用于适应的数据量。在标准连续控制基准测试上的实验表明，MQL与最先进的meta-RL算法相比有优势。

Introduction

强化学习（RL）算法在模拟数据上表现出良好的性能。然而，要将这种性能转化为真实的机器人，有两个主要的挑战：（i）机器人是复杂和脆弱的，无法进行广泛的数据收集；（ii）一个真实的机器人可能面临一个不同于它所训练的模拟环境的环境。这推动了元强化学习（meta-reinforcement Learning，meta-RL）的研究，meta-RL开发了在大量不同环境（如模拟环境）上进行“元训练”的算法，旨在适应数据较少的新环境。

今天meta-RL的工作情况如何？图1显示了两个典型的meta-RL算法在四个标准连续控制基准上的性能。我们将它们与以下简单基线进行了比较：一个非策略RL算法（由Fujimoto等人提出的TD3）。（2018b）），并对其进行了训练，以使所有训练任务的平均回报最大化，并修改为使用表示轨迹的“上下文变量”。图中的所有算法都使用相同的评估协议。令人惊讶的是，这种基于非元学习的简单方法与最先进的meta-RL算法相比具有竞争力。这是我们论文的第一个贡献：我们证明，没有必要对策略进行元训练，以便在现有基准上做得更好。

我们的第二个贡献是一个名为meta-Q-Learning（MQL）的非策略meta-RL算法，它建立在上述结果的基础上。MQL使用了一个简单的元训练过程：它使用off-policy更新来最大化所有元训练任务的平均回报。

式中，l’k（θ）是对任务Dk（θ）获得的序列τ进行客观评估，例如，单步时间差（TD）误差将设置为l`k（θ）=TD2（θ；τ）。这个目标，我们称之为多任务目标，是最简单的元训练形式。

为了使策略适应新任务，MQL示例从元训练重播缓冲区获得序列，该缓冲区与新任务中的相似。这会放大可用于适应的数据量，但由于潜在偏差较大，很难做到。我们使用倾向性估计文献中的技术来执行此适应，MQL的off-policy更新对执行此操作至关重要。MQL的自适应阶段解决

其中，Dmeta是元训练回放缓冲区，倾向性得分β（τ；Dnew，Dmeta）是序列τ属于Dnew或Dmeta的几率，ESS是Dnew和Dmeta之间的有效样本大小，它是新任务与元训练任务类似的度量。第一个部分计算新任务的策略更新，第二个部分对旧数据执行β（·）加权的策略更新，而第三个部分是自动调整的近端部分，防止在适应期间策略的退化。我们在第4.2节中进行了广泛的实验，包括使用标准metarl基准进行烧蚀研究，这些基准证明，即使MQL策略比现有算法的时间步长更少，也能获得更高的新任务平均回报。

background

这一节介绍了表示法并形式化了meta-RL问题。在第2.2节中，我们讨论了估计两个概率分布之间重要性比的技术。考虑马尔可夫决策过程表示为

其中xt∈X⊂rd是状态，ut∈U⊂rp是动作。用k∈{1，，，n}参数化fk，其中每个k对应一个不同的任务。分布pk0表示初始状态分布，ξt表示动力学中的噪声。在给定确定性策略uθ（xt）的情况下，无限时间范围内γ-折扣未来报酬r k t：=r k（xt，uθ（xt））的作用下值函数为

请注意，我们假设不同的任务具有相同的状态和动作空间，并且可能只在它们的动态fk和奖励函数rk上有所不同。给定一个任务k∈{1，，，n}，标准强化学习（RL）形式化求解

让我们表示与任务k和策略uθ（x）相关的所有状态、动作和奖励的数据集

我们通常将Dk称为“任务”。用于求解上上式的确定性策略梯度（DPG）算法（Silver等人，2014年）通过最小化Bellman误差和通过解决耦合优化问题使该近似最大化的最优策略uθ，学习了对最优值函数q k的一个ɕ参数化近似

单步时间差分误差（TD误差）定义为

式中，我们保持TD（·）对ψ隐式的依赖性。DPG或其基于深层网络的变体DDPG（Lillicrap et al.，2015）是一种非策略算法。这意味着上上式的期望值是使用被优化的策略（uθ）不需要生成的数据来计算的，该数据可以来自其他策略。

在后半部分中，我们将重点讨论参数θ参数化策略。值函数的参数ɕ总是被更新以最小化TD误差，并且为了清楚起见省略了这些参数。

Meta-Reinforcement Learning (Meta-RL）

元学习是一种学习归纳偏差的技术，它通过大量的训练任务来加速新任务的学习。形式上，元训练集Dmeta={Dk} k=1，…，n中的任务元训练包括学习策略

其中l‘k meta（θ）是元训练损失，取决于特定的方法。基于梯度的metaRL，让我们来看看Finn等人的MAML作为一个具体的例子，设置

对于步长α>0，l’k（θ）是非元RL（5）的目标。在本例中**，l`k meta是在任务Dk上对该任务的策略进行一次（或通常是多次）更新后获得的目标。这背后的想法是，即使策略θbmeta不能在Dmeta中的所有任务上执行良好，它也可以在新任务Dnew上快速更新，以获得性能良好的策略**。这可以使用与元训练时间相同的过程来实现，即通过以策略θbmeta作为初始化来最大化新的meta（θ），或者通过其他一些适应过程来实现。元学习中的元训练方法和适应方法，以及一般的元学习方法，是相互有区别的。

Logistic regression for estimating the propensity score

考虑标准的监督学习：给定两个分布q（x）（比如train）和p（x）（比如test），我们想估计模型的预测yˆ（x）在它们之间的变化。这是使用重要性抽样完成的

其中y | x是数据的真实标签，模型的预测值是yˆ（x），l（y，yˆ（x））是每个数据（x，y）的损失。重要性比β（x）=dp/dq（x），也称为倾向得分，是两种数据密度的Radon-Nikodym导数（Resnick，2013），用于测量样本x来自分布p与分布q的几率。实际上，我们不知道密度q（x）和p（x），因此需要使用有限的来自q的数据Xq={x1，，xm}和取自p的数据Xp={x1。，x0 m}。As Agarwal等人的工作显示，使用logistic回归很容易做到这一点。将zk=1设置为Xq中数据的标签，将zk=-1设置为Xp中k≤m的数据标签，并通过求解在组合的2m样本上形成一个logistic分类器

可以得出：

归一化有效样本量（ESS）：与β（x）相关的量是归一化有效样本量（ess），我们将其定义为从目标分布p（x）获得性能（比如方差）等于重要性抽样估计量（10）的估计器所需的样本数。在不知道密度q（x）和p（x）的情况下，不可能计算出ESS，但是有许多启发式方法可以用来估计它。一个流行观点是蒙特卡洛方法：

其中X={x1，xm}是一些有限的数据。观察到，如果两个分布q和p接近，则ESS 接近1；如果它们相距很远，则ESS 接近于零。

MQL

本节介绍MQL算法。我们首先描述MQL的元训练过程，包括在第3.1节中对多任务训练的讨论。第3.2节描述了自适应程序。

Meta-training

MQL使用多任务目标执行元训练。请注意，如果

参数θ hat meta使元训练集中所有任务的平均收益最大化。我们使用名为TD3（Fujimoto et al.，2018b）的非策略算法作为构建块，并解决

TD（·）在前面（7）定义了。正如TD3中的标准，我们使用两个由ψ1和ψ2参数化的动作值函数，并取其最小值来计算标值。这种被称为“双Q学习”的技巧减少了高估偏差。让我们强调（14）是（8）中概述的程序的一个特例。下面的注释解释了MQL为什么使用多任务目标而不是元训练目标，例如，在现有的基于梯度的meta-RL算法中。
备注1。让我们比较m-step多智能体机器学习目标（9）与使用（14）的多任务目标的临界点。正如Nichol等人所做的那样，我们可以对参数θ进行泰勒级数展开，得到

注意，所有临界点{θ：∇lk（θ）=0}也有∇’k meta（θ）=0。此外，请注意∇lk meta在（16）中也是损失的梯度

一阶以下。这提供了一个新的解释，即MAML被吸引到不适合单个任务的区域：||∇lk||2较大的参数将远离lk（θ）的局部极大值。参数α和m在拟合下控制这一点。梯度步数越大，欠拟合效果越大。这说明基于梯度的元学习的适应速度是以不适应任务为代价的。

Designing context

正如第1节和第4.4节所讨论的，meta-rl中任务的身份可以看作是底层部分可观测MDP的隐藏变量。状态、动作和奖励的整个轨迹上的最优策略。因此，我们设计一个递归上下文变量Zt，它依赖于{（xi，ui，ri）} i<＝t。我们将zt设置为门控递归单元的时间t的隐藏状态模型。MQL中的所有策略uθ（x）和值函数qψ（x，u）都以上下文为条件，并实现为uθ（x，z）和qψ（x，u，z）。任何其他递归模型都可以用来设计上下文；我们使用GRU是因为它在丰富的表示和计算复杂性之间提供了很好的折衷。

备注2（MQL使用的是非置换不变的确定性上下文）。在设计上下文时，我们的目标是简单。MQL中的上下文是使用GRU之类的现成模型构建的，并且不是置换不变的。事实上，时间的方向为agent提供了有关任务动态的关键信息，例如，一头向前与向后奔跑的Half-Cheetah可以说具有相同的状态轨迹，但顺序不同。此外，MQL中的上下文是轨迹的确定函数。这两个方面都不同于Rakelly等人使用的上下文，他们设计了一个推理网络，并以移动窗口为条件对概率背景进行了抽样。RL算法相当复杂，并且很难重现。当前基于它们的meta-RL技术进一步加剧了这种复杂性。我们证明一个简单的上下文变量就足够了，这是一个重要的贡献。

Adaptation to a new task

接下来我们讨论了将元训练策略θ hat meta应用于数据较少的新任务Dnew的自适应过程。MQL将（2）中介绍的适应目标优化为两个步骤。1常规异策调整：第一步是使用新数据更新策略

二次惩罚||θ−θhat meta||2使参数接近θhat meta。在这一步中，异策学习非常关键，因为它具有样本效率。我们在求解（18）时初始化θ到θhat meta。

2重要度比修正异策更新：MQL的第二步利用元训练重播缓冲区。元训练任务Dmeta与Dnew不相交，但由于它们预期来自相同的任务分布，因此可以利用元训练期间收集的转换来调整策略。这在两个方面很难做到。首先，元训练轨迹不是来自Dnew。第二，即使是从同一个任务进行的轨迹，由于探索误差，更新策略也是非常重要的（Fujimoto等人，2018a）：值函数在它以前从未见过的状态上有很高的误差。我们使用倾向分数来重新衡量轨迹是Fujimoto等人使用的条件生成模型的一个简单版本，在上下文中。MQL将逻辑分类器应用于从元训练回放缓冲区收集的一小批轨迹以及从步骤1中的新任务收集的轨迹。上下文变量zt是这个分类器的特性。logistic分类器估计重要度比β（τ；Dnew，Dmeta），并可用于从元训练重放缓冲区重新加权数据，以获取更新

我们再次加入了一个二次惩罚||θ−θhat meta||2，它使新参数接近θhat meta。估计重要性比涉及到在几个样本上解决一个凸优化问题（通常，200个来自新任务，200-400个来自元训练任务）。这个分类器允许MQL利用过去的大量数据。实际上，我们使用（19）比（18）多执行100倍的权重更新。
备注3（取系数λ）。跟随Fakoor等人，我们选择

对于这两个步骤（18-19）。如果新任务与元训练任务相似（ess较大），则会减轻二次惩罚，反之亦然。当λ可以调整为一个超参数时，我们的实验结果表明，使用ESS来调整它是一种简单而有效的启发式方法。

备注4（估计重要性比的细节）。如果我们要在元训练回放缓冲区中重新加权不同于logistic拟合的轨迹，那么确保用于估计β的logistic分类器能够很好地泛化是至关重要的。我们有两种方法：（i）在（11）中选择的正则化系数相对较大，这样我们更喜欢假阴性而不是风险误报；（ii）具有非常高β的轨迹对于更新（19）很有价值，但是在基于随机梯度下降的更新中会导致很大的方差，我们在（19）中进行更新之前剪辑β。剪切常数是一个超参数，在第4节中给出。

MQL要求在自适应期间访问元训练回放缓冲区。这并不是一个令人沮丧的要求，如果机器agent受到可用硬盘空间的限制，有许多集群技术可以从重播缓冲区中选择重要的轨迹。对于第4节中的实验，元训练回放缓冲区最多为3gb。

实验

本节介绍MQL的实验结果。我们首先讨论设置并在第4.1节中提供基准的详细信息。接下来是第4.2节的经验结果和烧蚀实验。

设置

任务和算法：我们使用MuJoCo（Todorov et al.，2012）模拟器和OpenAI Gym（Brockman et al.，2016）进行连续控制meta RL基准任务。这些任务有不同的奖励，随机系统参数（Walker-2D-Params），并已在以前的论文（如Finn等人）中使用过。我们比较了标准基线算法，即MAML（TRPO（Schulman et al.，2015）variant）（Finn et al.，2017）、RL2（Duan et al.，2016）、ProMP（Rothfuss et al.，2018）和PEARL（Rakelly et al.，2019）。我们从Rakelly等人发表的代码中得到了这三种算法的训练曲线和超参数。

我们将比较上述算法：（i）vanilla TD3（Fujimoto等人，2018a）在新任务上没有任何自适应，（ii）TD3上下文：TD3与基于GRU的上下文，没有任何自适应，以及（iii）MQL:TD3，上下文和新任务的适配，使用第3.2节中的过程。这三种变体都使用元训练的多任务目标（15）。本文采用Adam（Kingma&Ba，2014）对所有损失函数进行优化。

评估：目前的meta-RL基准缺乏系统的评估程序。对于每种环境，Rakelly等人构建了一组固定的元训练任务（Dmeta）和一组与元训练集不相交的任务Dnew。为了与已发表的经验结果进行直接比较，我们严格遵循了Rakelly等人的评估准则创建这些任务。我们还使用与这些作者完全相同的评估协议，例如，新任务的200个时间步数据，或评估回合的数量。我们报告了验证任务的未折现回报率与统计计算的5个随机种子。

结果

我们的第一个结果，如图2所示，在没有任何适应性的情况下，带上下文的常规非策略学习与最先进的meta-RL算法相比具有竞争力。我们使用TD3的标准实现，并使用多任务目标（15）对元训练任务进行训练。附录A中提供了这些任务的超参数。这一结果令人惊讶，并且在当前的文献中没有被注意到。能够访问上下文的策略可以很容易地推广到验证任务，并获得与更复杂的meta-rl算法相当的性能。

接下来，我们将根据所有环境中现有的meta-rl基准评估MQL。结果如图3所示。我们看到，对于除了Walker-2D-Params和Ant-Goal-2D之外的所有环境，MQL在验证任务上获得了可比的或更好的回报。在大多数情况下，特别是对于具有挑战性的类人Direc-2D环境，MQL比现有算法收敛更快。MAML和ProMP需要大约1亿个时间步才能收敛到比MQL和PEARL这样的非策略算法的回报率差得多的结果。将图2中Ant-Goal-2D环境的TD3上下文的训练曲线与图3中相同环境的训练曲线进行比较：前者显示随着元训练的进行，性能显著下降；图3中没有这种下降，可以归因于MQL的适应阶段。

消融实验

我们进行了一系列的烧蚀研究来分析MQL算法的不同组成部分。为此，我们使用了两个环境，即半猎豹后退和蚂蚁前进后退。图4a示出（18）和（19）中的MQL中的自适应提高了性能。还可以看到，与不执行任何自适应的TD3上下文相比，MQL在返回中的标准偏差更小；这可以看作是一个自适应阶段，以弥补元训练策略在困难任务上的性能损失。接下来，我们评估MQL中重播缓冲区中附加数据的重要性。图4b比较了（19）中有和没有更新的MQL的性能。我们看到，旧的数据，即使它来自不同的任务，也有助于提高性能（18）。图4c显示了与λ=0.5的固定值相比，设置λ=1-ESS 的有效性。我们看到用ESS 调节二次惩罚有帮助，第4.3节的影响较小。λ的理想值取决于给定的任务，使用1-ESS d可以帮助调整以适应不同的任务，而无需对每个任务进行超参数搜索。λ（z）和β最终在图5显示了训练过程中的演化。在很大一部分时间内，系数λ约为0.55，β（z）为0.8。后者表明倾向分数估计在元训练回放缓冲区的抽样与验证任务相似的轨迹中是成功的。在训练过程中，λ值保持相对不变。该值表示旧数据中与新任务相似的轨迹部分；由于antfwd Back中有两个不同的任务，因此值λ=0.55是合适的。

讨论

本文提出的算法，即MQL，基于三个简单的思想。首先，带上下文的Q-learning足以在当前的meta-rl基准测试中具有竞争力。第二，最大化训练任务的平均报酬是一种有效的元学习技术。MQL的元训练阶段比现有的算法要简单得多，但是它达到了与现有技术相当的性能。这表明我们需要在诸如深层网络这样的丰富函数近似器的背景下重新思考元学习。第三，如果一个人要适应数据很少的新任务，就必须利用所有可用的途径。MQL使用倾向估计技术从元训练回放缓冲区回收数据。这些数据基本上是免费的，并且被其他算法完全忽略。这一思想有可能应用于RL以外的少样本和零样本图像分类问题。

最后，本文揭示了meta-rl中基准测试环境的本质。事实上，即使是没有元训练和任何调整的普通Q学习也与最先进的算法竞争，这表明（i）当前meta-RL基准中的训练和验证任务彼此非常相似，即使它们之间没有重叠，（ii）当前基准可能不足以评估meta-RL算法。这两者都表明需要投入资源为metarl创建更好的基准问题，从而推动新算法的创新。

感想

本来想学习元强化学习，结果发现了这篇文章，证明了元强化没有想象中那么强大。我认为这个方向是很好的，现在的强化学习太依赖于对环境的处理，基本没有泛化能力。以后应该会有一些工作将强化泛化到更广泛的应用中去吧。

Meta-Q-Learning相关推荐

Q学习（Q learning）强化学习
Q学习(Q learning) 强化学习的简单例子 Matlab实现可视化_Morty 的挖坑记录-CSDN博客强化学习(MATLAB) - 叮叮当当sunny - 博客园
RL之Q Learning：利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(复杂迷宫)的宝藏位置
RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(复杂迷宫)的宝藏位置目录输出结果设计思路实现代码测试记录全过程输出结果设计思路实现代码 f ...
RL之Q Learning：利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(简单迷宫)的宝藏位置
RL之Q Learning:利用强化学习之Q Learning实现走迷宫-训练智能体走到迷宫(简单迷宫)的宝藏位置目录输出结果设计思路实现代码测试记录全过程输出结果设计思路实现代码 f ...
Q learning
今天继续写RL的exercise2,发现Q learning一直不收敛.本来就是个很简单的算法,改了好久都不知道fault在哪里,一开始以为是超参数调的不好,结果调了好久的参数都不行.后来发现自己犯了 ...
[强化学习实战]出租车调度-Q learning SARSA
出租车调度-Q learning & SARSA 案例分析实验环境使用同策时序差分学习调度异策时序差分调度资格迹学习调度结论代码链接案例分析本节考虑Gym库里出租车调度问题(T ...
强化学习（二）：Q learning 算法
强化学习(一):基础知识强化学习(二):Q learning算法 Q learning 算法是一种value-based的强化学习算法,Q是quality的缩写,Q函数 Q(state,action ...
[PARL强化学习]Sarsa和Q—learning的实现
[PARL强化学习]Sarsa和Q-learning的实现 Sarsa和Q-learning都是利用表格法再根据MDP四元组<S,A,P,R>:S: state状态,a: action动作 ...
Deep Q learning: DQN及其改进
Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经网络来表示价值函数策略模型使用随机梯度下降(SGD)优化los ...
READ-2316 Meta Federated Learning
READ-2316 Meta Federated Learning 论文名称 Meta Federated Learning 作者 Omid Aramoon, Pin-Yu Chen, Gang Qu ...
【强化学习笔记】从 “酒鬼回家” 认识Q Learning算法
1.背景现在笔者来讲一个利用Q-learning 方法帮助酒鬼回家的一个小例子, 例子的环境是一个一维世界, 在世界的右边是酒鬼的家.这个酒鬼因为喝多了,根本不记得回家的路,只是根据自己的直觉一会向 ...

Meta-Q-Learning

Meta-Q-Learning

如有错误，欢迎指正

摘要

Introduction

background

Meta-Reinforcement Learning (Meta-RL）

Logistic regression for estimating the propensity score

MQL

Meta-training

Designing context

Adaptation to a new task

实验

设置

结果

消融实验

相关工作

讨论

感想

Meta-Q-Learning相关推荐

最新文章

热门文章