High Dimensional Continuous Control Using Generalized Advantage Estimation

策略梯度方法在强化学习中是一种很有吸引力的方法，因为它们可以直接优化累积奖励，并且可以直接与非线性函数逼近器(如神经网络)一起使用。两个主要挑战是通常需要大量的样本，以及尽管传入的数据是非平稳性，但仍难以获得稳定和稳步的改进。本文通过使用价值函数来解决第一个挑战，以一些偏差为代价，通过类似于TD(λ)的优势函数的指数加权估计来大幅减少策略梯度估计的方差。本文通过对由神经网络表示的策略和值函数使用信赖域优化过程来解决第二个挑战。该方法在高度挑战性的3D运动任务、学习双足和四足模拟机器人的跑步步态，以及学习使双足动物从一开始躺在地面上站起来的策略方面产生了强大的经验结果。与之前一大批使用手工策略表示的工作相比，所提出的神经网络策略直接从原始运动学映射到关节力矩。所提出算法是完全无模型的，在3D两足动物上学习任务所需的模拟经验量相当于1-2周的实时时间

2 PRELIMINARIES

3 ADVANTAGE FUNCTION ESTIMATION

5 VALUE FUNCTION ESTIMATION

有很多不同的方法可以用来估计价值函数(参见Bertsekas(2012))。当使用非线性函数逼近器来表示值函数时，最简单的方法是解决非线性回归问题

对于本工作中的实验，我们使用信任区域法来优化分批优化过程的每一次迭代的值函数。信任区域可以帮助我们避免对最近一批数据的过拟合

7 DISCUSSION

策略梯度方法通过提供无偏梯度估计，提供了一种将强化学习减少到随机梯度下降的方法。然而，到目前为止，它们在解决困难的控制问题方面的成功是有限的，主要是由于它们的高样本复杂度。我们已经讨论过，减小方差的关键是获得对优势函数的良好估计

本文对优势函数估计问题提供了一个直观但非正式的分析，并证明了广义优势估计器，它有两个参数γ和λ，用于调整偏差-方差权衡。我们描述了如何将这种思想与信赖域策略优化以及优化以神经网络为代表的值函数的信赖域算法相结合。结合这些技术，能够学习解决以前通用强化学习方法无法解决的困难控制任务

在并行工作中，研究人员一直在开发策略梯度方法，涉及对连续值行动的微分(Lillicrap等人，2015;Heess et al.， 2015)。虽然我们从经验上发现一步回归(λ = 0)会导致过大的偏差和较差的性能，但这些论文表明，在适当调整的情况下，这种方法是可以工作的。然而，请注意，这些论文考虑的控制问题的状态和动作空间比这里考虑的要低得多。两类方法之间的比较将有助于今后的工作

High Dimensional Continuous Control Using Generalized Advantage Estimation相关推荐

HIGH-DIMENSIONAL CONTINUOUS CONTROL USING GENERALIZED ADVANTAGE ESTIMATION翻译
摘要策略梯度方法是强化学习中的一种有吸引力的方法,因为它们可以直接优化累积奖赏,并且可以直接与非线性函数近似器(例如神经网络)一起使用.两个主要挑战是通常需要大量样本,并且尽管输入数据不稳定,但难以 ...
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING
CONTINOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 论文地址 https://arxiv.org/abs/1509.02971 个人翻译,并不权威 T ...
Discrete VS Continuous Control
Discrete VS Continuous Control 1.连续动作离散化离散动作空间DQN,使用DQN近似 Q π Q_{\pi} Qπ,输出每个动作对应的价值. 策略网络则输出动作的概率 ...
强化学习-Vanilla Policy Gradient(VPG)
文章目录 Background Quick Facts Key Equations Exploration vs. Exploitation Pseudocode Documentation Refe ...
深度增强学习方向论文整理
from:https://zhuanlan.zhihu.com/p/23600620 作者:Alex-zhai 链接:https://zhuanlan.zhihu.com/p/23600620 来源: ...
强化学习核心文章一百篇
文章目录 1. Model-Free RL a. Deep Q-Learning b. Policy Gradients c. Deterministic Policy Gradients d. Di ...
下一个AI领域的高薪方向：强化学习与智能决策研究班2023年春季招生启事
世界繁花盛开我们不必在同一个地方反复死磕强化学习是最近5年来人工智能最令人激动的研究领域.如下图Google的搜索指数可以看到,强化学习的搜索指数最近一些年明显呈现增长趋势,而NLP(自然语言 ...
从《西部世界》到GAIL（Generative Adversarial Imitation Learning）算法
原文链接:https://blog.csdn.net/jinzhuojun/article/details/85220327 一.背景看过美剧<西部世界>肯定对里边的真实性(fideli ...
纯干货-5Deep Reinforcement Learning深度强化学习_论文大集合
本文罗列了最近放出来的关于深度强化学习(Deep Reinforcement Learning,DRL)的一些论文.文章采用人工定义的方式来进行组织,按照时间的先后进行排序,越新的论文,排在越前面.希 ...

High Dimensional Continuous Control Using Generalized Advantage Estimation

High Dimensional Continuous Control Using Generalized Advantage Estimation相关推荐

最新文章

热门文章