策略梯度方法在强化学习中是一种很有吸引力的方法,因为它们可以直接优化累积奖励,并且可以直接与非线性函数逼近器(如神经网络)一起使用。两个主要挑战是通常需要大量的样本,以及尽管传入的数据是非平稳性,但仍难以获得稳定和稳步的改进。本文通过使用价值函数来解决第一个挑战,以一些偏差为代价,通过类似于TD(λ)的优势函数的指数加权估计来大幅减少策略梯度估计的方差。本文通过对由神经网络表示的策略和值函数使用信赖域优化过程来解决第二个挑战。该方法在高度挑战性的3D运动任务、学习双足和四足模拟机器人的跑步步态,以及学习使双足动物从一开始躺在地面上站起来的策略方面产生了强大的经验结果。与之前一大批使用手工策略表示的工作相比,所提出的神经网络策略直接从原始运动学映射到关节力矩。所提出算法是完全无模型的,在3D两足动物上学习任务所需的模拟经验量相当于1-2周的实时时间

2 PRELIMINARIES

3 ADVANTAGE FUNCTION ESTIMATION

5 VALUE FUNCTION ESTIMATION

有很多不同的方法可以用来估计价值函数(参见Bertsekas(2012))。当使用非线性函数逼近器来表示值函数时,最简单的方法是解决非线性回归问题

对于本工作中的实验,我们使用信任区域法来优化分批优化过程的每一次迭代的值函数。信任区域可以帮助我们避免对最近一批数据的过拟合

7 DISCUSSION

策略梯度方法通过提供无偏梯度估计,提供了一种将强化学习减少到随机梯度下降的方法。然而,到目前为止,它们在解决困难的控制问题方面的成功是有限的,主要是由于它们的高样本复杂度。我们已经讨论过,减小方差的关键是获得对优势函数的良好估计

本文对优势函数估计问题提供了一个直观但非正式的分析,并证明了广义优势估计器,它有两个参数γ和λ,用于调整偏差-方差权衡。我们描述了如何将这种思想与信赖域策略优化以及优化以神经网络为代表的值函数的信赖域算法相结合。结合这些技术,能够学习解决以前通用强化学习方法无法解决的困难控制任务

在并行工作中,研究人员一直在开发策略梯度方法,涉及对连续值行动的微分(Lillicrap等人,2015;Heess et al., 2015)。虽然我们从经验上发现一步回归(λ = 0)会导致过大的偏差和较差的性能,但这些论文表明,在适当调整的情况下,这种方法是可以工作的。然而,请注意,这些论文考虑的控制问题的状态和动作空间比这里考虑的要低得多。两类方法之间的比较将有助于今后的工作

High Dimensional Continuous Control Using Generalized Advantage Estimation相关推荐

  1. HIGH-DIMENSIONAL CONTINUOUS CONTROL USING GENERALIZED ADVANTAGE ESTIMATION翻译

    摘要 策略梯度方法是强化学习中的一种有吸引力的方法,因为它们可以直接优化累积奖赏,并且可以直接与非线性函数近似器(例如神经网络)一起使用.两个主要挑战是通常需要大量样本,并且尽管输入数据不稳定,但难以 ...

  2. DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

    CONTINOUS CONTROL WITH DEEP REINFORCEMENT LEARNING 论文地址 https://arxiv.org/abs/1509.02971 个人翻译,并不权威 T ...

  3. Discrete VS Continuous Control

    Discrete VS Continuous Control 1.连续动作离散化 离散动作空间DQN,使用DQN近似 Q π Q_{\pi} Qπ​,输出每个动作对应的价值. 策略网络则输出动作的概率 ...

  4. 强化学习-Vanilla Policy Gradient(VPG)

    文章目录 Background Quick Facts Key Equations Exploration vs. Exploitation Pseudocode Documentation Refe ...

  5. 深度增强学习方向论文整理

    from:https://zhuanlan.zhihu.com/p/23600620 作者:Alex-zhai 链接:https://zhuanlan.zhihu.com/p/23600620 来源: ...

  6. 强化学习核心文章一百篇

    文章目录 1. Model-Free RL a. Deep Q-Learning b. Policy Gradients c. Deterministic Policy Gradients d. Di ...

  7. 下一个AI领域的高薪方向:强化学习与智能决策研究班2023年春季招生启事

     世界繁花盛开 我们不必在同一个地方反复死磕  强化学习是最近5年来人工智能最令人激动的研究领域.如下图Google的搜索指数可以看到,强化学习的搜索指数最近一些年明显呈现增长趋势,而NLP(自然语言 ...

  8. 从《西部世界》到GAIL(Generative Adversarial Imitation Learning)算法

    原文链接:https://blog.csdn.net/jinzhuojun/article/details/85220327 一.背景 看过美剧<西部世界>肯定对里边的真实性(fideli ...

  9. 纯干货-5Deep Reinforcement Learning深度强化学习_论文大集合

    本文罗列了最近放出来的关于深度强化学习(Deep Reinforcement Learning,DRL)的一些论文.文章采用人工定义的方式来进行组织,按照时间的先后进行排序,越新的论文,排在越前面.希 ...

最新文章

  1. SAP QM QA08批量维护QMAT数据
  2. 菜鸟学PHP之Smarty入门(组图)
  3. 从源码理解Redux和Koa2的中间件机制
  4. 03 在百度地图上定位到指定位置
  5. linux关闭dns迭代查询,DNS查询和响应过程递归和迭代的使用
  6. 【干货】产品经理处理工作中突发事件的新技能Get!
  7. c++以代理的方式来实现接口化编程
  8. tensorflow2 tensorboard可视化使用
  9. Linux系统编程10:进程入门之系统编程中最重要的概念之进程进程的相关操作使用fork创建进程
  10. 基于angular5+ionic3仿照网易云音乐客户端
  11. 百度前端学院参考答案:第二十五天到第二十七天 倒数开始 滴答滴 滴答滴(2)...
  12. Netty工作笔记0007---NIO的三大核心组件关系
  13. Matlab图形修饰之色彩处理
  14. 尚学堂科技_王勇_JAVA视频教程_Hibernate
  15. .net core 定时任务
  16. 日系背景色RGB,CMYK数值
  17. java 获取本机ip地址吗_java 获取本机ip地址
  18. H5开发和原生开发的区别
  19. 图应用:骑士周游问题
  20. Mac pro 连上wifi 5G提示无ip地址

热门文章

  1. SIL 与 ASIL
  2. 高等几何——射影变换5
  3. 上海内推 | 浦江实验室招聘NLP方向算法实习生
  4. iamsujie的简要自我介绍 Early2022
  5. linebreak_operator-linebreak (Rules) – Eslint 中文开发手册 - Break易站
  6. wireguard组建一个内网环境
  7. IDEA 护眼色设置
  8. 北京大学施柏鑫:从审稿人视角,谈谈怎么写一篇CVPR论文
  9. GBASE 8s客户端与服务器的通信
  10. html5设计九宫格页面,Html5响应式设计实现九宫格,html5响应九宫格