Policy gradient

  1. Parameterize policy directly
  2. No value function
  3. On policy 训练:
    1. Because samples can not be re-used
    2. 只能等到回合结束才能更新

A2C, A3C, PPO 都不是纯 policy based 的 RL 方法,准确地说是 Actor-Critic 方法,即,同时用到了 value function 和 policy funtion.

这三种方法之间有什么区别呢?

A2C

这里的数字 2 其实是说有多少个 “A” 的意思, 作为 Actor-Critic 方法的一种,A2C 是在 Actor-Critic 方法的基础上多了一个 advantage : r+v(s′)−v(s)r + v(s') - v(s)r+v(s′)−v(s)

A3C

很好理解,比 A2C 多一个A:Asynchronous,是一种异步更新的方法

PPO

比上面两种方法又多了一个 clip 操作

RL policy gradient 之 A2C, A3C,PPO小总结相关推荐

  1. RL——Policy Gradient类方法

    Policy Gradient和Q-learning可以说是model-free RL的两大阵营.前者是off-line, on-policy的方法,后者是on-line, off-policy的方法 ...

  2. 机器学习-54-RL-06-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)

    文章目录 Actor-Critic Actor-Critic Review – Policy Gradient Review – Q-Learning Actor-Critic Advantage A ...

  3. Policy Gradient 之 A3C 与 A2C 算法

    Policy Gradient 之 A3C 与 A2C 算法 Motivation Background Algorithm Policy Gradient Actor-Critic A3C A2C ...

  4. 【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

    [李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...

  5. Policy-based RL小结(Policy Gradient ; Natural policy gradient ;TRPO;ACKTR;PPO )

    文章目录 Policy-based RL 前言 1. 预备知识 1.1 策略类型 1.2 策略优化的目标函数 1.2.1 可结束的环境的目标函数 1.2.3 连续动作环境的目标函数 1.2.4 实际的 ...

  6. 从REINFORCE到PPO,看Policy Gradient的前世今生

    从REINFORCE到PPO,看Policy Gradient的前世今生 Policy Gradient和Q-learning可以说是model-free RL的两大阵营.前者是off-line.on ...

  7. *、Policy Gradient和PPO(PPO2)

    文章目录 1.基本组成部分 2.policy gradient执行过程 3.执行policy gradient的Tips 3.1 增加一个baseline 3.2 分配合理的reward权重 4.Pr ...

  8. 强化学习6——Policy-based RL(MC policy gradient)

    文章目录 Policy-based RL 思路 特点 解决噪声问题 use temporal causality include a baseline 方法 MC policy gradient Po ...

  9. 【RL】Vanilla Policy Gradient(VPG)

    policy gradient的基本思想,是把总的奖励表示为策略的函数,然后对这个函数做优化.在这一章中,我们将详细地讲解这个函数具体的形式是怎么样的.如何求出策略梯度,理解policy gradie ...

最新文章

  1. CentOS安装oracleJDK
  2. boost::mp11::mp_any相关用法的测试程序
  3. java创建activity视图_java-动态创建的视图id始终为null-findviewbyid不起作用
  4. powermock模拟对象_使用PowerMock测试对象的内部状态
  5. POJ 3178 凸包+DP (巨坑)
  6. java访问带有密码验证的es_elasticsearch x_pack带验证 java配置访问
  7. 极客导航 - 建站教程的背景
  8. VHDL/Verilog HDL实现任意整数倍分频器
  9. c语言malloc函数的用法和意义
  10. 银行笔试题目汇总——综合能力测试
  11. 【微信公众号】2、申请微信公众平台接口测试帐号
  12. Transformer模型简介
  13. 00x: Django models.Model详解
  14. 漫谈核心能力(2) -- 知错能改,善莫大焉
  15. 为了推动仓库无纸化操作我们做了什么?
  16. NBA球星数据可视化分析-FineBI
  17. 三态门及数据缓冲器 双向口的用法
  18. C、C++、JAVA
  19. 未来人类 t5 笔记本 禁止U盘启动
  20. vue前端下载文件的2种方式

热门文章

  1. Grammer - 被动语态
  2. Vue已知文件地址完成图片视频单个下载及批量下载
  3. linux c strtol 字符串转int 简介
  4. Android:安卓学习笔记之navigation的简单理解和使用
  5. slf4j日志的使用和配置
  6. 解决下载妹子网图片数据不全的两种方法
  7. 2554. 【NOIP2011模拟9.7】帕秋莉·诺蕾姬 (Standard IO)
  8. 密码打马赛克已经不安全了!这款开源的去 “马赛克” 工具一秒还原
  9. 前端导出excel插件vue-json-exce
  10. Java LockSupport以及park、unpark方法源码深度解析