RL policy gradient 之 A2C, A3C,PPO小总结

Policy gradient

Parameterize policy directly
No value function
On policy 训练:
1. Because samples can not be re-used
2. 只能等到回合结束才能更新

A2C, A3C, PPO 都不是纯 policy based 的 RL 方法，准确地说是 Actor-Critic 方法，即，同时用到了 value function 和 policy funtion.

这三种方法之间有什么区别呢？

A2C

这里的数字 2 其实是说有多少个 “A” 的意思, 作为 Actor-Critic 方法的一种，A2C 是在 Actor-Critic 方法的基础上多了一个 advantage : r+v(s′)−v(s)r + v(s') - v(s)r+v(s′)−v(s)

A3C

很好理解，比 A2C 多一个A：Asynchronous，是一种异步更新的方法

PPO

比上面两种方法又多了一个 clip 操作

RL policy gradient 之 A2C, A3C,PPO小总结相关推荐

RL——Policy Gradient类方法
Policy Gradient和Q-learning可以说是model-free RL的两大阵营.前者是off-line, on-policy的方法,后者是on-line, off-policy的方法 ...
机器学习-54-RL-06-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)
文章目录 Actor-Critic Actor-Critic Review – Policy Gradient Review – Q-Learning Actor-Critic Advantage A ...
Policy Gradient 之 A3C 与 A2C 算法
Policy Gradient 之 A3C 与 A2C 算法 Motivation Background Algorithm Policy Gradient Actor-Critic A3C A2C ...
【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient
[李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...
Policy-based RL小结(Policy Gradient ； Natural policy gradient ；TRPO；ACKTR；PPO )
文章目录 Policy-based RL 前言 1. 预备知识 1.1 策略类型 1.2 策略优化的目标函数 1.2.1 可结束的环境的目标函数 1.2.3 连续动作环境的目标函数 1.2.4 实际的 ...
从REINFORCE到PPO，看Policy Gradient的前世今生
从REINFORCE到PPO,看Policy Gradient的前世今生 Policy Gradient和Q-learning可以说是model-free RL的两大阵营.前者是off-line.on ...
*、Policy Gradient和PPO(PPO2)
文章目录 1.基本组成部分 2.policy gradient执行过程 3.执行policy gradient的Tips 3.1 增加一个baseline 3.2 分配合理的reward权重 4.Pr ...
强化学习6——Policy-based RL（MC policy gradient）
文章目录 Policy-based RL 思路特点解决噪声问题 use temporal causality include a baseline 方法 MC policy gradient Po ...
【RL】Vanilla Policy Gradient（VPG）
policy gradient的基本思想,是把总的奖励表示为策略的函数,然后对这个函数做优化.在这一章中,我们将详细地讲解这个函数具体的形式是怎么样的.如何求出策略梯度,理解policy gradie ...

RL policy gradient 之 A2C, A3C,PPO小总结

A2C

A3C

PPO

RL policy gradient 之 A2C, A3C,PPO小总结相关推荐

最新文章

热门文章