DPPO算法（顺便对比PG、TRPO、PPO、PPO2以及A3C算法）

强化学习（9）：TRPO、PPO以及DPPO算法：https://blog.csdn.net/zuzhiang/article/details/103650805
DPPO深度强化学习算法实现思路(分布式多进程加速)： https://blog.csdn.net/weixin_43145941/article/details/116764574
[DPPO]:再看我的影分身之术（附代码及代码分析）：https://zhuanlan.zhihu.com/p/111346592

PPO

TRPO

PPO（Proximal Policy Optimization）是一种解决 PG 算法中学习率不好确定的问题的算法，因为如果学习率过大，则学出来的策略不易收敛，反之，如果学习率太小，则会花费较长的时间。PPO 算法利用新策略和旧策略的比例，从而限制了新策略的更新幅度，让 PG 算法对于稍微大一点的学习率不那么敏感。
TRPO 与 PPO 之间的区别在于 TRPO 使用了 KL 散度作为约束条件， PPO 在原目标函数的基础上添加了 KL 散度部分
PPO2 在 PPO 的基础上去除了 KL 散度损失函数，但是引入了 Clip 损失函数
DPPO（Distributed Proximal Policy Optimization）简单来说就是多线程并行版的 PPO。

那么A3C就是worker又与环境交互又更新局部梯度,然后推送到全局梯度,再将worker的梯度更新;而DPPO就是worker只与环境交互,由global更新梯度.
在A3C，我们需要跑数据并且计算好梯度，再更新全局网络。这是因为AC是一个在线的算法，所以在更新的时候，产生数据的策略和更新的策略需要时同一个网络。所以我们不能把worker产出的数据，直接给全局网络计算梯度用。
但PPO解决了离线更新策略的问题，所以DPPO的工人只需要提供数据给全局网络，由全局网络从数据中直接学习。

DPPO

DPPO算法（顺便对比PG、TRPO、PPO、PPO2以及A3C算法）相关推荐

强化学习 | 策略梯度 | Natural PG | TRPO | PPO
学习情况:
页面置换算法简单对比----《operating system concepts》《操作系统原理》
置换策略当请求调页程序要调进一个页面,但是该作业分配所得的主内存块已经全部用完,则必须淘汰改作业在贮存中的一个页面.置换算法就是决定选择哪一个页面进行淘汰的规则. 如置换算法不够好,就会导致刚淘汰的 ...
强化学习《基于策略 - PPO，TRPO，PPO2》
在上一篇博客最后,我们说到了θ和θ^k是不能差太多的,不然结果会不好,那么怎么避免它们差太多呢? 这就是这一篇要介绍的PPO所在做的事情. 1:PPO1算法: 2:TRPO算法 3:PPO2算法
PPO近端策略优化算法概述
Policy Gradient算法存在两个问题,一是蒙特卡罗只能回合更新,二是on-policy采集的数据只能使用一次. 对于第一个更新慢的问题,改用时序差分方法,引入critic网络估计V值,就能实 ...
m基于PSO粒子群算法的重采样算法仿真,对比随机重采样,多项式重采样,分层重采样,系统重采样,残差重采样,MSV重采样
目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述重采样的主要方法有随机重采样,多项式重采样,分层重采样,系统重采样,残差重采样,MSV重采样等. a ...
Python 多种算法模型对比
Python 多种算法模型对比 1 声明本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 算法模型对比简介可以对同一份训练数据集应用多 ...
一个专家眼中的Go与Java垃圾回收算法大对比
https://blog.csdn.net/weixin_45583158/article/details/100143135 导读:GC 是大部分现代语言内置的特性,本文作者针对 Go 语言声称的 ...
高、低成本MEMS惯导系统姿态、位置、速度更新算法的对比
高.低成本MEMS惯导系统姿态.位置.速度更新算法的对比一.高成本MEMS惯导系统姿态.位置.速度更新算法 1.速度更新 2.位置更新 3.姿态更新 4.程序仿真及实验结果 4.1 主函数 4.2 ...
机器学习—分类算法的对比实验
文章目录前言一.分类算法实现 1.决策树 2.KNN 3.SVM 4.逻辑回归 5.朴素贝叶斯 6.随机森林 7.AdaBoost 8.GradientBoosting 二.分类算法的对比前言 ...

DPPO算法（顺便对比PG、TRPO、PPO、PPO2以及A3C算法）

DPPO算法（顺便对比PG、TRPO、PPO、PPO2以及A3C算法）相关推荐

最新文章

热门文章