强化学习(9):TRPO、PPO以及DPPO算法:https://blog.csdn.net/zuzhiang/article/details/103650805
DPPO深度强化学习算法实现思路(分布式多进程加速): https://blog.csdn.net/weixin_43145941/article/details/116764574
[DPPO]:再看我的影分身之术(附代码及代码分析):https://zhuanlan.zhihu.com/p/111346592

PPO

TRPO

PPO(Proximal Policy Optimization) 是一种解决 PG 算法中学习率不好确定的问题的算法,因为如果学习率过大,则学出来的策略不易收敛, 反之,如果学习率太小,则会花费较长的时间。PPO 算法利用新策略和旧策略的比例,从而限制了新策略的更新幅度,让 PG 算法对于稍微大一点的学习率不那么敏感。
TRPO 与 PPO 之间的区别在于 TRPO 使用了 KL 散度作为约束条件, PPO 在原目标函数的基础上添加了 KL 散度部分
PPO2 在 PPO 的基础上去除了 KL 散度损失函数,但是引入了 Clip 损失函数
DPPO(Distributed Proximal Policy Optimization)简单来说就是多线程并行版的 PPO。

那么A3C就是worker又与环境交互又更新局部梯度,然后推送到全局梯度,再将worker的梯度更新;而DPPO就是worker只与环境交互,由global更新梯度.
在A3C,我们需要跑数据并且计算好梯度,再更新全局网络。这是因为AC是一个在线的算法,所以在更新的时候,产生数据的策略和更新的策略需要时同一个网络。所以我们不能把worker产出的数据,直接给全局网络计算梯度用。
但PPO解决了离线更新策略的问题,所以DPPO的工人只需要提供数据给全局网络,由全局网络从数据中直接学习。

DPPO


DPPO算法(顺便对比PG、TRPO、PPO、PPO2以及A3C算法)相关推荐

  1. 强化学习 | 策略梯度 | Natural PG | TRPO | PPO

    学习情况:

  2. 页面置换算法简单对比----《operating system concepts》《操作系统原理》

    置换策略 当请求调页程序要调进一个页面,但是该作业分配所得的主内存块已经全部用完,则必须淘汰改作业在贮存中的一个页面.置换算法就是决定选择哪一个页面进行淘汰的规则. 如置换算法不够好,就会导致刚淘汰的 ...

  3. 强化学习《基于策略 - PPO,TRPO,PPO2》

    在上一篇博客最后,我们说到了θ和θ^k是不能差太多的,不然结果会不好,那么怎么避免它们差太多呢? 这就是这一篇要介绍的PPO所在做的事情. 1:PPO1算法: 2:TRPO算法 3:PPO2算法

  4. PPO近端策略优化算法概述

    Policy Gradient算法存在两个问题,一是蒙特卡罗只能回合更新,二是on-policy采集的数据只能使用一次. 对于第一个更新慢的问题,改用时序差分方法,引入critic网络估计V值,就能实 ...

  5. m基于PSO粒子群算法的重采样算法仿真,对比随机重采样,多项式重采样,分层重采样,系统重采样,残差重采样,MSV重采样

    目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 重采样的主要方法有随机重采样,多项式重采样,分层重采样,系统重采样,残差重采样,MSV重采样等. a ...

  6. Python 多种算法模型对比

    Python 多种算法模型对比 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 算法模型对比简介 可以对同一份训练数据集应用多 ...

  7. 一个专家眼中的Go与Java垃圾回收算法大对比

    https://blog.csdn.net/weixin_45583158/article/details/100143135 导读:GC 是大部分现代语言内置的特性,本文作者针对 Go 语言声称的 ...

  8. 高、低成本MEMS惯导系统姿态、位置、速度更新算法的对比

    高.低成本MEMS惯导系统姿态.位置.速度更新算法的对比 一.高成本MEMS惯导系统姿态.位置.速度更新算法 1.速度更新 2.位置更新 3.姿态更新 4.程序仿真及实验结果 4.1 主函数 4.2 ...

  9. 机器学习—分类算法的对比实验

    文章目录 前言 一.分类算法实现 1.决策树 2.KNN 3.SVM 4.逻辑回归 5.朴素贝叶斯 6.随机森林 7.AdaBoost 8.GradientBoosting 二.分类算法的对比 前言 ...

最新文章

  1. linux shell判断文件、目录是否存在并移动到指定位置
  2. LeetCode 309. 最佳买卖股票时机含冷冻期(动态规划)
  3. IGNITE TROUBLESHOOT
  4. 2017年美国人工智能投资分析报告
  5. html 飘窗链接,飘窗html
  6. jersey 过滤_Jersey 开发RESTful(十五) Jersey的拦截器
  7. el earch 安装
  8. 牛客网 2018校招真题 吉比特 最大差值
  9. 在纯Win10环境下部署DzzOffice+OnlyOffice协同办公系统
  10. 爆笑宜昌方言版《大学自习室》说唱
  11. 信息系统项目管理师学习笔记6——信息化与信息系统补充知识
  12. Linux安装tar软件教程,tar的简单实用及linux常见软件的安装
  13. jaffe 数据库百度网盘下载
  14. 90-95年CPU功耗感知调度研究
  15. 创维电视linux系统怎么连接wifi,创维电视怎么连接wifi
  16. 移动安全--50--Android安全开发编码规范
  17. 计算机方面QQ群介绍
  18. 79个超强微生物知识,全力助你孕育99分超优宝宝
  19. 预防网络钓鱼攻击入门
  20. 【Python实战】--词云制作

热门文章

  1. 怀揣“年少梦”追赶自己成为00后网安的候补No.1篇文章
  2. 解决IDEA中项目加载失败
  3. 如何快速将execl中不同表格的数据汇总到一个表格中
  4. 华为防火墙会话 session table
  5. 为什么找不到合适的工作?
  6. mysql如何关闭只读模式_mysql只读模式的设置方法与实验【转】
  7. python isinstance 函数_python isinstance函数
  8. 使用selenium爬取淘宝店铺信息
  9. 用户数突破5亿,钉钉首次阐述“两个数字化”战略
  10. 微软 raid 服务器 操作系统 2003,宝德pr2310n服务器raid配置与win2003系统安装手册.docx...