文章目录

  • On-policy v.s. Off-policy
  • 将On-policy变为Off-policy
  • PPO算法/TRPO算法
  • PPO2
  • 总结

On-policy v.s. Off-policy

On-Policy方式指的是用于学习的agent与观察环境的agent是同一个,所以参数θ始终保持一致。
Off-Policy方式指的是用于学习的agent与用于观察环境的agent不是同一个,他们的参数θ可能不一样。
比如下围棋,On-Policy方式是agent亲历亲为,而Off-Policy是一个agent看其他的agent下棋,然后去学习人家的东西。

将On-policy变为Off-policy

我在之前的博客里写的Policy gradient用的是On-Policy,现在我们要将其变为Off-policy,那么为什么要变呢?看下图蓝线画的部分,表示的是在某个actor的情况下,或者说是某个参数θ的情况下,随机取样出来不同的┏的期望(可以看看我的这篇博客大致学习一下Policy Gradient详解)然后我们利用梯度上升更新θ,但是θ只要一更新,这个期望就会变,也就是说当theta更新时,我们又必须重新计算期望了。这就导致了想找到一个好的θ太慢了。那么我们使用Off-Policy能解决这个问题,我们使用Πθ‘去和环境做互动,我们可以得到在θ’下所随机取出的样本的期望,然后让Πθ去利用这个这些样本去训练θ,现在,我们介绍一下Importance Sampling.
下图的importance sampling中,那个Ex~p(f(x))表示x从p中取的情况下,f(x)的期望是多少?很明显约等于1/N∑f(xi),但是我们现在规定不准从p中取x,只能从q中取x,那么就有如下的式子转换:蓝框圈的部分是权重,p与q不能相差太多。

上面的那种做法有一个问题,虽然他们的期望可能相等或者相近,但经过证明,最后方差的式子是不一样的,多了红框圈出的部分,再次说明p与q不能差距太大。

看下面这张图,先看等式左半边,在p里面取x,那么p的左半边被取的机率很高,然后左半边又都是正的,然后代入f(x),但是f(x)的左边都是负的,所以整个期望是负的。然后再看等式右边,在q里面取,q在右边被取得几率大,然后q大于p,所以p\q小于1,然后f(x)又是正得,所以为正,但事实果真如此吗?如果我现在sample到了一个左边的点,f(x)就为负了,而且p\q>1,这将影响整个右边的结果,可能为负,所以只有在取更多样本时,下面这个式子才越准确。
然后我们将On-policy转换为Off-policy,如下图所示,注意画蓝线的地方,我们是从θ‘sample的样本,然后我们可以使用θ’的样本去多次训练θ。

那个A就是advantage function,我这篇博客里有这个函数的简介(可以看看我的这篇博客大致学习一下Policy Gradient详解)

PPO算法/TRPO算法

PPO算法是一种新型的Policy Gradient算法,Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题。


PPO2

总结

Proximal Policy Optimization (PPO)详解相关推荐

  1. Proximal Policy Optimization (PPO) 算法理解:从策略梯度开始

    近端策略优化(PPO)算法是OpenAI在2017提出的一种强化学习算法,被认为是目前强化学习领域的SOTA方法,也是适用性最广的算法之一.本文将从PPO算法的基础入手,理解从传统策略梯度算法(例如R ...

  2. Proximal Policy Optimization (PPO)

    1.On-policy v.s. Off-policy On-policy: 学习的智能体和与环境交互的智能体是同一个 Off-policy: 学习的智能体和与环境交互的智能体不是同一个 大白话就是, ...

  3. 强化学习笔记:PPO 【近端策略优化(Proximal Policy Optimization)】

    1 前言 我们回顾一下policy network: 强化学习笔记:Policy-based Approach_UQI-LIUWJ的博客-CSDN博客 它先去跟环境互动,搜集很多的 路径τ.根据它搜集 ...

  4. 强化学习——Proximal Policy Optimization Algorithms

    文章目录 前言 为什么需要PPO TRPO PPO 前言 本文对论文<Proximal Policy Optimization Algorithms>进行总结,如有错误,欢迎指出. 为什么 ...

  5. 深度增强学习PPO(Proximal Policy Optimization)算法源码走读

    原文地址:https://blog.csdn.net/jinzhuojun/article/details/80417179 OpenAI出品的baselines项目提供了一系列deep reinfo ...

  6. ChatGPT 使用 强化学习:Proximal Policy Optimization算法(详细图解)

    ChatGPT 使用 强化学习:Proximal Policy Optimization算法 强化学习中的PPO(Proximal Policy Optimization)算法是一种高效的策略优化方法 ...

  7. 【文献阅读】Proximal Policy Optimization Algorithms

    Author: John Schulman 原文摘要 我们提出了一种新的强化学习的 策略梯度方法,该方法在 与环境互动中进行采样 和 使用随机梯度提升算法优化"surrogate" ...

  8. 【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解

    http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 引用莫凡老师的素材 https://morvanzhou.github.io/tut ...

  9. 【强化学习】Policy Gradient算法详解

    DeepMind公开课https://sites.google.com/view/deep-rl-bootcamp/lectures David Silver教程 http://www0.cs.ucl ...

最新文章

  1. 2022一建改革加考英语和计算机,2021年一建考试大改革吗 考六门科目吗
  2. A XSS filter for Java EE web apps--转载
  3. java 更新ui_你怎么解决Android开发中更新UI报错的异常吗-百度经验
  4. 【非凡程序员】 OC第十八节课 (数据库mysql和sqlite3)
  5. [Java]图片压缩
  6. 【JS 逆向百例】网洛者反爬练习平台第六题:JS 加密,环境模拟检测
  7. fifo的valid信号啥时候为高_五角枫啥时候适合移栽?五角枫移栽最佳时间
  8. 03-centos 如何查看操作系统是哪个版本
  9. .NET 将 .config 文件嵌入到程序集
  10. eclipse svn设置忽略文件
  11. Linux系统常见的压缩与打包命令
  12. tp3.2 URL模式
  13. 模拟https类型的get,post请求时,碰到证书不信任,无法正常获取返回内容的异常
  14. android 开机自启动实现
  15. 三脚升压电感工作原理
  16. 51单片机~红外通信工作原理
  17. 计算机蓝屏用故障卡,电脑蓝屏后一直卡在正在启动界面怎么处理
  18. 新猿木子李:0基础学python培训教程 Python操作Redis之有序集合类型
  19. 问卷调查系统环境配置搭建
  20. 电脑鸿蒙系统怎么连接无线网络,手提电脑怎样连接WiFi?

热门文章

  1. 解决99%的卡刷包无法通过ROM制作工具修改的问题
  2. Adblock屏蔽知乎登录弹窗(持续更新中……)
  3. S3C2410中文芯片手册-11.串口
  4. 计算机入门基础知识!学编程从认识计算机开始!
  5. asp.net930-绿能店电动车租赁系统
  6. 如何查看苹果笔记本型号及具体资料
  7. 移动硬盘I盘误删的数据恢复方法
  8. 第3章 结构之法——电话号码对应英语单词
  9. 开发一款系统软件大概需要多少钱呢
  10. 将语雀文档迁移到飞书