今天学习了李宏毅老师的深度强化学习课程—策略梯度和近端策略优化,其中近端策略优化是策略梯度的升级版本,并且是openai的默认强化学习算法,可见其重要性。近端策略优化可以在策略梯度的基础上,将在策略变为离策略变,并添加一定的约束得到,因此本部分内容包括策略梯度、在策略变离策略和添加约束三部分内容。

  策略梯度方法是对策略参数化,然后通过梯度下降的方法对参数进行优化,从最大化期望累积奖励出发,推导得到参数的更新公式,针对公式中存在的不足,给出了两种改进方式:添加基准和为每个动作分配合适置信度,并定义了优势函数。​


在策略变离策略
  在策略:待学习的代理与和环境交互的代理是相同的。
  离策略:两者是不同的。
  在策略方式下,当策略参数得以更新时,需要重新采样训练数据,而将在策略变为离策略的好处在于,可以使用另一个策略的样本训练当前策略,而那个策略是固定的,因而可以重用这些样本数据。这里用到了重要度采样的概念,但重要度采样也可能存在问题,需要保证两个策略之间不能差别太大。最后给出了离策略下的目标函数。


  为了满足上述的要求,需要在目标函数中额外​添加约束,根据添加的约束方式不同,可以有两种算法:PPO(Proximal Policy Optimization)和TPRO(Trust Region Policy Optimization)。

深度强化学习之近端策略优化(Proximal Policy Optimization)相关推荐

  1. 【强化学习笔记】策略梯度(Policy Gradient)

    文章目录 1.基本元素 2.游戏示例 3.基本概念 3.1.回合(episode) 3.2.总奖励(Total Reward) 3.3.轨迹(Trajectory) 3.4.奖励期望(Expected ...

  2. 基于近端策略优化的阻变存储硬件加速器自动量化

    摘 要 卷积神经网络在诸多领域已经取得超出人类的成绩.但是,随着模型存储开销和计算复杂性的不断增加,限制处理单元和内存单元之间数据交换的"内存墙"问题阻碍了其在诸如边缘计算和物联网 ...

  3. 多Agent 深度强化学习综述

    多Agent 深度强化学习综述 人工智能技术与咨询 来源:<自动化学报>,作者梁星星等 摘 要 近年来,深度强化学习(Deep reinforcement learning,DRL) 在诸 ...

  4. 【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

    [李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...

  5. 深度强化学习8:Imitation Learning

    [李宏毅深度强化学习笔记]8.Imitation Learning qqqeeevvv 2020-01-30 18:18:16 3344 收藏 4 分类专栏: 强化学习 # 理论知识 </div ...

  6. 【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)

    [李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...

  7. 【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)

    [李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...

  8. 中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero

    来源:德先生 概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展:  从AlphaGo ...

  9. ChatGPT 使用 强化学习:Proximal Policy Optimization算法(详细图解)

    ChatGPT 使用 强化学习:Proximal Policy Optimization算法 强化学习中的PPO(Proximal Policy Optimization)算法是一种高效的策略优化方法 ...

  10. 近端策略优化算法(PPO)

    策略梯度算法(PG) 策略梯度迭代,通过计算策略梯度的估计,并利用随机梯度上升算法进行迭代.其常用的梯度估计形式为: E^t[∇θlogπθ(at∣st)A^t]\hat{\mathbb{E}}_t[ ...

最新文章

  1. 替换元素和非替换元素的学习
  2. Datawhale 内推 | 头条、百度、网易、滴滴、联想、商汤、平安科技等
  3. GLUT及其函数的用法整理
  4. linux c之fdopen(int fd, const char *type)使用总结
  5. AccuREST Stub Runner发布
  6. 【软件测试】α测试和β测试的区别
  7. 二十一天学通C语言:C语言中指针排序
  8. 平稳时间序列模型的统计性质
  9. linux 桌面小部件,在Ubuntu中安装桌面小部件 | MOS86
  10. 我的spark学习之路(一)
  11. Nginx配置Https 443 端口
  12. 怎么用微信打开wifi连接到服务器,微信一键连wifi在哪里 微信一键连wifi怎么使用...
  13. html5画布获取位置,html5画布绘制位置不正确(html5 canvas drawing position not correct)
  14. 194.Vue.js智能扫码点餐系统(二十八)【支付宝支付流程、Nodejs支付源码解析、 实现支付功能(支付宝支付)】2019.04.01
  15. ROS实验笔记之——SLAM无人驾驶初入门
  16. c语言 快排,C语言 快排函数
  17. 无法同步因计算机未授权,iTunes无法授权和同步解决办法教程
  18. Web验证的过去现在与未来
  19. 基于ArcGIS与高分影像进行绿地变化分析
  20. 路径/ ./ ../的区别

热门文章

  1. file* linux,Linux基础——file命令与magic file
  2. mybatis自定义插件
  3. php xcache 例子,PHP       xcache
  4. java中面向对象6_Java面向对象
  5. JavaScript:设置网站title
  6. C#:判断某个对象有没有某个键的方法
  7. MpscGrowableArrayQueue分析
  8. 设计模式(5)——单例模式的七种实现方式
  9. 分布式系统基本原理介绍
  10. 华为算法精英赛(题2:水仙花数判断)