在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradient),它是Policy Based强化学习方法,基于策略来学习。

    本文参考了Sutton的强化学习书第13章和策略梯度的论文。

1. Value Based强化学习方法的不足

    DQN系列强化学习算法主要的问题主要有三点。

    第一点是对连续动作的处理能力不足。DQN之类的方法一般都是只处理离散动作,无法处理连续动作。虽然有NAF DQN之类的变通方法,但是并不优雅。比如我们之前提到的经典的冰球世界(PuckWorld) 强化学习问题,具体的动态demo见这里。环境由一个正方形区域构成代表着冰球场地,场地内大的圆代表着运动员个体,小圆代表着目标冰球。在这个正方形环境中,小圆会每隔一定的时间随机改变在场地的位置,而代表个体的大圆的任务就是尽可能快的接近冰球目标。大圆可以操作的行为是在水平和竖直共四个方向上施加一个时间乘时长的力,借此来改变大圆的速度。假如此时这个力的大小和方向是可以灵活选择的,那么使用普通的DQN之类的算法就不好做了。因为此时策略是一个有具体值有方向的力,我们可以把这个力在水平和垂直方向分解。那么这个力就是两个连续的向量组成,这个策略使用离散的方式是不好表达的&#x

强化学习(十三) 策略梯度(Policy Gradient)相关推荐

  1. 【深度强化学习】策略梯度 Policy Gradients

    文章目录 前言 values 和 policy 策略的表示 策略梯度 REINFORCE method 实例:CartPole 前言 重读<Deep Reinforcemnet Learning ...

  2. 系统学习深度学习(三十五)--策略梯度(Policy Gradient)

    转自:https://www.cnblogs.com/pinard/p/10137696.html 在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习.这种Valu ...

  3. 强化学习(Reinforcement Learning)之策略梯度(Policy Gradient)的一点点理解以及代码的对应解释

    一.策略梯度算法推导以及解释 1.1 背景 设πθ(s)\pi_{\theta }(s)πθ​(s)是一个有网络参数θ\thetaθ的actor,然后我们让这个actor和环境(environment ...

  4. 【7】强化学习之策略梯度(Policy Gradient)

    [李宏毅]强化学习笔记(一) 什么是强化学习 监督学习 VS. 强化学习 AlphaGo Chat-bot Outline 1. Policy-based Approach:Learning an A ...

  5. 强化学习(4):策略梯度Policy Gradient算法

    本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成 终于到Policy Gradient方法了! 一.引言 reinforcement le ...

  6. 强化学习PPO从理论到代码详解(1)--- 策略梯度Policy gradient

    第0章 闲聊吹水 Proximal Policy Optimization(PPO) 近端策略优化,可以说是目前最稳定,最强的强化学习算法之一了,也是openAI默认的强化学习算法,有多叼不用我说了吧 ...

  7. 7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法

    前6篇我们都是估计动作值函数Q,从而可以根据估计的Q值选择相应的动作.但是这样的值函数(Value Based)估计方法有着一定的限制.第一,值函数估计方法最后得到的策略是固定策略,不能应对最优策略是 ...

  8. 【强化学习】Deep Deterministic Policy Gradient(DDPG)算法详解

    1 DDPG简介 DDPG吸收了Actor-Critic让Policy Gradient 单步更新的精华,而且还吸收让计算机学会玩游戏的DQN的精华,合并成了一种新算法,叫做Deep Deterini ...

  9. 【强化学习】策略梯度Policy-Gradient

    目录 Value-based 强化学习方法的不足 Policy-based 强化学习方法的引入 策略梯度的优化目标 策略函数的设计 Softmax策略函数 Gauss策略函数 蒙特卡罗策略梯度rein ...

最新文章

  1. python3 入门 (四) 类与继承
  2. Kotlin 中infix,inline,noinline,crossinline ,refied 等的理解
  3. VC++2013出现bug: 无法打开源文件“stdafx.h”
  4. vuejs 指令封装 button 加载效果_这些Vue自定义指令,让你的项目开发爽到爆
  5. 群辉安装失败 找不到服务器,synology NAS 存储安装DSM的方法
  6. Unity Shader: 优化GPU代码--用step()代替if else等条件语句。
  7. 2019.03.25 bzoj4572: [Scoi2016]围棋(轮廓线dp)
  8. IOS学习之斯坦福大学IOS开发课程笔记(第六课)
  9. C#/ASP.NET MVC微信公众号接口开发之从零开发(三)回复消息 (附源码)
  10. 【优化预测】基于matlab天牛须算法优化BP神经网络预测【含Matlab源码 1318期】
  11. 一个股票软件开发了三年的人如何画制iOS k线图
  12. Hive—日期格式使用总结
  13. 气血瘀滞热入血室闭经案
  14. Mybatis数据库表字段有关键字
  15. 【Excel】提取中/英文字符
  16. 而洗洁精膜会有效地保持玻璃2小时内不结霜
  17. ppt中的面积显示图表中有数据被盖住了显示不出来_关于PPT图表的用法,看这一篇就够了...
  18. 读书/看电影/看电视剧
  19. 两种方式登录QQ空间提取SKEYamp;P_skey源码
  20. 微众银行张开翔: FISCO BCOS - 开放的区块链实践之道 | 11月25日【区块链技术与实践】论坛...

热门文章

  1. BCGControlBar菜单编程方法详解
  2. SilverLight学习笔记--如何在xaml文件中操作用户在后台代码定义的类(2)--示例篇:创建一个登录控件(原创)(转载本文请注明出处)...
  3. 理解Windows中的路由表和默认网关
  4. RHEL5系列之三:GNOME桌面的简单管理应用(1)
  5. 基坑监测日报模板_长沙一工地基坑坍塌致2人死亡!基坑坍塌的瞬间,只有无能为力和惊心动魄!...
  6. Linux开发中 MD5值的计算
  7. android开发应用知识,Android应用开发经常使用知识
  8. python爬取qq音乐周杰伦_Python爬取20万条评论,告诉你周杰伦为啥弄崩QQ音乐?
  9. 华南师范大学计算机学院调剂,华南师范大学计算机学院继续接受硕士研究生调剂...
  10. hbase java 端口_HBase远程Java客户端尝试通过随机端口进行身份验证