在前面讲到的DQN系列强化学习算法中，我们主要对价值函数进行了近似表示，基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用，但是Value Based强化学习方法也有很多局限性，因此在另一些场景下我们需要其他的方法，比如本篇讨论的策略梯度(Policy Gradient)，它是Policy Based强化学习方法，基于策略来学习。

　　　　本文参考了Sutton的强化学习书第13章和策略梯度的论文。

1. Value Based强化学习方法的不足

　　　　DQN系列强化学习算法主要的问题主要有三点。

　　　　第一点是对连续动作的处理能力不足。DQN之类的方法一般都是只处理离散动作，无法处理连续动作。虽然有NAF DQN之类的变通方法，但是并不优雅。比如我们之前提到的经典的冰球世界(PuckWorld) 强化学习问题，具体的动态demo见这里。环境由一个正方形区域构成代表着冰球场地，场地内大的圆代表着运动员个体，小圆代表着目标冰球。在这个正方形环境中，小圆会每隔一定的时间随机改变在场地的位置，而代表个体的大圆的任务就是尽可能快的接近冰球目标。大圆可以操作的行为是在水平和竖直共四个方向上施加一个时间乘时长的力，借此来改变大圆的速度。假如此时这个力的大小和方向是可以灵活选择的，那么使用普通的DQN之类的算法就不好做了。因为此时策略是一个有具体值有方向的力，我们可以把这个力在水平和垂直方向分解。那么这个力就是两个连续的向量组成，这个策略使用离散的方式是不好表达的&#x

强化学习(十三) 策略梯度(Policy Gradient)相关推荐

【深度强化学习】策略梯度 Policy Gradients
文章目录前言 values 和 policy 策略的表示策略梯度 REINFORCE method 实例:CartPole 前言重读<Deep Reinforcemnet Learning ...
系统学习深度学习（三十五）--策略梯度(Policy Gradient)
转自:https://www.cnblogs.com/pinard/p/10137696.html 在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习.这种Valu ...
强化学习（Reinforcement Learning）之策略梯度(Policy Gradient)的一点点理解以及代码的对应解释
一.策略梯度算法推导以及解释 1.1 背景设πθ(s)\pi_{\theta }(s)πθ(s)是一个有网络参数θ\thetaθ的actor,然后我们让这个actor和环境(environment ...
【7】强化学习之策略梯度（Policy Gradient）
[李宏毅]强化学习笔记(一) 什么是强化学习监督学习 VS. 强化学习 AlphaGo Chat-bot Outline 1. Policy-based Approach:Learning an A ...
强化学习(4)：策略梯度Policy Gradient算法
本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成终于到Policy Gradient方法了! 一.引言 reinforcement le ...
强化学习PPO从理论到代码详解(1)--- 策略梯度Policy gradient
第0章闲聊吹水 Proximal Policy Optimization(PPO) 近端策略优化,可以说是目前最稳定,最强的强化学习算法之一了,也是openAI默认的强化学习算法,有多叼不用我说了吧 ...
7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法
前6篇我们都是估计动作值函数Q,从而可以根据估计的Q值选择相应的动作.但是这样的值函数(Value Based)估计方法有着一定的限制.第一,值函数估计方法最后得到的策略是固定策略,不能应对最优策略是 ...
【强化学习】Deep Deterministic Policy Gradient(DDPG)算法详解
1 DDPG简介 DDPG吸收了Actor-Critic让Policy Gradient 单步更新的精华,而且还吸收让计算机学会玩游戏的DQN的精华,合并成了一种新算法,叫做Deep Deterini ...
【强化学习】策略梯度Policy-Gradient
目录 Value-based 强化学习方法的不足 Policy-based 强化学习方法的引入策略梯度的优化目标策略函数的设计 Softmax策略函数 Gauss策略函数蒙特卡罗策略梯度rein ...

强化学习(十三) 策略梯度(Policy Gradient)

1. Value Based强化学习方法的不足

强化学习(十三) 策略梯度(Policy Gradient)相关推荐

最新文章

热门文章