策略学习的意思是通过求解一个优化问题，学出最优策略函数 π ( a ∣ s ) \pi(a|s) π(a∣s)或它的近似函数（比如策略网络）。

一、策略网络

在 Atari 游戏、围棋等应用中，状态是张量（比如图片），那么应该如图 7.1 所示用卷积网络处理输入。在机器人控制等应用中，状态 s 是向量，它的元素是多个传感器的数值，那么应该把卷积网络换成全连接网络。

二、策略学习的目标函数

状态价值既依赖于当前状态 s t ，也依赖于策略网络 π 的参数 θ。
策略学习的目标函数

三、策略梯度定理

四、Actor-Critic

1.价值网络

Actor-critic 方法用一个神经网络近似动作价值函数 Q π ( s , a ) Q _π (s,a) Qπ(s,a)，这个神经网络叫做“价值网络”，记为 q ( s , a ; w ) q(s,a;\bf{w}) q(s,a;w)

注：区别DQN网络的区别：

2.Actor-critic

策略网络 π ( a ∣ s ; θ ) π(a|s;θ) π(a∣s;θ) 相当于演员，它基于状态 s做出动作 a。价值网络 q ( s , a ; w ) q(s,a;w) q(s,a;w) 相当于评委，它给演员的表现打分，评价在状态 s 的情况下做出动作 a 的好坏程度。

注：

训练策略网络（演员）需要的是回报 U，而不是奖励 R。价值网络（评委）能够估算出回报 U 的期望，因此能帮助训练策略网络（演员）。

（1）训练策略网络（演员）

然后做算法的更新：

（2）训练价值网络

用 SARSA算法更新 w w w，提高评委的水平。每次从环境中观测到一个奖励 r r r，把 r r r 看做是真相，用 r r r来校准评委的打分。

----------------------------------------------------------整体的训练步骤：----------------------------------------------------------

五、带基线的策略梯度方法

强化学习DRL--策略学习（Actor-Critic）相关推荐

强化学习3(策略学习)
策略学习前面已经学习过了策略函数 π ( a ∣ s ) \pi(a|s) π(a∣s),这是一个概率密度函数.只要有了一个好的策略函数,我们就可以根据策略函数自动控制智能体运动,所以下面我们就讨论 ...
强化学习论文笔记：Soft Actor Critic算法
Soft Actor Critic是伯克利大学团队在2018年的ICML(International Conference on Machine Learning)上发表的off-policy mod ...
【MATLAB强化学习工具箱】学习笔记--actor网络和critic网络的结果放在哪里？
原算例见 [MATLAB强化学习工具箱]学习笔记--在Simulink环境中训练智能体Create Simulink Environment and Train Agent_bear_miao的博客- ...
【强化学习笔记】2020 李宏毅强化学习课程笔记（PPO、Q-Learning、Actor + Critic、Sparse Reward、IRL）
前言如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 文章目录前言 Introduction Two Learning Mod ...
深度强化学习DRL训练指南和现存问题（D3QN（Dueling Double DQN））
目录参数 iteration episode epoch Batch_Size Experimence Replay Buffer经验回放缓存 Reward discount factor或gamm ...
强化学习（三）—— 策略学习（Policy-Based）及策略梯度（Policy Gradient）
强化学习(三)-- 策略学习(Policy-Based)及策略梯度(Policy Gradient) 1. 策略学习 2. 策略梯度 3. 案例 1. 策略学习 Policy Network 通过策略 ...
7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法
前6篇我们都是估计动作值函数Q,从而可以根据估计的Q值选择相应的动作.但是这样的值函数(Value Based)估计方法有着一定的限制.第一,值函数估计方法最后得到的策略是固定策略,不能应对最优策略是 ...
强化学习经典算法笔记(十九)：无监督策略学习算法Diversity Is All You Need
强化学习经典算法笔记19:无监督策略学习算法Diversity Is All You Need DIAYN核心要点模型定义目标函数的构造 DIAYN算法细节目标函数的优化 SAC的训练判别器的 ...
【深度强化学习】策略梯度 Policy Gradients
文章目录前言 values 和 policy 策略的表示策略梯度 REINFORCE method 实例:CartPole 前言重读<Deep Reinforcemnet Learning ...
强化学习动态规划策略评估策略改进策略迭代有模型无模型
目录一.动态规划 1.1核心思想 1.2异步动态规划二.策略评估与改进 2.1有模型学习与无模型学习 2.2策略评估 2.2.1输入 2.2.2输出 2.2.3迭代过程 2.3策略改进 2.3.1 ...

强化学习DRL--策略学习（Actor-Critic）

一、策略网络

二、策略学习的目标函数

三、策略梯度定理

四、Actor-Critic

1.价值网络

2.Actor-critic

（1）训练策略网络（演员）

（2）训练价值网络

五、带基线的策略梯度方法

强化学习DRL--策略学习（Actor-Critic）相关推荐

最新文章

热门文章

强化学习DRL--策略学习（Actor-Critic）

一、策略网络

二、 策略学习的目标函数

三、策略梯度定理

四、Actor-Critic

1.价值网络

2.Actor-critic

（1）训练策略网络（演员）

（2）训练价值网络

五、带基线的策略梯度方法

强化学习DRL--策略学习（Actor-Critic）相关推荐

最新文章

热门文章

二、策略学习的目标函数