强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）

1. 动作空间
- 1.1 离散动作空间
- 1.2 连续动作空间
2. 确定策略梯度做连续控制
- 2.1 确定策略梯度推导
- 2.2 确定策略梯度网络的改进
- - 2.2.1 使用Target网络
  - 2.2.2 其余改进
- 2.3 总结
3. 随机策略网络进行连续控制
- 3.1 基本概念
- 3.2 策略网络
- - 3.2.1 自由度为1的连续动作空间
  - 3.2.2 自由度大于1（为ddd）的连续动作空间
  - 3.2.3 函数近似
  - 3.2.4 连续控制策略
  - 3.2.5 添加辅助神经网络
  - 3.2.6 状态价值函数的近似
4 总结

1. 动作空间

1.1 离散动作空间

比如:{left,right,up}\{left,right,up\}{left,right,up}
DQN可以用于离散的动作空间（策略网络）

1.2 连续动作空间

比如：A=[0∘，180∘]∗[0∘,360∘]A=[0^{\circ} ，180^{\circ} ]*[0^{\circ} ,360^{\circ} ]A=[0∘，180∘]∗[0∘,360∘]
连续动作空间的两种处理方式：

离散化（discretization）：比如机械臂进行二维网格划分。假设d为连续动作空间的自由度，动作离散化后的数量会随着d的增加呈现指数增长，从而造成维度灾难。
使用确定策略梯度。
使用随机策略梯度。

2. 确定策略梯度做连续控制

动作空间为RdR^dRd的一个子集

2.1 确定策略梯度推导

确定策略网络：a=π(s;θ)a = \pi(s;\theta)a=π(s;θ)
价值网络(输出为一个标量)：q(s,a;W)q(s,a;W)q(s,a;W)
网络学习过程为：

观测到一个transition：(st,at,rt,st+1)(s_t,a_t,r_t,s_{t+1})(st,at,rt,st+1)
计算t时刻价值网络的函数值:qt=q(st,at;W)q_t = q(s_t,a_t;W)qt=q(st,at;W)
计算t+1时刻价值网络的函数值：at+1−=π(st+1;θ)qt+1=q(st+1,at+1−;W)a_{t+1}^-=\pi(s_{t+1};\theta)\\q_{t+1}=q(s_{t+1},a_{t+1}^-;W)at+1−=π(st+1;θ)qt+1=q(st+1,at+1−;W)
TD Error为：δt=qt−(rt+γ⋅qt+1)\delta_t=q_t-(r_t+\gamma\cdot q_{t+1})δt=qt−(rt+γ⋅qt+1)
更新价值网络：W←W−α⋅∂q(st,at;W)∂WW\gets W-\alpha\cdot\frac{\partial q(s_t,a_t;W)}{\partial W}W←W−α⋅∂W∂q(st,at;W)
更新策略网络所需的策略梯度推导：策略网络的目标为通过策略网络a=π(s;θ)做出的决策可以增加价值网络q=q(s,a;W)的值。因此确定策略梯度（deterministicpolicygradient，DPG）为：g=∂q(s,π(s;θ);W)∂θ=∂q(s.π(s;θ);W)∂π(s;θ)⋅∂π(s;θ)∂θ策略网络的目标为通过策略网络a=\pi(s;\theta)\\做出的决策可以增加价值网络q=q(s,a;W)的值。\\ 因此确定策略梯度（deterministic policy gradient， DPG）为：\\ g=\frac{\partial q(s,\pi(s;\theta);W)}{\partial \theta}=\frac{\partial q(s.\pi(s;\theta);W)}{\partial \pi(s;\theta)}\cdot \frac{\partial \pi(s;\theta)}{\partial \theta}策略网络的目标为通过策略网络a=π(s;θ)做出的决策可以增加价值网络q=q(s,a;W)的值。因此确定策略梯度（deterministicpolicygradient，DPG）为：g=∂θ∂q(s,π(s;θ);W)=∂π(s;θ)∂q(s.π(s;θ);W)⋅∂θ∂π(s;θ)
依据确定策略梯度进行策略网络参数更新：g=∂q(s,π(s;θ);W)∂θ=∂q(s.π(s;θ);W)∂π(s;θ)⋅∂π(s;θ)∂θθ←θ+β⋅gg=\frac{\partial q(s,\pi(s;\theta);W)}{\partial \theta}=\frac{\partial q(s.\pi(s;\theta);W)}{\partial \pi(s;\theta)}\cdot \frac{\partial \pi(s;\theta)}{\partial \theta}\\ \theta\gets \theta+\beta\cdot gg=∂θ∂q(s,π(s;θ);W)=∂π(s;θ)∂q(s.π(s;θ);W)⋅∂θ∂π(s;θ)θ←θ+β⋅g

2.2 确定策略梯度网络的改进

2.2.1 使用Target网络

Bootstrapping现象：

TD Target为：δt=qt−(rt+γ⋅qt−1)\delta_t =q_t-(r_t+\gamma\cdot q_{t-1})δt=qt−(rt+γ⋅qt−1)
价值网络使用到了自己的估计来更新自己，因而会造成连续高估或低估
解决方案为：使用不同的神经网络来进行TD Target计算

Target网络的核心思想：

使用价值网络计算ttt时刻的价值函数值:qt=q(st,at;W)q_t = q(s_t,a_t;W)qt=q(st,at;W)
使用另外两个结构与价值网络和策略网络一致的神经网络计算t+1时刻的价值函数值和动作向量：at+1−=π(st+1;θ−)qt+1=q(st+1,at+1−;W−)a_{t+1}^-=\pi(s_{t+1};\theta^-)\\q_{t+1}=q(s_{t+1},a_{t+1}^-;W^-)at+1−=π(st+1;θ−)qt+1=q(st+1,at+1−;W−)

采用Target网络的具体学习步骤为：

策略网络进行决策：at=π(st;θ)a_t=\pi(s_t;\theta)at=π(st;θ)
采用确定策略梯度（DPG）更新策略网络:θ←θ+β⋅∂q(st,π(st;θ);W)∂π(st;θ)⋅∂π(st;θ)∂θ\theta\gets \theta+\beta\cdot \frac{\partial q(s_t,\pi(s_t;\theta);W)}{\partial \pi(s_t;\theta)}\cdot \frac{\partial \pi(s_t;\theta)}{\partial \theta}θ←θ+β⋅∂π(st;θ)∂q(st,π(st;θ);W)⋅∂θ∂π(st;θ)
计算t时刻的价值网络函数值：qt=q(st,at;W)q_t=q(s_t,a_t;W)qt=q(st,at;W)
使用Target网络计算t+1时刻的价值：at+1−=π(st+1;θ−)qt+1=q(st+1,at+1−;W−)a_{t+1}^-=\pi(s_{t+1};\theta^-)\\q_{t+1}=q(s_{t+1},a_{t+1}^-;W^-)at+1−=π(st+1;θ−)qt+1=q(st+1,at+1−;W−)
计算TD Error：δt=qt−(rt+γ⋅qt+1)\delta_t=q_t-(r_t+\gamma \cdot q_{t+1})δt=qt−(rt+γ⋅qt+1)
更新价值网络的参数：W←W−α⋅δt⋅∂q(st,at;W)∂WW\gets W-\alpha\cdot \delta_t \cdot \frac{\partial q(s_t,a_t;W)}{\partial W}W←W−α⋅δt⋅∂W∂q(st,at;W)

Target 网络的参数更新步骤为：

设定超参数τ∈[0,1]\tau \in [0,1]τ∈[0,1]
将价值网络、策略网络与Target网络的参数进行加权平均，从而实现参数更新：θ−=τ⋅θ+(1−τ)⋅θ−W−=τ⋅W+(1−τ)⋅W−\theta^- = \tau\cdot\theta+(1-\tau)\cdot \theta^-\\W^-=\tau\cdot W+(1-\tau)\cdot W^-θ−=τ⋅θ+(1−τ)⋅θ−W−=τ⋅W+(1−τ)⋅W−

2.2.2 其余改进

经验回放（experience replay）
Multi-step TD Target

2.3 总结

/	随机策略网络	确定性策略网络
策略函数	π(a∣,s;θ)\pi(a\|,s;\theta)π(a∣,s;θ)	a=π(s;θ)a = \pi(s;\theta)a=π(s;θ)
输出	动作空间的概率分布	确定的动作 aaa
决策方式	根据动作空间的概率分布进行随机抽样	直接输出一个动作aaa
应用场景	多用于离散控制	连续控制

3. 随机策略网络进行连续控制

3.1 基本概念

折扣回报：Ut=Rt+γ⋅Rt+1+γ2⋅Rt+2+...U_t = R_t+\gamma\cdot R_{t+1}+\gamma^2\cdot R_{t+2}+...Ut=Rt+γ⋅Rt+1+γ2⋅Rt+2+...
动作价值函数：Qπ(st,at)=E[Ut∣St=st,At=at]Q_\pi(s_t,a_t)=E[U_t|S_t=s_t,A_t=a_t]Qπ(st,at)=E[Ut∣St=st,At=at]
状态价值函数：Vπ(st)=EAt[Qπ(st,At)]V_\pi(s_t)=E_{A_t}[Q_\pi(s_t,A_t)]Vπ(st)=EAt[Qπ(st,At)]
策略梯度：∂Vπ(st)∂θ=EAt∼π[Qπ(st,At)⋅∂log(π(At∣st;θ))∂θ]g(At)=Qπ(st,At)⋅∂log(π(At∣st;θ))∂θ\frac{\partial V_\pi(s_t)}{\partial \theta}=E_{A_t\sim \pi}[Q_\pi(s_t,A_t)\cdot\frac{\partial log(\pi(A_t|s_t;\theta))}{\partial \theta}]\\g(A_t)=Q_\pi(s_t,A_t)\cdot\frac{\partial log(\pi(A_t|s_t;\theta))}{\partial \theta}∂θ∂Vπ(st)=EAt∼π[Qπ(st,At)⋅∂θ∂log(π(At∣st;θ))]g(At)=Qπ(st,At)⋅∂θ∂log(π(At∣st;θ))
进行蒙特卡洛近似后的策略梯度为：at∼π(⋅∣st;θ)g(at)=Qπ(st,at)⋅∂log(π(at∣st;θ))∂θa_t\sim\pi(\cdot|s_t;\theta)\\g(a_t)=Q_\pi(s_t,a_t)\cdot\frac{\partial log(\pi(a_t|s_t;\theta))}{\partial \theta}at∼π(⋅∣st;θ)g(at)=Qπ(st,at)⋅∂θ∂log(π(at∣st;θ))

3.2 策略网络

3.2.1 自由度为1的连续动作空间

假设μ\muμ和σ\sigmaσ为状态sss的函数
假设策略函数为正态分布的概率密度函数：π(a∣s)=12π⋅σe−(a−μ)22σ2\pi(a|s)=\frac{1}{\sqrt{2\pi}\cdot\sigma}e^{-\frac{(a-\mu)^2}{2\sigma^2}}π(a∣s)=2π⋅σ1e−2σ2(a−μ)2

3.2.2 自由度大于1（为ddd）的连续动作空间

动作空间为d维向量
μ\muμ和σ\sigmaσ为状态sss的函数：s→Rds\to R^ds→Rd
μi\mu_iμi和σi\sigma_iσi为μ(s)\mu(s)μ(s)和σ(s)\sigma(s)σ(s)的第iii个元素
则定义策略函数为：π(a∣s)=Πi=1d12π⋅σie−(a−μi)22σi2\pi(a|s)=\Pi_{i=1}^d \frac{1}{\sqrt{2\pi}\cdot\sigma_i}e^{-\frac{(a-\mu_i)^2}{2\sigma_i^2}}π(a∣s)=Πi=1d2π⋅σi1e−2σi2(a−μi)2

3.2.3 函数近似

对均值的近似：μ(s)←μ(s;θμ)\mu(s)\gets \mu(s;\theta^\mu)μ(s)←μ(s;θμ)
对方差的对数进行近似：ρi=log(σi2)i=1,2,...,dρ←ρ(s;θρ)\rho_i = log(\sigma_i^2) \quad i = 1,2,...,d\\\rho\gets \rho(s;\theta^\rho)ρi=log(σi2)i=1,2,...,dρ←ρ(s;θρ)

3.2.4 连续控制策略

观测到状态sts_tst
通过神经网络计算均值和方差：μ^=μ(st;θ)ρ^=ρ(st;θ)σi^2=eρii=1,2,...,d\hat{\mu}=\mu(s_t;\theta)\\\hat{\rho}=\rho(s_t;\theta)\\\hat{\sigma_i}^2=e^{\rho_i} \quad i = 1,2,...,dμ^=μ(st;θ)ρ^=ρ(st;θ)σi^2=eρii=1,2,...,d
进行随机抽样得到动作aaa:ai∼N(ui^,σi^2)i=1,2,...,da_i\sim N(\hat{u_i},\hat{\sigma_i}^2)\quad i = 1,2,...,dai∼N(ui^,σi^2)i=1,2,...,d

3.2.5 添加辅助神经网络

策略网络为：π(a∣s;θμ,θρ)=Πi=1d12π⋅σi⋅e−(a−μi)22σi2log(π(a∣s;θμ,θρ))=∑i=1d[−log(σi)−(a−μi)22σi2]+constlog(π(a∣s;θμ,θρ))=∑i=1d[−ρi2−(a−μi)22⋅eρi]+constlog⁡(π(a∣s;θμ,θρ))=f(s,a;θ)θ=(θμ,θρ)\pi(a|s;\theta^\mu,\theta^\rho)=\Pi_{i=1}^d\frac{1}{\sqrt{2\pi}\cdot\sigma_i}\cdot e^{-\frac{(a-\mu_i)^2}{2\sigma_i^2}} \\ log(\pi(a|s;\theta^\mu,\theta^\rho))=\sum_{i=1}^d[-log(\sigma_i)-\frac{(a-\mu_i)^2}{2\sigma_i^2}]+const\\log(\pi(a|s;\theta^\mu,\theta^\rho))=\sum_{i=1}^d[-\frac{\rho_i}{2}-\frac{(a-\mu_i)^2}{2\cdot e^{\rho_i}}]+const\\\log(\pi(a|s;\theta^\mu,\theta^\rho))=f(s,a;\theta)\quad \theta=(\theta^\mu,\theta^\rho)π(a∣s;θμ,θρ)=Πi=1d2π⋅σi1⋅e−2σi2(a−μi)2log(π(a∣s;θμ,θρ))=i=1∑d[−log(σi)−2σi2(a−μi)2]+constlog(π(a∣s;θμ,θρ))=i=1∑d[−2ρi−2⋅eρi(a−μi)2]+constlog(π(a∣s;θμ,θρ))=f(s,a;θ)θ=(θμ,θρ)
定义上述的f(s,a;θ)f(s,a;\theta)f(s,a;θ)为辅助神经网络，则得到三个神经网络：μ(s;θμ)正态分布的均值ρ(s;θρ)正态分布的对数方差f(s,a;θ)辅助神经网络用于训练策略神经网络\mu(s;\theta^\mu)\quad 正态分布的均值\\\rho(s;\theta^\rho)\quad正态分布的对数方差\\f(s,a;\theta)\quad 辅助神经网络用于训练策略神经网络μ(s;θμ)正态分布的均值ρ(s;θρ)正态分布的对数方差f(s,a;θ)辅助神经网络用于训练策略神经网络
随机策略梯度为：g(a)=∂log(π(a∣s;θ))∂θ⋅Qπ(s,a)f(s,a;θ)=log(π(a∣s;θ))+constg(a)=∂f(s,a;θ)∂θ⋅Qπ(s,a)g(a )= \frac{\partial log(\pi(a|s;\theta))}{\partial \theta}\cdot Q_\pi(s,a)\\ f(s,a;\theta)=log(\pi(a|s;\theta))+const\\g(a )=\frac{\partial f(s,a;\theta)}{\partial \theta}\cdot Q_\pi(s,a)g(a)=∂θ∂log(π(a∣s;θ))⋅Qπ(s,a)f(s,a;θ)=log(π(a∣s;θ))+constg(a)=∂θ∂f(s,a;θ)⋅Qπ(s,a)

3.2.6 状态价值函数的近似

使用reinforce算法:ut=rt+γ⋅rt+1+...θ←θ+β⋅∂f(s,a;θ)∂θ⋅utu_t = r_t+\gamma\cdot r_{t+1}+...\\\theta\gets\theta+\beta\cdot\frac{\partial f(s,a;\theta)}{\partial \theta}\cdot u_tut=rt+γ⋅rt+1+...θ←θ+β⋅∂θ∂f(s,a;θ)⋅ut
使用 A-C算法：Qπ∼q(s,a;W)θ←θ+β⋅∂f(s,a;θ)∂θ⋅q(s,a;W)Q_\pi\sim q(s,a;W)\\\theta\gets\theta+\beta\cdot\frac{\partial f(s,a;\theta)}{\partial \theta}\cdot q(s,a;W)Qπ∼q(s,a;W)θ←θ+β⋅∂θ∂f(s,a;θ)⋅q(s,a;W)

4 总结

连续动作空间有无穷多种动作数量
解决方案包括：

离散动作空间，使用标准DQN或者策略网络进行学习，但是容易引起维度灾难
使用确定策略网络进行学习（但没有随机性）
随即策略网络（μ与σ2\mu与\sigma^2μ与σ2）

训练过程的技巧：

构造辅助神经网络f(s,a;θ)f(s,a;\theta)f(s,a;θ)计算策略梯度
策略梯度近似算法包括：reinforce、Actor-Critic算法
可以改进reinforce算法，使用带有baseline的reinforce算法
可以改进Actor-Critic算法，使用A2C算法

本文内容为参考B站学习视频书写的笔记！

时间是贼
偷走一切
————五月天（如烟）————

by CyrusMay 2022 04 13

强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）相关推荐

从零实践强化学习之连续动作空间上求解RL(PARL)
回顾这五节课的内容,其实可以分成四大内容: 离散状态空间连续状态空间离散动作空间连续状态空间最后一节课的主要内容就是学习用强化学习来求解连续状态空间的问题连续动作空间连续动作和离散动作是一 ...
深化学习（RL）概念应用以及基于表格型、神经网络型、策略梯度、连续动作空间求解RL
深化学习(RL)概念应用以及基于表格型.神经网络型.策略梯度.连续动作空间求解RL 目录一.概念以及应用二.基于表格型求解RL--Sarsa和learning 表格型方法--Sarsa 1. Sa ...
【机器学习】带你轻松理解什么是强化学习中的状态动作函数？
系列文章目录第十八章 Python 机器学习入门之强化学习目录系列文章目录前言一.状态动作函数的定义二.直观理解三.将状态动作函数与回报和策略联系起来总结前言强化学习中的状态动作函 ...
强化学习经典算法笔记(十四)：双延迟深度确定性策略梯度算法TD3的PyTorch实现
强化学习经典算法笔记(十四):双延迟深度确定性策略梯度算法TD3的PyTorch实现 TD3算法简介 TD3是Twin Delayed Deep Deterministic policy gradie ...
强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业
1. 离散动作 vs 连续动作个人理解: 离散:可数(整数表示的) 连续:不可数(小数/浮点数表示的) 2. DDPG 这里一共有四个网络,Q网络以及它的target_Q网络,策略网络以及它的tar ...
强化学习——离散任务—Qlearning数字迷宫问题
任务概述: 数字迷宫任务,如下表所示,4.9.11.12.23.24.25是陷阱,15是出口,出生点位置任意,学习求生之路(达到15位置) 1 2 3 4(F) 5 6 7 8 9(F) 10 11( ...
强化学习为 OpenAI 和 Microsoft 创建了有效的防御策略，拓宽了 ChatGPT 的护城河
在这篇博客中,我将回顾使用强化学习 (RL) 创建和改进大型语言模型(例如 ChatGPT)的过程.然后,我将展示 OpenAI 和 Microsoft 如何使用 RL 来防止竞争对手在生成 AI 市 ...
中科院自动化所介绍深度强化学习进展：从AlphaGo到AlphaGo Zero
来源:德先生概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展: 从AlphaGo ...
强化学习纲要（周博磊课程）
提示:阅读本文需要一定的深度学习基础. 课程链接:https://www.bilibili.com/video/BV1LE411G7Xj 我以前的强化学习笔记,相同的内容在下面就不再赘述: 1.强化学 ...

强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）

强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）

1. 动作空间

1.1 离散动作空间

1.2 连续动作空间

2. 确定策略梯度做连续控制

2.1 确定策略梯度推导

2.2 确定策略梯度网络的改进

2.2.1 使用Target网络

2.2.2 其余改进

2.3 总结

3. 随机策略网络进行连续控制

3.1 基本概念

3.2 策略网络

3.2.1 自由度为1的连续动作空间

3.2.2 自由度大于1（为ddd）的连续动作空间

3.2.3 函数近似

3.2.4 连续控制策略

3.2.5 添加辅助神经网络

3.2.6 状态价值函数的近似

4 总结

强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）相关推荐

最新文章

热门文章