近端策略优化深度强化学习算法

PPO：Proximal Policy Optimization Algorithms，其优化的核心目标是：

ppo paper

策略梯度

以下是马尔可夫决策过程MDP的相关基础以及强化学习的优化目标：

策略梯度Policy Gradoent的相关推导：

openai spinningup

重要性采样

通过从一个已知的分布中采样来估计另一个分布。在PPO中，π_old是π的一个近似分布，我们希望学习的策略π在π_old的基础上稳步学习，两者差距不能太大；于是我们从π_old的分布中采样，以π/π_old的作为权重。一个不严谨的理解是差值为0或比值为1都表示两个变量一致。我们的目的就是期望π在π_old的附近学习。

取R(τ)为优势函数At，可以从每个t为粒度来重新考查PG，在此基础上对π_old进行重要性采样，最终结果为：

KL散度

KL散度即两个分布的相对熵H_p(Q) - H(P)：使用不正确的分布Q代替真实分布P时所产生的额外代价。只有当两个分布一致时，KL散度为0，否则总是正的。在PPO中，KL散度用来衡量policy π与π_old的偏离程度，期望两者是接近的。

koller pgm

模型结构

当action是连续动作空间时，policy π网络学习的是分布的参数mean和vars；当是离散的时候，是其多项式分布。

与off-policy学习DQN的Target Network网络相似，包含一个策略“目标”网络π_old，在每次采集完数据即学习前，π网络把参数同步至π_old。

损失函数

policy π 网络和 Value网络是分开的，分别优化两个网络的目标函数。

π的目标函数：

ppo paper

注意优势函数A是基于π_old的。KL散度以惩罚项与优势函数加在一起，系数根据KL的大小调整。

Value的损失函数：一般的state Value残差即可。

openai spinningup

学习过程

可以通过多个actor实现并行采集数据，π_old指的是采集数据的policy，学习优化可以多次使用数据，但π_old不变。采样数据的action通过π_old的分布参数决定的分布上采样；优势函数可以是任何一种近似，比如TD Residual：R(s_t, a_t) + V(s_t+1) - V(s)。

ppo paper

总结

PPO是一种基于策略梯度优化的、面向连续或离散动作空间的on-policy深度强化学习算法。

近端策略优化深度强化学习算法相关推荐

【招聘推荐】启元世界招聘深度强化学习算法工程师
深度强化学习实验室官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑.排版:DeepRL 深度强化学习算法工程师 ...
17种深度强化学习算法用Pytorch实现（附链接）
来源:新智元本文约1300字,建议阅读5分钟. 本文为你介绍一个用PyTorch实现了17种深度强化学习算法的教程和代码库,帮助大家在实践中理解深度RL算法. [ 导读 ]深度强化学习已经在许多领域 ...
openssl 添加自定义算法_GitHub：用PyTorch实现17种深度强化学习算法
[新智元导读]深度强化学习已经在许多领域取得了瞩目的成就,并且仍是各大领域受热捧的方向之一.本文推荐一个用 PyTorch 实现了 17 种深度强化学习算法的教程和代码库,帮助大家在实践中理解深度 R ...
深度强化学习算法调参
深度强化学习调参技巧:以D3QN.TD3.PPO.SAC算法为例这个参考链接. 如何选择深度强化学习算法? 参考链接. 影响PPO算法性能的10个关键技巧(附PPO算法简洁Pytorch实现) 主要 ...
学界 | 量化深度强化学习算法的泛化能力
来源:AI 科技评论 OpenAI 近期发布了一个新的训练环境 CoinRun,它提供了一个度量智能体将其学习经验活学活用到新情况的能力指标,而且还可以解决一项长期存在于强化学习中的疑难问题--即使是 ...
基于值的深度强化学习算法
目录 DQN2013 -- Playing Atari with Deep Reinforcement Learning DQN2015 -- Human-level control through ...
【重磅】Tensorflow2.0实现29种深度强化学习算法大汇总
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要3分钟 Follow小博主,每天更新前沿干货来源:深度强化学习实验室作者:王健树 [导读]今天给大家推荐一个超赞的强化学习项目资料,该项目 ...
【假期学习计划】深度强化学习算法与应用培训班
深度强化学习应用与实战培训班内容一.强化学习概述二.马尔科夫决策过程 1.马尔可夫性 2.马尔可夫决策过程 3.策略与价值 4.最优化原理 5.MDPs扩展三.动态规划 1.动态规划 2.价值迭 ...
两种深度强化学习算法在网络调度上的应用与优化（DQN A3C）
首先给出论文地址和代码, Reinforcement Learning Based Scheduling Algorithm for Optimizing Age of Information in ...

近端策略优化深度强化学习算法

近端策略优化深度强化学习算法相关推荐

最新文章

热门文章