深度强化学习之近端策略优化（Proximal Policy Optimization)

今天学习了李宏毅老师的深度强化学习课程—策略梯度和近端策略优化，其中近端策略优化是策略梯度的升级版本，并且是openai的默认强化学习算法，可见其重要性。近端策略优化可以在策略梯度的基础上，将在策略变为离策略变，并添加一定的约束得到，因此本部分内容包括策略梯度、在策略变离策略和添加约束三部分内容。

策略梯度方法是对策略参数化，然后通过梯度下降的方法对参数进行优化，从最大化期望累积奖励出发，推导得到参数的更新公式，针对公式中存在的不足，给出了两种改进方式：添加基准和为每个动作分配合适置信度，并定义了优势函数。

在策略变离策略
在策略：待学习的代理与和环境交互的代理是相同的。
离策略：两者是不同的。
在策略方式下，当策略参数得以更新时，需要重新采样训练数据，而将在策略变为离策略的好处在于，可以使用另一个策略的样本训练当前策略，而那个策略是固定的，因而可以重用这些样本数据。这里用到了重要度采样的概念，但重要度采样也可能存在问题，需要保证两个策略之间不能差别太大。最后给出了离策略下的目标函数。

为了满足上述的要求，需要在目标函数中额外添加约束，根据添加的约束方式不同，可以有两种算法：PPO(Proximal Policy Optimization)和TPRO(Trust Region Policy Optimization)。

深度强化学习之近端策略优化（Proximal Policy Optimization)相关推荐

【强化学习笔记】策略梯度（Policy Gradient）
文章目录 1.基本元素 2.游戏示例 3.基本概念 3.1.回合(episode) 3.2.总奖励(Total Reward) 3.3.轨迹(Trajectory) 3.4.奖励期望(Expected ...
基于近端策略优化的阻变存储硬件加速器自动量化
摘要卷积神经网络在诸多领域已经取得超出人类的成绩.但是,随着模型存储开销和计算复杂性的不断增加,限制处理单元和内存单元之间数据交换的"内存墙"问题阻碍了其在诸如边缘计算和物联网 ...
多Agent 深度强化学习综述
多Agent 深度强化学习综述人工智能技术与咨询来源:<自动化学报>,作者梁星星等摘要近年来,深度强化学习(Deep reinforcement learning,DRL) 在诸 ...
【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient
[李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...
深度强化学习8：Imitation Learning
[李宏毅深度强化学习笔记]8.Imitation Learning qqqeeevvv 2020-01-30 18:18:16 3344 收藏 4 分类专栏: 强化学习 # 理论知识 </div ...
【李宏毅深度强化学习笔记】3、Q-learning（Basic Idea）
[李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...
【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)
[李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...
中科院自动化所介绍深度强化学习进展：从AlphaGo到AlphaGo Zero
来源:德先生概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展: 从AlphaGo ...
ChatGPT 使用强化学习：Proximal Policy Optimization算法（详细图解）
ChatGPT 使用强化学习:Proximal Policy Optimization算法强化学习中的PPO(Proximal Policy Optimization)算法是一种高效的策略优化方法 ...
近端策略优化算法(PPO)
策略梯度算法(PG) 策略梯度迭代,通过计算策略梯度的估计,并利用随机梯度上升算法进行迭代.其常用的梯度估计形式为: E^t[∇θlogπθ(at∣st)A^t]\hat{\mathbb{E}}_t[ ...

深度强化学习之近端策略优化（Proximal Policy Optimization)

深度强化学习之近端策略优化（Proximal Policy Optimization)相关推荐

最新文章

热门文章