1 算法的优缺点

　1.1　优点

　　在DQN算法中，神经网络输出的是动作的q值，这对于一个agent拥有少数的离散的动作还是可以的。但是如果某个agent的动作是连续的，这无疑对DQN算法是一个巨大的挑战，为了解决这个问题，前辈们将基于值的方法改成了基于策略的方法，即输出动作的概率。

　1.2　缺点

　　策略梯度算法应用未来损失的return作为更新迭代的依据，即在一个回合过后，在这一回合中，若执行的某一动作的动作价值R大，则会加在下一回合选择这一动作的概率，反之，若执行的某一动作的动作价值R小，则会在下一回合选择这一动作的概率减小。因此，要想用return做为预测动作概率的神经网络更新的依据，就必须先拥有一个决策链，才能将return计算出来，因此每一个更新是在一个回合结束后才能更新一个。更新的速率比较慢

2 算法的流程

　2.1 算法的整体逻辑

　2.2　算法的更新逻辑

转载于:https://www.cnblogs.com/swenwen/p/10722851.html

强化学习算法Policy Gradient相关推荐

【强化学习】Policy Gradient算法详解
DeepMind公开课https://sites.google.com/view/deep-rl-bootcamp/lectures David Silver教程 http://www0.cs.ucl ...
Lee Hung-yi强化学习 | (1) Policy Gradient
Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址课程视频课件 1. 回顾在强化学习中,主要有三个部件(components):actor.envi ...
强化学习6——policy gradient的变种State of the Art
policy-base SOTA 学习周博雷老师课程总结 Natural Policy Gradient 为了改善PG算法的不稳定的缺点(如果更新到一个bad policy,就会采集到的一个坏的数据集 ...
【强化学习】Policy Gradient原理
1.Policy Gradient和DQN系列强化算法最大的区别在于: DQN系列基于Value,也就是说执行完所有的动作并保存所得到的价值,根据这些价值计算出最优价值函数,并以此选择动作,最终获得一 ...
强化学习-Vanilla Policy Gradient(VPG)
文章目录 Background Quick Facts Key Equations Exploration vs. Exploitation Pseudocode Documentation Refe ...
强化学习6——policy gradient的优化（ Use temporal causality，Baseline and Critic）
policy gradient的优化听周博雷教授的课程有感为什么优化因为基于MC policy gradient的优化,方差较大方法1: Use temporal causality 使用时序 ...
目前最好用的大规模强化学习算法训练库是什么？
点击蓝字关注我们本文整理自知乎问答,仅用于学术分享,著作权归作者所有.如有侵权,请联系后台作删文处理. 本文精选知乎问题"目前最好用的大规模强化学习算法训练库是什么?"评论区 ...
强化学习算法：AC系列详解
文章目录 AC A2C A3C References AC Actor-Critic算法分为两部分,actor的前身是policy gradient,它可以轻松地在连续动作空间内选择合适的动作,val ...
MATLAB强化学习实战(十二) 创建自定义强化学习算法的智能体
创建自定义强化学习算法的智能体创建环境定义策略自定义智能体类智能体属性构造函数相关函数可选功能创建自定义智能体训练自定义智能体自定义智能体仿真本示例说明如何为您自己的自定义强化学 ...

强化学习算法Policy Gradient

1 算法的优缺点

1.1　优点

1.2　缺点

2 算法的流程

2.1 算法的整体逻辑

2.2　算法的更新逻辑

强化学习算法Policy Gradient相关推荐

最新文章

热门文章

强化学习算法Policy Gradient

1 算法的优缺点

1.1 优点

1.2 缺点

2 算法的流程

2.1 算法的整体逻辑

2.2 算法的更新逻辑

强化学习算法Policy Gradient相关推荐

最新文章

热门文章

　1.1　优点

　1.2　缺点

　2.1 算法的整体逻辑

　2.2　算法的更新逻辑