1 算法的优缺点

 1.1 优点

  在DQN算法中,神经网络输出的是动作的q值,这对于一个agent拥有少数的离散的动作还是可以的。但是如果某个agent的动作是连续的,这无疑对DQN算法是一个巨大的挑战,为了解决这个问题,前辈们将基于值的方法改成了基于策略的方法,即输出动作的概率。

 1.2 缺点

  策略梯度算法应用未来损失的return作为更新迭代的依据,即在一个回合过后,在这一回合中,若执行的某一动作的动作价值R大,则会加在下一回合选择这一动作的概率,反之,若执行的某一动作的动作价值R小,则会在下一回合选择这一动作的概率减小。因此,要想用return做为预测动作概率的神经网络更新的依据,就必须先拥有一个决策链,才能将return计算出来,因此每一个更新是在一个回合结束后才能更新一个。更新的速率比较慢

2 算法的流程

 2.1 算法的整体逻辑

 2.2 算法的更新逻辑

转载于:https://www.cnblogs.com/swenwen/p/10722851.html

强化学习算法Policy Gradient相关推荐

  1. 【强化学习】Policy Gradient算法详解

    DeepMind公开课https://sites.google.com/view/deep-rl-bootcamp/lectures David Silver教程 http://www0.cs.ucl ...

  2. Lee Hung-yi强化学习 | (1) Policy Gradient

    Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址 课程视频 课件 1. 回顾 在强化学习中,主要有三个部件(components):actor.envi ...

  3. 强化学习6——policy gradient的变种State of the Art

    policy-base SOTA 学习周博雷老师课程总结 Natural Policy Gradient 为了改善PG算法的不稳定的缺点(如果更新到一个bad policy,就会采集到的一个坏的数据集 ...

  4. 【强化学习】Policy Gradient原理

    1.Policy Gradient和DQN系列强化算法最大的区别在于: DQN系列基于Value,也就是说执行完所有的动作并保存所得到的价值,根据这些价值计算出最优价值函数,并以此选择动作,最终获得一 ...

  5. 强化学习-Vanilla Policy Gradient(VPG)

    文章目录 Background Quick Facts Key Equations Exploration vs. Exploitation Pseudocode Documentation Refe ...

  6. 强化学习6——policy gradient的优化( Use temporal causality,Baseline and Critic)

    policy gradient的优化 听周博雷教授的课程有感 为什么优化 因为基于MC policy gradient的优化,方差较大 方法1: Use temporal causality 使用时序 ...

  7. 目前最好用的大规模强化学习算法训练库是什么?

    点击蓝字  关注我们 本文整理自知乎问答,仅用于学术分享,著作权归作者所有.如有侵权,请联系后台作删文处理. 本文精选知乎问题"目前最好用的大规模强化学习算法训练库是什么?"评论区 ...

  8. 强化学习算法:AC系列详解

    文章目录 AC A2C A3C References AC Actor-Critic算法分为两部分,actor的前身是policy gradient,它可以轻松地在连续动作空间内选择合适的动作,val ...

  9. MATLAB强化学习实战(十二) 创建自定义强化学习算法的智能体

    创建自定义强化学习算法的智能体 创建环境 定义策略 自定义智能体类 智能体属性 构造函数 相关函数 可选功能 创建自定义智能体 训练自定义智能体 自定义智能体仿真 本示例说明如何为您自己的自定义强化学 ...

最新文章

  1. SQL Azure(十) SQL Azure Data Sync数据同步功能(上)
  2. rds 数据导入mysql_将数据导入到 Amazon RDS 数据库实例
  3. Dataset XML 序列化,什么是序列化
  4. 学python电脑要装什么_初学 Python 需要安装哪些软件?
  5. 【记录】PS立体透明字效果
  6. ThinkPHP V5.0 正式版发布
  7. 赛尔笔记 | 通用领域条件性知识图谱数据集
  8. 英语发音规则---U字母-[复习中]
  9. 测试:第二章 测试过程
  10. C语言项目源代码大全2021最新!
  11. Java全栈开发---Java ERP系统开发:商业ERP(十二)数据的导入导出(Excel)
  12. tableau高级绘图(十二)-tableau绘制辐射堆叠图
  13. MFC Windows 程序设计[253]之美丽的编辑搜索框(附源码)
  14. 机器学习之朴素贝叶斯算法详解
  15. VScode 的 code snippet 中可以使用的一些变量(时间,日期等)
  16. OPKG包管理系统详解!带你管理OpenWrt系统软件
  17. ArcGIS学习05:坐标系
  18. Linux write through 和write back
  19. 3月3 pytorch模型保存的.pt, .pth, .pkl的pytorch模型文件,只是后缀不同而已(仅此而已),打开方式
  20. 【docker知识】联合文件系统(unionFS)原理

热门文章

  1. MYSQL从节点延迟问题原因及解决
  2. Oracle性能误区--MTS,RAC,分区,并行查询
  3. SpringBoot依赖注入
  4. IP层:尽力交付,可能丢包,可能重包,可能无序
  5. JVM—垃圾回收与算法
  6. Bundle/Intent传递序列化参数暗藏杀机
  7. 像@Transactional一样利用注解自定义aop切片
  8. python生成器、迭代器、__call__、闭包简单说明
  9. greenPlum资源隔离
  10. rails 构建 API