本文内容源自百度强化学习 7 日入门课程学习整理
感谢百度 PARL 团队李科浇老师的课程讲解

目录

1.on-policy与off-policy

2.Sarsa与Q-learing

3.Q-learing与环境的交互

3.1根据Q表格选动作

3.2更新Q表格


1.on-policy与off-policy

Sarsa(on-policy)优化的是实际上执行的策略,拿下一步一定执行的action来优化Q表格,Sarsa知道自己 下一步会跑到悬崖去,所以在这一步它会尽可能的离悬崖远一点,保证下一步即使是随机动作,也会在安全区域内。

off-policy在学习的过程中,保留2种策略:1)希望学到的最佳的目标策略 (target policy),2)探索环境的策略(behavior policy),大胆探索环境为了给目标学习,off-policy由于将目标与行为策略分离开,Q-learing可以大胆的去探索经验轨迹来优化

2.Sarsa与Q-learing

Sarsa在公式中的A'为下一个state的实际action

Q-learing中更新Q表格时用到的Q值对应的action不一定是下一个state的实际action

两者的更新公式都相同,只是Target不同。

Q-learing默认下一个action是Q值最大的动作,不受探索的影响。

3.Q-learing与环境的交互

和Sarsa对比,Q-learing不需要知道next_action

3.1根据Q表格选动作

3.2更新Q表格

强化学习 ——On-Policy与Off-Policy相关推荐

  1. 【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解

    http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 引用莫凡老师的素材 https://morvanzhou.github.io/tut ...

  2. 机器学习-54-RL-06-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)

    文章目录 Actor-Critic Actor-Critic Review – Policy Gradient Review – Q-Learning Actor-Critic Advantage A ...

  3. 深度强化学习(三):Policy Gradients

    ###一.Policy-based RL概述 ####1.Policy-based RL起源 在学习Policy Gradiens(PG)之前,我们将强化学习的方法分成两类进行考虑: 一类是value ...

  4. 强化学习(二):Policy Gradient理解

    上一章已经介绍了基于值函数方法的简单的DQN的理解,而在深度强化学习领域另一种基于端到端思路的策略梯度(Policy Gradient)算法相较而言可能取得更好的结果,也更加方便理解.于是,本章我们就 ...

  5. 【7】强化学习之策略梯度(Policy Gradient)

    [李宏毅]强化学习笔记(一) 什么是强化学习 监督学习 VS. 强化学习 AlphaGo Chat-bot Outline 1. Policy-based Approach:Learning an A ...

  6. 强化学习(4):策略梯度Policy Gradient算法

    本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成 终于到Policy Gradient方法了! 一.引言 reinforcement le ...

  7. 强化学习笔记 DDPG (Deep Deterministic Policy Gradient)

    1 总述 总体来讲,和actor-critic 差不多,只不过这里用了target network 和experience relay 强化学习笔记 experience replay 经验回放_UQ ...

  8. 强化学习 / 动态规划:策略改进(Policy Improvement)使策略更优的数学证明

    前言: Sutton第二版<强化学习>中,第4章第2节"策略改进"介绍了基于贪心算法的策略改进.为什么以(只考虑一个后续状态来选择当前动作的)贪心算法进行更新的策略一定 ...

  9. 强化学习note2——value iteration和policy iteration的区别,MC和TD的区别

    value iteration和policy iteration的区别 value iteration: ①多次迭代Bellman最优等式和Bellman等式,等价值函数收敛后,②再用价值函数带入贝尔 ...

  10. 《强化学习周刊》第16期:多智能体强化学习的最新研究与应用

    No.16 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...

最新文章

  1. 阻塞队列BlockingQueue 学习
  2. 如何解决多地开视频会议直播问题?
  3. 抽象工厂模式升级版————泛型化实现
  4. 《Spring揭秘》重置版——IoC注入及绑定01
  5. vue项目关于:Error: Cannot find module ‘D:\@vue\cli-service\bin\vue-cli-service.js‘的解决方案
  6. 《WF编程》系列之4 - 漫游工作流:Widows Workflow Runtime及其服务
  7. Stata+R: 一文读懂中介效应分析
  8. QDir过滤文件的坑
  9. Ingenuous Cubrency——完全背包
  10. 2021-2027全球与中国全闪存存储市场现状及未来发展趋势
  11. 集合:List接口:ArrayList,LinkedList Set接口:HashSet
  12. rtthread studio与正点原子apollo(9)--I2C设备之IO扩展
  13. 印象笔记,石墨笔记和Effie哪个更适合影评人?
  14. thinkPHP3.2.3使用163邮箱发送邮件
  15. ASO优化:应用市场应该怎么做马甲包?
  16. solaris 安全设置
  17. 梯度,sobel算子的理解
  18. WPF实现DNA螺旋粒子动画特效
  19. 趋势指标(一)MACD指标
  20. uboot2018.7以上版本bison报错

热门文章

  1. (转载)云计算系统测试_manok_新浪博客
  2. 浪漫情侣在社会反馈中的神经基础
  3. 内容创作者抖音直播涨粉变现7个小技巧
  4. 限制性定语从句与非限制性定语从句
  5. 女孩,为什么你上学时成绩那么好,…
  6. ubuntu系统下安装GTX1660ti的Nvidia驱动
  7. 远翔小升压FP6291
  8. 如何让员工忠于公司?
  9. CCAI 2020 | 唐杰:从感知走向认知的机器学习
  10. 面向对象分析的三个模型?