强化学习 ——On-Policy与Off-Policy
本文内容源自百度强化学习 7 日入门课程学习整理
感谢百度 PARL 团队李科浇老师的课程讲解
目录
1.on-policy与off-policy
2.Sarsa与Q-learing
3.Q-learing与环境的交互
3.1根据Q表格选动作
3.2更新Q表格
1.on-policy与off-policy
Sarsa(on-policy)优化的是实际上执行的策略,拿下一步一定执行的action来优化Q表格,Sarsa知道自己 下一步会跑到悬崖去,所以在这一步它会尽可能的离悬崖远一点,保证下一步即使是随机动作,也会在安全区域内。
off-policy在学习的过程中,保留2种策略:1)希望学到的最佳的目标策略 (target policy),2)探索环境的策略(behavior policy),大胆探索环境为了给目标学习,off-policy由于将目标与行为策略分离开,Q-learing可以大胆的去探索经验轨迹来优化
2.Sarsa与Q-learing
Sarsa在公式中的A'为下一个state的实际action
Q-learing中更新Q表格时用到的Q值对应的action不一定是下一个state的实际action
两者的更新公式都相同,只是Target不同。
Q-learing默认下一个action是Q值最大的动作,不受探索的影响。
3.Q-learing与环境的交互
和Sarsa对比,Q-learing不需要知道next_action
3.1根据Q表格选动作
3.2更新Q表格
强化学习 ——On-Policy与Off-Policy相关推荐
- 【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 引用莫凡老师的素材 https://morvanzhou.github.io/tut ...
- 机器学习-54-RL-06-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)
文章目录 Actor-Critic Actor-Critic Review – Policy Gradient Review – Q-Learning Actor-Critic Advantage A ...
- 深度强化学习(三):Policy Gradients
###一.Policy-based RL概述 ####1.Policy-based RL起源 在学习Policy Gradiens(PG)之前,我们将强化学习的方法分成两类进行考虑: 一类是value ...
- 强化学习(二):Policy Gradient理解
上一章已经介绍了基于值函数方法的简单的DQN的理解,而在深度强化学习领域另一种基于端到端思路的策略梯度(Policy Gradient)算法相较而言可能取得更好的结果,也更加方便理解.于是,本章我们就 ...
- 【7】强化学习之策略梯度(Policy Gradient)
[李宏毅]强化学习笔记(一) 什么是强化学习 监督学习 VS. 强化学习 AlphaGo Chat-bot Outline 1. Policy-based Approach:Learning an A ...
- 强化学习(4):策略梯度Policy Gradient算法
本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成 终于到Policy Gradient方法了! 一.引言 reinforcement le ...
- 强化学习笔记 DDPG (Deep Deterministic Policy Gradient)
1 总述 总体来讲,和actor-critic 差不多,只不过这里用了target network 和experience relay 强化学习笔记 experience replay 经验回放_UQ ...
- 强化学习 / 动态规划:策略改进(Policy Improvement)使策略更优的数学证明
前言: Sutton第二版<强化学习>中,第4章第2节"策略改进"介绍了基于贪心算法的策略改进.为什么以(只考虑一个后续状态来选择当前动作的)贪心算法进行更新的策略一定 ...
- 强化学习note2——value iteration和policy iteration的区别,MC和TD的区别
value iteration和policy iteration的区别 value iteration: ①多次迭代Bellman最优等式和Bellman等式,等价值函数收敛后,②再用价值函数带入贝尔 ...
- 《强化学习周刊》第16期:多智能体强化学习的最新研究与应用
No.16 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...
最新文章
- 阻塞队列BlockingQueue 学习
- 如何解决多地开视频会议直播问题?
- 抽象工厂模式升级版————泛型化实现
- 《Spring揭秘》重置版——IoC注入及绑定01
- vue项目关于:Error: Cannot find module ‘D:\@vue\cli-service\bin\vue-cli-service.js‘的解决方案
- 《WF编程》系列之4 - 漫游工作流:Widows Workflow Runtime及其服务
- Stata+R: 一文读懂中介效应分析
- QDir过滤文件的坑
- Ingenuous Cubrency——完全背包
- 2021-2027全球与中国全闪存存储市场现状及未来发展趋势
- 集合:List接口:ArrayList,LinkedList Set接口:HashSet
- rtthread studio与正点原子apollo(9)--I2C设备之IO扩展
- 印象笔记,石墨笔记和Effie哪个更适合影评人?
- thinkPHP3.2.3使用163邮箱发送邮件
- ASO优化:应用市场应该怎么做马甲包?
- solaris 安全设置
- 梯度,sobel算子的理解
- WPF实现DNA螺旋粒子动画特效
- 趋势指标(一)MACD指标
- uboot2018.7以上版本bison报错