强化学习 ——On-Policy与Off-Policy

2024-05-03 00:48:56

本文内容源自百度强化学习 7 日入门课程学习整理
感谢百度 PARL 团队李科浇老师的课程讲解

目录

1.on-policy与off-policy

2.Sarsa与Q-learing

3.Q-learing与环境的交互

3.1根据Q表格选动作

3.2更新Q表格

1.on-policy与off-policy

Sarsa（on-policy）优化的是实际上执行的策略，拿下一步一定执行的action来优化Q表格，Sarsa知道自己下一步会跑到悬崖去，所以在这一步它会尽可能的离悬崖远一点，保证下一步即使是随机动作，也会在安全区域内。

off-policy在学习的过程中，保留2种策略：1）希望学到的最佳的目标策略（target policy），2）探索环境的策略(behavior policy)，大胆探索环境为了给目标学习，off-policy由于将目标与行为策略分离开，Q-learing可以大胆的去探索经验轨迹来优化

2.Sarsa与Q-learing

Sarsa在公式中的A'为下一个state的实际action

Q-learing中更新Q表格时用到的Q值对应的action不一定是下一个state的实际action

两者的更新公式都相同，只是Target不同。

Q-learing默认下一个action是Q值最大的动作，不受探索的影响。

3.Q-learing与环境的交互

和Sarsa对比，Q-learing不需要知道next_action

3.1根据Q表格选动作

3.2更新Q表格

强化学习 ——On-Policy与Off-Policy相关推荐

【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 引用莫凡老师的素材 https://morvanzhou.github.io/tut ...
机器学习-54-RL-06-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)
文章目录 Actor-Critic Actor-Critic Review – Policy Gradient Review – Q-Learning Actor-Critic Advantage A ...
深度强化学习（三）：Policy Gradients
###一.Policy-based RL概述 ####1.Policy-based RL起源在学习Policy Gradiens(PG)之前,我们将强化学习的方法分成两类进行考虑: 一类是value ...
强化学习（二）：Policy Gradient理解
上一章已经介绍了基于值函数方法的简单的DQN的理解,而在深度强化学习领域另一种基于端到端思路的策略梯度(Policy Gradient)算法相较而言可能取得更好的结果,也更加方便理解.于是,本章我们就 ...
【7】强化学习之策略梯度（Policy Gradient）
[李宏毅]强化学习笔记(一) 什么是强化学习监督学习 VS. 强化学习 AlphaGo Chat-bot Outline 1. Policy-based Approach:Learning an A ...
强化学习(4)：策略梯度Policy Gradient算法
本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成终于到Policy Gradient方法了! 一.引言 reinforcement le ...
强化学习笔记 DDPG (Deep Deterministic Policy Gradient)
1 总述总体来讲,和actor-critic 差不多,只不过这里用了target network 和experience relay 强化学习笔记 experience replay 经验回放_UQ ...
强化学习 / 动态规划：策略改进（Policy Improvement）使策略更优的数学证明
前言: Sutton第二版<强化学习>中,第4章第2节"策略改进"介绍了基于贪心算法的策略改进.为什么以(只考虑一个后续状态来选择当前动作的)贪心算法进行更新的策略一定 ...
强化学习note2——value iteration和policy iteration的区别，MC和TD的区别
value iteration和policy iteration的区别 value iteration: ①多次迭代Bellman最优等式和Bellman等式,等价值函数收敛后,②再用价值函数带入贝尔 ...
《强化学习周刊》第16期：多智能体强化学习的最新研究与应用
No.16 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,多智能强化学习的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领 ...

最新文章

热门文章