1 Sarsa(0)

Sarsa算法和TD类似，只不过TD是更新状态的奖励函数V，这里是更新Q函数强化学习笔记：Q-learning ：temporal difference 方法_UQI-LIUWJ的博客-CSDN博客

TD
Sarsa

该算法由于每次更新值函数需要知道当前的状态(state)、当前的动作(action)、奖励(reward)、下一步的状态(state)、下一步的动作(action)，即 (St,At,Rt+1,St+1,At+1) 这几个值，由此得名 Sarsa 算法。

2 n-step Sarsa

3 与环境交互

右边是环境，左边是 agent 。

我们每次跟环境交互一次之后呢，就可以 learn 一下，向环境输出 action，然后从环境当中拿到 state 和 reward。

Agent 主要实现两个方法：

一个就是根据 Q 表格去选择动作，输出 action。
另外一个就是拿到 (St,At,Rt+1,St+1,At+1) 这几个值去更新我们的 Q 表格。

4 Sarsa on-policy

Sarsa 是一种 on-policy 策略。

Sarsa 优化的是它实际执行的策略，它直接拿下一步会执行的 action (At+1) 来去优化 Q 表格，所以 on-policy 在学习的过程中，只存在一种确定的策略，它用这种确定的策略去做 action 的选取，也用一种这种确定的策略去做优化。

强化学习笔记：Sarsa算法相关推荐

【强化学习】Sarsa算法详解以及用于二维空间探索【Python实现】
Sarsa算法 Sarsa算法,是基于Q-Learning算法.改动其实很小. 本文工作基于之前的Q-Learning的项目,如果有疑问可以看下面两个问题: [强化学习]Q-Learning算法详解以 ...
【强化学习】Sarsa算法求解悬崖行走问题 + Python代码实战
文章目录一.Sarsa算法简介 1.1 更新公式 1.2 预测策略 1.3 详细资料二.Python代码实战 2.1 运行前配置 2.2 主要代码 2.3 运行结果展示 2.4 关于可视化寻路过程 ...
【原创】强化学习笔记|从零开始学习PPO算法编程（pytorch版本）
从零开始学习PPO算法编程(pytorch版本)_melody_cjw的博客-CSDN博客_ppo算法 pytorch 从零开始学习PPO算法编程(pytorch版本)(二)_melody_cjw的博 ...
【强化学习笔记】4.3 无模型的强化学习方法-蒙特卡罗算法与重要性采样
异策略与重要性采样因为异策略中的行动策略和目标策略不一样,也就是说行动策略产生的数据分布与目标策略的数据分布存在偏差,即即行动策略的轨迹概率分布和改善策略的轨迹概率分布不一样,因此在使用数据进行目标 ...
【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)
[李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...
【强化学习】Sarsa 和 Sarsa(λ)
目录 Sarsa算法(on-policy) 概述 on-poilcy: 算法流程 Sarsa(λ)算法(on-policy) 概述状态价值迭代公式: 动作价值迭代公式: 算法流程 Sarsa小结强 ...
142页ICML会议强化学习笔记整理，值得细读
作者 | David Abel 编辑 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) ICML 是 International Conference on Machine L ...
强化学习笔记：PPO 【近端策略优化（Proximal Policy Optimization）】
1 前言我们回顾一下policy network: 强化学习笔记:Policy-based Approach_UQI-LIUWJ的博客-CSDN博客它先去跟环境互动,搜集很多的路径τ.根据它搜集 ...
强化学习笔记： generalized policy iteration with MC
强化学习笔记: MDP - Policy iteration_UQI-LIUWJ的博客-CSDN博客强化学习笔记:Q-learning_UQI-LIUWJ的博客-CSDN博客在policy ite ...

强化学习笔记：Sarsa算法

1 Sarsa(0)

2 n-step Sarsa

3 与环境交互

4 Sarsa on-policy

强化学习笔记：Sarsa算法相关推荐

最新文章

热门文章