1 Sarsa(0)

Sarsa算法和TD类似,只不过TD是更新状态的奖励函数V,这里是更新Q函数强化学习笔记:Q-learning :temporal difference 方法_UQI-LIUWJ的博客-CSDN博客

TD
Sarsa

该算法由于每次更新值函数需要知道当前的状态(state)、当前的动作(action)、奖励(reward)、下一步的状态(state)、下一步的动作(action),即 (St​,At​,Rt+1​,St+1​,At+1​) 这几个值 ,由此得名 Sarsa 算法。

2 n-step Sarsa

3 与环境交互

右边是环境,左边是 agent 。

我们每次跟环境交互一次之后呢,就可以 learn 一下,向环境输出 action,然后从环境当中拿到 state 和 reward。

Agent 主要实现两个方法:

  • 一个就是根据 Q 表格去选择动作,输出 action。
  • 另外一个就是拿到 (St​,At​,Rt+1​,St+1​,At+1​) 这几个值去更新我们的 Q 表格。

4 Sarsa on-policy

Sarsa 是一种 on-policy 策略。

Sarsa 优化的是它实际执行的策略,它直接拿下一步会执行的 action (At+1) 来去优化 Q 表格,所以 on-policy 在学习的过程中,只存在一种确定的策略,它用这种确定的策略去做 action 的选取,也用一种这种确定的策略去做优化。

强化学习笔记:Sarsa算法相关推荐

  1. 【强化学习】Sarsa算法详解以及用于二维空间探索【Python实现】

    Sarsa算法 Sarsa算法,是基于Q-Learning算法.改动其实很小. 本文工作基于之前的Q-Learning的项目,如果有疑问可以看下面两个问题: [强化学习]Q-Learning算法详解以 ...

  2. 【强化学习】Sarsa算法求解悬崖行走问题 + Python代码实战

    文章目录 一.Sarsa算法简介 1.1 更新公式 1.2 预测策略 1.3 详细资料 二.Python代码实战 2.1 运行前配置 2.2 主要代码 2.3 运行结果展示 2.4 关于可视化寻路过程 ...

  3. 【原创】强化学习笔记|从零开始学习PPO算法编程(pytorch版本)

    从零开始学习PPO算法编程(pytorch版本)_melody_cjw的博客-CSDN博客_ppo算法 pytorch 从零开始学习PPO算法编程(pytorch版本)(二)_melody_cjw的博 ...

  4. 【强化学习笔记】4.3 无模型的强化学习方法-蒙特卡罗算法与重要性采样

    异策略与重要性采样 因为异策略中的行动策略和目标策略不一样,也就是说行动策略产生的数据分布与目标策略的数据分布存在偏差,即即行动策略的轨迹概率分布和改善策略的轨迹概率分布不一样,因此在使用数据进行目标 ...

  5. 【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)

    [李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...

  6. 【强化学习】Sarsa 和 Sarsa(λ)

    目录 Sarsa算法(on-policy) 概述 on-poilcy: 算法流程 Sarsa(λ)算法(on-policy) 概述 状态价值迭代公式: 动作价值迭代公式: 算法流程 Sarsa小结 强 ...

  7. 142页ICML会议强化学习笔记整理,值得细读

    作者 | David Abel 编辑 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) ICML 是 International Conference on Machine L ...

  8. 强化学习笔记:PPO 【近端策略优化(Proximal Policy Optimization)】

    1 前言 我们回顾一下policy network: 强化学习笔记:Policy-based Approach_UQI-LIUWJ的博客-CSDN博客 它先去跟环境互动,搜集很多的 路径τ.根据它搜集 ...

  9. 强化学习笔记: generalized policy iteration with MC

    强化学习笔记: MDP - Policy iteration_UQI-LIUWJ的博客-CSDN博客 强化学习笔记:Q-learning_UQI-LIUWJ的博客-CSDN博客 在policy ite ...

最新文章

  1. Open Cascade DataExchange DXF
  2. Android爬坑之旅:软键盘挡住输入框问题的终极解决方式
  3. 数据结构-算法: 分配排序(基数分配排序法)
  4. python【力扣LeetCode算法题库】1103- 分糖果 II
  5. mysql between and的用法的意思_从入门到入土:MySQL完整学习指南,包教包会!
  6. php性能提升5倍的秘诀,停机维护时长缩短5倍,全靠这3个秘诀
  7. 小结两种在Python中导入C语言扩展库的方法
  8. ubuntu 挂在smb服务器的方法
  9. 使用alembic进行openstack数据库版本管理
  10. 210221阶段三线程、信号量、互斥锁
  11. 【MySQL】如何让数据库查询区分大小写
  12. r语言合并多个csv文件_PDF合并怎么做?分享多个PDF文件合并的方法
  13. 计算机应用基础126题,2015-2016年全国计算机应用基础总复习.
  14. MySQL_数据库操作
  15. 一本通【例4-10】最优布线问题
  16. 大学计算机应用基础模拟试题,《大学计算机应用基础》模拟试题.doc
  17. source命令执行SQL脚本文件
  18. IDEA Tomcat控制台中文乱码
  19. 键盘各键对应的ASCII码值(包括鼠标和键盘所有的键)
  20. Android 框架揭秘 --读书笔记

热门文章

  1. Android记录24-WebView实现白天/夜间阅读模式
  2. POJ 1201 amp; HDU1384 amp; ZOJ 1508 Intervals(差分约束+spfa 求最长路径)
  3. 浏览器检测是否安装flash插件,若没有安装,则弹出安装提示
  4. 统一沟通-技巧-12-Lync-CX600-3000-5000-配置-internet
  5. WF4.0 基础篇 (二) Activity介绍及WriteLine Activity的使用
  6. 个人思考与研究:道德经(二)
  7. 算法提高课-图论-有向图的强连通分量-AcWing 367. 学校网络:强连通分量、tarjan算法
  8. 《大话数据结构》读书笔记-栈与队列
  9. 51单片机c语言数字输入输出,第五章 51单片机C语言程序--输入输出接口.pdf
  10. java如何构造ajax回调参数,jQuery实现ajax回调函数带入参数的方法示例