强化学习笔记:Sarsa算法
1 Sarsa(0)
Sarsa算法和TD类似,只不过TD是更新状态的奖励函数V,这里是更新Q函数强化学习笔记:Q-learning :temporal difference 方法_UQI-LIUWJ的博客-CSDN博客
TD | |
Sarsa |
该算法由于每次更新值函数需要知道当前的状态(state)、当前的动作(action)、奖励(reward)、下一步的状态(state)、下一步的动作(action),即 (St,At,Rt+1,St+1,At+1) 这几个值 ,由此得名 Sarsa
算法。
2 n-step Sarsa
3 与环境交互
右边是环境,左边是 agent 。
我们每次跟环境交互一次之后呢,就可以 learn 一下,向环境输出 action,然后从环境当中拿到 state 和 reward。
Agent 主要实现两个方法:
- 一个就是根据 Q 表格去选择动作,输出 action。
- 另外一个就是拿到 (St,At,Rt+1,St+1,At+1) 这几个值去更新我们的 Q 表格。
4 Sarsa on-policy
Sarsa 是一种 on-policy 策略。
Sarsa 优化的是它实际执行的策略,它直接拿下一步会执行的 action (At+1) 来去优化 Q 表格,所以 on-policy 在学习的过程中,只存在一种确定的策略,它用这种确定的策略去做 action 的选取,也用一种这种确定的策略去做优化。
强化学习笔记:Sarsa算法相关推荐
- 【强化学习】Sarsa算法详解以及用于二维空间探索【Python实现】
Sarsa算法 Sarsa算法,是基于Q-Learning算法.改动其实很小. 本文工作基于之前的Q-Learning的项目,如果有疑问可以看下面两个问题: [强化学习]Q-Learning算法详解以 ...
- 【强化学习】Sarsa算法求解悬崖行走问题 + Python代码实战
文章目录 一.Sarsa算法简介 1.1 更新公式 1.2 预测策略 1.3 详细资料 二.Python代码实战 2.1 运行前配置 2.2 主要代码 2.3 运行结果展示 2.4 关于可视化寻路过程 ...
- 【原创】强化学习笔记|从零开始学习PPO算法编程(pytorch版本)
从零开始学习PPO算法编程(pytorch版本)_melody_cjw的博客-CSDN博客_ppo算法 pytorch 从零开始学习PPO算法编程(pytorch版本)(二)_melody_cjw的博 ...
- 【强化学习笔记】4.3 无模型的强化学习方法-蒙特卡罗算法与重要性采样
异策略与重要性采样 因为异策略中的行动策略和目标策略不一样,也就是说行动策略产生的数据分布与目标策略的数据分布存在偏差,即即行动策略的轨迹概率分布和改善策略的轨迹概率分布不一样,因此在使用数据进行目标 ...
- 【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)
[李宏毅深度强化学习笔记]1.策略梯度方法(Policy Gradient) [李宏毅深度强化学习笔记]2.Proximal Policy Optimization (PPO) 算法 [李宏毅深度强化 ...
- 【强化学习】Sarsa 和 Sarsa(λ)
目录 Sarsa算法(on-policy) 概述 on-poilcy: 算法流程 Sarsa(λ)算法(on-policy) 概述 状态价值迭代公式: 动作价值迭代公式: 算法流程 Sarsa小结 强 ...
- 142页ICML会议强化学习笔记整理,值得细读
作者 | David Abel 编辑 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) ICML 是 International Conference on Machine L ...
- 强化学习笔记:PPO 【近端策略优化(Proximal Policy Optimization)】
1 前言 我们回顾一下policy network: 强化学习笔记:Policy-based Approach_UQI-LIUWJ的博客-CSDN博客 它先去跟环境互动,搜集很多的 路径τ.根据它搜集 ...
- 强化学习笔记: generalized policy iteration with MC
强化学习笔记: MDP - Policy iteration_UQI-LIUWJ的博客-CSDN博客 强化学习笔记:Q-learning_UQI-LIUWJ的博客-CSDN博客 在policy ite ...
最新文章
- Open Cascade DataExchange DXF
- Android爬坑之旅:软键盘挡住输入框问题的终极解决方式
- 数据结构-算法: 分配排序(基数分配排序法)
- python【力扣LeetCode算法题库】1103- 分糖果 II
- mysql between and的用法的意思_从入门到入土:MySQL完整学习指南,包教包会!
- php性能提升5倍的秘诀,停机维护时长缩短5倍,全靠这3个秘诀
- 小结两种在Python中导入C语言扩展库的方法
- ubuntu 挂在smb服务器的方法
- 使用alembic进行openstack数据库版本管理
- 210221阶段三线程、信号量、互斥锁
- 【MySQL】如何让数据库查询区分大小写
- r语言合并多个csv文件_PDF合并怎么做?分享多个PDF文件合并的方法
- 计算机应用基础126题,2015-2016年全国计算机应用基础总复习.
- MySQL_数据库操作
- 一本通【例4-10】最优布线问题
- 大学计算机应用基础模拟试题,《大学计算机应用基础》模拟试题.doc
- source命令执行SQL脚本文件
- IDEA Tomcat控制台中文乱码
- 键盘各键对应的ASCII码值(包括鼠标和键盘所有的键)
- Android 框架揭秘 --读书笔记
热门文章
- Android记录24-WebView实现白天/夜间阅读模式
- POJ 1201 amp; HDU1384 amp; ZOJ 1508 Intervals(差分约束+spfa 求最长路径)
- 浏览器检测是否安装flash插件,若没有安装,则弹出安装提示
- 统一沟通-技巧-12-Lync-CX600-3000-5000-配置-internet
- WF4.0 基础篇 (二) Activity介绍及WriteLine Activity的使用
- 个人思考与研究:道德经(二)
- 算法提高课-图论-有向图的强连通分量-AcWing 367. 学校网络:强连通分量、tarjan算法
- 《大话数据结构》读书笔记-栈与队列
- 51单片机c语言数字输入输出,第五章 51单片机C语言程序--输入输出接口.pdf
- java如何构造ajax回调参数,jQuery实现ajax回调函数带入参数的方法示例