强化学习4——无模型控制model-free control (On-Policy learning:Sarsa和Off-policy learning:Q-learning)
文章目录
- 前言
- 无模型控制
- 问题
- 思路
- 方法
- On-Policy learning
- MC
- Sarsa
- Off-policy learning
- Q-learning
- On-Policy learning 和 Off-policy learning的区别
前言
本文是学习周博雷老师的强化学习课程的心得体会。
雷大佬的GItHub
无模型控制
问题
当我们不知道 MDP 模型的情况下,如何优化价值函数,得到最佳的策略。
思路
这里和有模型的控制策略的估计有一个不同是,我们这里使用MC方法来估算Q函数。其余的和无模型的控制是一样的。
大概思路是:初始化一个Q和π\piπ,然后不停的迭代更新Q和π\piπ。注意这里与有模型的控制的区别是,我们直接迭代的Q而不是V,(这是因为没有模型)。
方法
On-Policy learning
On-Policy就是使用同一个police,在迭代中不断的更新。
MC
步骤1:通过MC方法估计Q-table;
MC方法的精髓是采样,这里利用ϵ−GreedyExploration\epsilon-Greedy Explorationϵ−GreedyExploration方法进行采样,选取每一步的动作。
步骤2:根据估计出的Q-table改善π\piπ;
具体步骤如下:
具体算法如下:
Sarsa
sarsa是将control loop中的MC换成TD。
Off-policy learning
Off-policy learning有两个policy,一个探索policy和一个目标policy,我们用探索policy进行采样计算Q,然后用算出的Q来更新目标policy。
优点:
- 可以利用别的方面的策略更新另一个方面的策略,比如将人的运动转移到机器人身上。
- 可以重复利用产生过的policy,节省计算资源。
Q-learning
On-Policy learning 和 Off-policy learning的区别
On-Policy learning:
始终只有一个policy,只是在迭代中不停的更新。
学出的策略比较保守。
Off-policy learning:
这里有一个探索policy和一个目标policy,我们用探索policy进行采样计算Q,然后用算出的Q来更新目标policy。
学出的策略比较激进。
sarsa和Q-learning的区别:
强化学习4——无模型控制model-free control (On-Policy learning:Sarsa和Off-policy learning:Q-learning)相关推荐
- [论文]基于强化学习的无模型水下机器人深度控制
基于强化学习的无模型水下机器人深度控制 摘要 介绍 问题公式 A.水下机器人的坐标框架 B.深度控制问题 马尔科夫模型 A.马尔科夫决策 B.恒定深度控制MDP C.弯曲深度控制MDP D.海底追踪的 ...
- 基于模型的强化学习比无模型的强化学习更好?错!
作者 | Carles Gelada and Jacob Buckman 编辑 | DeepRL 来源 | 深度强化学习实验室(ID:Deep-RL) [导读]许多研究人员认为,基于模型的强化学习(M ...
- 重温强化学习之无模型学习方法:时间差分方法
1.时间差分方法简介 强化学习中最核心也是最新奇的想法 混合DP和MC思想: 与MC类似,TD也从历史经验中学习:与DP类似使用后继状态的值函数更新当前状态的值函数 蒙特卡洛只是适用于片 ...
- 强化学习4——无模型预测(蒙特卡洛法和TD法)
文章目录 强化学习--无模型预测与控制 无模型的概念 无模型预测 蒙特卡洛法 基本蒙特卡洛 改进增量MC更新算法 动态规划(DP)与蒙特卡洛(MC)的区别 Temporal Difference(TD ...
- 强化学习之无模型方法一:蒙特卡洛
无模型方法(model-free) 无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法.该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索. 由于 ...
- 强化学习(四) - 无模型学习(MC、TDL)
上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题.具体的做法有两个:一个是策略迭代,一个是值迭代. 从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题. ...
- 重温强化学习之无模型学习方法:蒙特卡洛方法
1.无模型方法简介 无模型属于学习方法的一种,(学习和规划),需要智能体和环境进行交互,一般采用样本备份,需要结合充分的探索 MDPs中未知P,R-无模型 交互是为了更加了解环境,了解状态 动态规划是 ...
- 重温强化学习之无模型学习方法:TD(lambda)
1.多步自举 一步TD:TD(0),白色圈V函数,黑色Q函数,后继状态V函数更新当前状态V函数,采样,智能体和环境进行交互.根据状态采取一个动作,转为后继状态,环境给一个奖励-->采样一步得到后 ...
- 初探强化学习(6)到底TMD什么是model-based和model-free(基于模型的强化学习和基于模型的强化学习 TMD的到底是什么)
0 如何定义无模型和有模型 Model-based和Model-free方法对比 Model-based: 一旦model学好后,就是采用On-Policy的算法: 一旦model学好后,就不需要与真 ...
最新文章
- 难忘的一天——装操作系统(三)
- 以上帝模式管理Windows系统
- python【数据结构与算法】Floyd算法模拟
- ft2232驱动安装方法_关于Win10无法安装英伟达驱动的处理方法
- Optaplanner终于支持多线程并行运行 - Multithreaded incremental solving
- javafx窗体程序_JavaFX真实世界应用程序:欧洲电视网广播联盟
- SIP 中的Dialog,call,session 和 transaction .
- 内含福利|CSDN携手字节跳动:云原生Meetup北京站报名热烈启动,1月8日见!
- linux之ssh使用与配置
- 深度学习《CGAN模型》
- 2018 ngChina —— “跨平台”版块简介
- RTOS原理与实现05:事件控制块实现
- 输入框输入文字字符匹配
- atitit.编程语言 类与对象的 扩展机制.doc
- 计算机考研804是什么意思,北邮通信考研专业课801和804的选择
- Postgis使用工具raster2pgsql批量导入栅格数据(一)
- nandflash oob解析
- idea项目列表名称与项目名称不一致
- 电商小程序实战教程-分类导航
- 通过JSP网页连接MySQL数据库,从MySQL数据库中读出一张表并显示在JSP网页中
热门文章
- 0123互联网新闻 | 在线教育机构掌门1对1获3.5亿美元融资;淘宝直播独立App将在春节前上线...
- LeetCode_每日一题(8月)
- zkdoctor安装部署
- [十六]JavaIO之InputStreamReader 与 OutputStreamWriter
- 批量给MapGis文件正确的地图参数
- Ansible-playbook简单应用的几个实例
- 熟悉linux的安全与优化
- mysql 性能分析 命令_MySQL中使用SHOW PROFILE命令分析性能的用法整理
- 反置页表(1__操作系统)
- SpringBoot中Profile配置和加载配置文件