前言

本文是学习周博雷老师的强化学习课程的心得体会。
雷大佬的GItHub

无模型控制

问题

当我们不知道 MDP 模型的情况下，如何优化价值函数，得到最佳的策略。

思路

这里和有模型的控制策略的估计有一个不同是，我们这里使用MC方法来估算Q函数。其余的和无模型的控制是一样的。

大概思路是：初始化一个Q和π\piπ，然后不停的迭代更新Q和π\piπ。注意这里与有模型的控制的区别是，我们直接迭代的Q而不是V，（这是因为没有模型）。

方法

On-Policy learning

On-Policy就是使用同一个police，在迭代中不断的更新。

MC

步骤1：通过MC方法估计Q-table；

MC方法的精髓是采样，这里利用ϵ−GreedyExploration\epsilon-Greedy Explorationϵ−GreedyExploration方法进行采样，选取每一步的动作。

步骤2：根据估计出的Q-table改善π\piπ；

具体步骤如下：

具体算法如下：

Sarsa

sarsa是将control loop中的MC换成TD。

Off-policy learning

Off-policy learning有两个policy，一个探索policy和一个目标policy，我们用探索policy进行采样计算Q，然后用算出的Q来更新目标policy。

优点：

可以利用别的方面的策略更新另一个方面的策略，比如将人的运动转移到机器人身上。
可以重复利用产生过的policy，节省计算资源。

Q-learning

On-Policy learning 和 Off-policy learning的区别

On-Policy learning：

始终只有一个policy，只是在迭代中不停的更新。

学出的策略比较保守。

Off-policy learning：

这里有一个探索policy和一个目标policy，我们用探索policy进行采样计算Q，然后用算出的Q来更新目标policy。

学出的策略比较激进。

sarsa和Q-learning的区别：

强化学习4——无模型控制model-free control （On-Policy learning：Sarsa和Off-policy learning：Q-learning）相关推荐

[论文]基于强化学习的无模型水下机器人深度控制
基于强化学习的无模型水下机器人深度控制摘要介绍问题公式 A.水下机器人的坐标框架 B.深度控制问题马尔科夫模型 A.马尔科夫决策 B.恒定深度控制MDP C.弯曲深度控制MDP D.海底追踪的 ...
基于模型的强化学习比无模型的强化学习更好？错！
作者 | Carles Gelada and Jacob Buckman 编辑 | DeepRL 来源 | 深度强化学习实验室(ID:Deep-RL) [导读]许多研究人员认为,基于模型的强化学习(M ...
重温强化学习之无模型学习方法：时间差分方法
1.时间差分方法简介强化学习中最核心也是最新奇的想法混合DP和MC思想: 与MC类似,TD也从历史经验中学习:与DP类似使用后继状态的值函数更新当前状态的值函数蒙特卡洛只是适用于片 ...
强化学习4——无模型预测(蒙特卡洛法和TD法)
文章目录强化学习--无模型预测与控制无模型的概念无模型预测蒙特卡洛法基本蒙特卡洛改进增量MC更新算法动态规划(DP)与蒙特卡洛(MC)的区别 Temporal Difference(TD ...
强化学习之无模型方法一：蒙特卡洛
无模型方法(model-free) 无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法.该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索. 由于 ...
强化学习(四) - 无模型学习(MC、TDL)
上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题.具体的做法有两个:一个是策略迭代,一个是值迭代. 从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题. ...
重温强化学习之无模型学习方法：蒙特卡洛方法
1.无模型方法简介无模型属于学习方法的一种,(学习和规划),需要智能体和环境进行交互,一般采用样本备份,需要结合充分的探索 MDPs中未知P,R-无模型交互是为了更加了解环境,了解状态动态规划是 ...
重温强化学习之无模型学习方法：TD(lambda)
1.多步自举一步TD:TD(0),白色圈V函数,黑色Q函数,后继状态V函数更新当前状态V函数,采样,智能体和环境进行交互.根据状态采取一个动作,转为后继状态,环境给一个奖励-->采样一步得到后 ...
初探强化学习(6)到底TMD什么是model-based和model-free(基于模型的强化学习和基于模型的强化学习 TMD的到底是什么)
0 如何定义无模型和有模型 Model-based和Model-free方法对比 Model-based: 一旦model学好后,就是采用On-Policy的算法: 一旦model学好后,就不需要与真 ...

强化学习4——无模型控制model-free control （On-Policy learning：Sarsa和Off-policy learning：Q-learning）

文章目录

前言