1、无模型方法简介

无模型属于学习方法的一种，(学习和规划),需要智能体和环境进行交互，一般采用样本备份，需要结合充分的探索

MDPs中未知P,R－无模型

交互是为了更加了解环境，了解状态

动态规划是已经知道模型，没有模型通过采样的方法，也就是样本备份

从经验中学习

和动态规划的区别：

无模型学习：

1、未知环境模型

2、需要与环境进行交互，有交互成本（时间、金钱）

3、样本备份

4、异步备份（更新状态值函数不需要等待更新其它状态值函数）

5、需要充分的探索（不进行充分探索，学不到最优策略）

6、两个策略（行为策略和目标策略）

动态规划：

1、已知环境模型

2、不需要直接交互，直接利用环境模型推导

3、全宽备份

4、同步和异步

5、无探索（只需要做演算就可以）

6、一个策略

2、在策略和离策略

行为策略是智能体与环境进行交互的策略,（用来产生样本）

目标策略是我们学习的策略，即Vpi 时的下标

在策略（on-policy）学习：

行为策略和目标策略是同一个策略，直接使用样本统计属性去估计总体，更简单且收敛性更好

数据利用性更差（只有智能体当前交互的样本能够被利用）

限定学习过程中的策略是随机性策略

离策略（off-policy）学习：

行为策略和目标策略不是同一个策略

一般行为策略选用随机性策略，目标策略选用确定性策略

需要结合重要性采样才能使用样本估计总体

方差更大，收敛性更差

数据利用性更好(可以使用其它智能体交互的样本，例如学围棋可以用棋谱样本用)

行为策略比目标策略更具备探索性，即，在每个状态下，目标策略的可行动作是行为策略可行动作的子集

重要性采样：

例子：

重要性采样公式：

离策略学习中的重要性采样：

3、蒙特卡洛方法(Monte Carlo,MC)

蒙特卡洛树，蒙特卡洛在树中采样一条轨迹

方差比较大，树中每一个节点有一定随机性，轨迹比较长，中间随机性较大，

做一次实验，可信性比较差

样本备份

动态规划方法：

考虑所有后继状态以及所做的动作

一步备份，只考虑一步情况，蒙特卡洛考虑到最终的状态

4、蒙特卡洛评价

蒙特卡洛不使用贝尔曼方程

在策略蒙特卡洛评价：

First-visit MC策略评价：

Every-visit MC策略评价：

对Q函数的MC方法：

离策略蒙特卡洛评价：

MC特点小结：

5、增量式蒙塔卡洛算法

为什么需要增量式蒙特卡洛？

增量式MC更新

平均值更新

常量步长：

特点：

6、蒙特卡洛优化

广义策略迭代：

MC中的广义策略迭代

问题一：使用哪个值函数？Q函数

问题二：是否可以贪婪策略提升？

MC虽然利用过去的经验数据，但是某些状态并未遍历到，遍历不够充分，置信度不够

－贪婪策略

策略提升

MC策略迭代：

增量式策略评价：

每条轨迹

7、蒙塔卡洛算法引申

重温强化学习之无模型学习方法：蒙特卡洛方法相关推荐

重温强化学习之无模型学习方法：时间差分方法
1.时间差分方法简介强化学习中最核心也是最新奇的想法混合DP和MC思想: 与MC类似,TD也从历史经验中学习:与DP类似使用后继状态的值函数更新当前状态的值函数蒙特卡洛只是适用于片 ...
重温强化学习之无模型学习方法：TD(lambda)
1.多步自举一步TD:TD(0),白色圈V函数,黑色Q函数,后继状态V函数更新当前状态V函数,采样,智能体和环境进行交互.根据状态采取一个动作,转为后继状态,环境给一个奖励-->采样一步得到后 ...
强化学习4——无模型预测(蒙特卡洛法和TD法)
文章目录强化学习--无模型预测与控制无模型的概念无模型预测蒙特卡洛法基本蒙特卡洛改进增量MC更新算法动态规划(DP)与蒙特卡洛(MC)的区别 Temporal Difference(TD ...
[论文]基于强化学习的无模型水下机器人深度控制
基于强化学习的无模型水下机器人深度控制摘要介绍问题公式 A.水下机器人的坐标框架 B.深度控制问题马尔科夫模型 A.马尔科夫决策 B.恒定深度控制MDP C.弯曲深度控制MDP D.海底追踪的 ...
基于模型的强化学习比无模型的强化学习更好？错！
作者 | Carles Gelada and Jacob Buckman 编辑 | DeepRL 来源 | 深度强化学习实验室(ID:Deep-RL) [导读]许多研究人员认为,基于模型的强化学习(M ...
强化学习之无模型方法一：蒙特卡洛
无模型方法(model-free) 无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法.该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索. 由于 ...
强化学习(四) - 无模型学习(MC、TDL)
上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题.具体的做法有两个:一个是策略迭代,一个是值迭代. 从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题. ...
强化学习4——无模型控制model-free control （On-Policy learning：Sarsa和Off-policy learning：Q-learning）
文章目录前言无模型控制问题思路方法 On-Policy learning MC Sarsa Off-policy learning Q-learning On-Policy learning ...
重温强化学习之基于模型方法：动态规划
基于模型的强化学习,可以用动态规划求解动态规划要求知道马尔科夫五元组:状态集.动作集.状态转移矩阵.奖励.折扣因子 ---使用贝尔曼方程 1.前言什么是动态规划? 2.策略评价 3.策略提升 ...

重温强化学习之无模型学习方法：蒙特卡洛方法