强化学习——无模型预测与控制

无模型的概念

状态转移的概率和相应的奖励都是未知的，需要agent试探，相当于经验主义。agent通过不断地执行action与环境交互，然后得到实际的return，执行N次求其平均值。

无模型预测

蒙特卡洛法

agent在现实中从状态sss通过一个策略与环境进行交互，得到多个轨迹，每个轨迹会得到一个实际的收益Gt=Rt+1+γRt+2+γ2Rt+3+…G_t=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldotsGt=Rt+1+γRt+2+γ2Rt+3+…，对多个轨迹收益进行一个平均，就可以得到在这个策略下面，状态sss的价值vπ(s)=Eπ[Gt∣st=s]v_{\pi}(s)=\mathbb{E}_{ \pi}\left[G_{t} \mid s_{t}=s\right]vπ(s)=Eπ[Gt∣st=s]。

基本蒙特卡洛

基本蒙特卡洛解析：

① agent通过策略π\piπ与环境交互得到许多轨迹序列（agent通过action不停地和environment交互得到），每个轨迹中的状态都有对应的回报Gt。

② 开始估算v(s)，N(s)=0，S(s)=0，t=0

① 在每个 episode 中，如果在时间步 t 状态 s 被访问了，那么
①状态 s 的访问数 N(s)N(s)N(s) 增加 1，

② 状态 s 的总的回报 S(s)S(s)S(s) 增加 GtG_tGt。

③状态 s 的价值可以通过 return 的平均来估计，即 v(s)=S(s)/N(s)v(s)=S(s)/N(s)v(s)=S(s)/N(s)

根据大数定律只要N(s)→∞N_(s) \rightarrow \infinN(s)→∞，v(s)→vπ(s)v(s) \rightarrow v^\pi(s)v(s)→vπ(s)

改进增量MC更新算法

红线公式推导如下

动态规划（DP）与蒙特卡洛（MC）的区别

动态规划（DP）需要考虑到下一次转移的所有状态；蒙特卡洛因为是现实中得到的return，不存在不确定性，所以它下一次转移只可能是一个状态。

Temporal Difference（TD）学习

v(St)←v(St)+1N(St)(Gt−v(St))v\left(S_{t}\right) \leftarrow v\left(S_{t}\right)+\frac{1}{N\left(S_{t}\right)}\left(G_{t}-v\left(S_{t}\right)\right)v(St)←v(St)+N(St)1(Gt−v(St))，其中Gt=Rt+1+γRt+2+γ2Rt+3+…=Rt+1+γGt+1G_t=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldots=R_{t+1}+\gamma G_{t+1}Gt=Rt+1+γRt+2+γ2Rt+3+…=Rt+1+γGt+1，而由于这是一个确定的真实学习场景所以v(st+1)=E[Gt+1∣st+1=s]=Gt+1v(s_{t+1})=\mathbb{E}\left[G_{t+1} \mid s_{t+1}=s\right]=G_{t+1}v(st+1)=E[Gt+1∣st+1=s]=Gt+1

TD和MC的区别

TD：从不完整的序列开始学习；可以是连续的无终止的状态；利用了马尔科夫性质

MC：整个序列完成之后开始学习；必须有终止；可以不是马尔科夫的环境

强化学习4——无模型预测(蒙特卡洛法和TD法)相关推荐

[论文]基于强化学习的无模型水下机器人深度控制
基于强化学习的无模型水下机器人深度控制摘要介绍问题公式 A.水下机器人的坐标框架 B.深度控制问题马尔科夫模型 A.马尔科夫决策 B.恒定深度控制MDP C.弯曲深度控制MDP D.海底追踪的 ...
基于模型的强化学习比无模型的强化学习更好？错！
作者 | Carles Gelada and Jacob Buckman 编辑 | DeepRL 来源 | 深度强化学习实验室(ID:Deep-RL) [导读]许多研究人员认为,基于模型的强化学习(M ...
强化学习之无模型方法一：蒙特卡洛
无模型方法(model-free) 无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法.该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索. 由于 ...
重温强化学习之无模型学习方法：蒙特卡洛方法
1.无模型方法简介无模型属于学习方法的一种,(学习和规划),需要智能体和环境进行交互,一般采用样本备份,需要结合充分的探索 MDPs中未知P,R-无模型交互是为了更加了解环境,了解状态动态规划是 ...
重温强化学习之无模型学习方法：时间差分方法
1.时间差分方法简介强化学习中最核心也是最新奇的想法混合DP和MC思想: 与MC类似,TD也从历史经验中学习:与DP类似使用后继状态的值函数更新当前状态的值函数蒙特卡洛只是适用于片 ...
强化学习4——无模型控制model-free control （On-Policy learning：Sarsa和Off-policy learning：Q-learning）
文章目录前言无模型控制问题思路方法 On-Policy learning MC Sarsa Off-policy learning Q-learning On-Policy learning ...
强化学习(四) - 无模型学习(MC、TDL)
上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题.具体的做法有两个:一个是策略迭代,一个是值迭代. 从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题. ...
重温强化学习之无模型学习方法：TD(lambda)
1.多步自举一步TD:TD(0),白色圈V函数,黑色Q函数,后继状态V函数更新当前状态V函数,采样,智能体和环境进行交互.根据状态采取一个动作,转为后继状态,环境给一个奖励-->采样一步得到后 ...
强化学习《基于价值 - MC方法和TD方法》
这一期的RL学习全是学习自李宏毅老师的教程,在自己多次学习后,自以为比较能理解后,才写下来了的.因此很多截图呢直接来自李宏毅老师的截图,很多地方我就不亲自写式子了. 本文讲解Value-Based的方 ...

强化学习4——无模型预测(蒙特卡洛法和TD法)

文章目录