文章目录

  • 强化学习——无模型预测与控制
    • 无模型的概念
    • 无模型预测
      • 蒙特卡洛法
        • 基本蒙特卡洛
        • 改进增量MC更新算法
        • 动态规划(DP)与蒙特卡洛(MC)的区别
        • Temporal Difference(TD)学习
        • TD和MC的区别

强化学习——无模型预测与控制

无模型的概念

​ 状态转移的概率和相应的奖励都是未知的,需要agent试探,相当于经验主义。agent通过不断地执行action与环境交互,然后得到实际的return,执行N次求其平均值。

无模型预测

蒙特卡洛法

​ agent在现实中从状态sss通过一个策略与环境进行交互,得到多个轨迹,每个轨迹会得到一个实际的收益Gt=Rt+1+γRt+2+γ2Rt+3+…G_t=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldotsGt​=Rt+1​+γRt+2​+γ2Rt+3​+…,对多个轨迹收益进行一个平均,就可以得到在这个策略下面,状态sss的价值vπ(s)=Eπ[Gt∣st=s]v_{\pi}(s)=\mathbb{E}_{ \pi}\left[G_{t} \mid s_{t}=s\right]vπ​(s)=Eπ​[Gt​∣st​=s]。

基本蒙特卡洛

​ 基本蒙特卡洛解析:

​ ① agent通过策略π\piπ与环境交互得到许多轨迹序列(agent通过action不停地和environment交互得到),每个轨迹中的状态都有对应的回报Gt。

​ ② 开始估算v(s),N(s)=0,S(s)=0,t=0

​ ① 在每个 episode 中,如果在时间步 t 状态 s 被访问了,那么
​ ①状态 s 的访问数 N(s)N(s)N(s) 增加 1,

​ ② 状态 s 的总的回报 S(s)S(s)S(s) 增加 GtG_tGt​。

​ ③状态 s 的价值可以通过 return 的平均来估计,即 v(s)=S(s)/N(s)v(s)=S(s)/N(s)v(s)=S(s)/N(s)

根据大数定律只要N(s)→∞N_(s) \rightarrow \infinN(​s)→∞,v(s)→vπ(s)v(s) \rightarrow v^\pi(s)v(s)→vπ(s)

改进增量MC更新算法

红线公式推导如下

动态规划(DP)与蒙特卡洛(MC)的区别

​ 动态规划(DP)需要考虑到下一次转移的所有状态;蒙特卡洛因为是现实中得到的return,不存在不确定性,所以它下一次转移只可能是一个状态。

Temporal Difference(TD)学习

v(St)←v(St)+1N(St)(Gt−v(St))v\left(S_{t}\right) \leftarrow v\left(S_{t}\right)+\frac{1}{N\left(S_{t}\right)}\left(G_{t}-v\left(S_{t}\right)\right)v(St​)←v(St​)+N(St​)1​(Gt​−v(St​)),其中Gt=Rt+1+γRt+2+γ2Rt+3+…=Rt+1+γGt+1G_t=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldots=R_{t+1}+\gamma G_{t+1}Gt​=Rt+1​+γRt+2​+γ2Rt+3​+…=Rt+1​+γGt+1​,而由于这是一个确定的真实学习场景所以v(st+1)=E[Gt+1∣st+1=s]=Gt+1v(s_{t+1})=\mathbb{E}\left[G_{t+1} \mid s_{t+1}=s\right]=G_{t+1}v(st+1​)=E[Gt+1​∣st+1​=s]=Gt+1​

TD和MC的区别

TD:从不完整的序列开始学习;可以是连续的无终止的状态;利用了马尔科夫性质

MC:整个序列完成之后开始学习;必须有终止;可以不是马尔科夫的环境

强化学习4——无模型预测(蒙特卡洛法和TD法)相关推荐

  1. [论文]基于强化学习的无模型水下机器人深度控制

    基于强化学习的无模型水下机器人深度控制 摘要 介绍 问题公式 A.水下机器人的坐标框架 B.深度控制问题 马尔科夫模型 A.马尔科夫决策 B.恒定深度控制MDP C.弯曲深度控制MDP D.海底追踪的 ...

  2. 基于模型的强化学习比无模型的强化学习更好?错!

    作者 | Carles Gelada and Jacob Buckman 编辑 | DeepRL 来源 | 深度强化学习实验室(ID:Deep-RL) [导读]许多研究人员认为,基于模型的强化学习(M ...

  3. 强化学习之无模型方法一:蒙特卡洛

    无模型方法(model-free) 无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法.该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索. 由于 ...

  4. 重温强化学习之无模型学习方法:蒙特卡洛方法

    1.无模型方法简介 无模型属于学习方法的一种,(学习和规划),需要智能体和环境进行交互,一般采用样本备份,需要结合充分的探索 MDPs中未知P,R-无模型 交互是为了更加了解环境,了解状态 动态规划是 ...

  5. 重温强化学习之无模型学习方法:时间差分方法

    1.时间差分方法简介 强化学习中最核心也是最新奇的想法 混合DP和MC思想:        与MC类似,TD也从历史经验中学习:与DP类似使用后继状态的值函数更新当前状态的值函数 蒙特卡洛只是适用于片 ...

  6. 强化学习4——无模型控制model-free control (On-Policy learning:Sarsa和Off-policy learning:Q-learning)

    文章目录 前言 无模型控制 问题 思路 方法 On-Policy learning MC Sarsa Off-policy learning Q-learning On-Policy learning ...

  7. 强化学习(四) - 无模型学习(MC、TDL)

    上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题.具体的做法有两个:一个是策略迭代,一个是值迭代. 从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题. ...

  8. 重温强化学习之无模型学习方法:TD(lambda)

    1.多步自举 一步TD:TD(0),白色圈V函数,黑色Q函数,后继状态V函数更新当前状态V函数,采样,智能体和环境进行交互.根据状态采取一个动作,转为后继状态,环境给一个奖励-->采样一步得到后 ...

  9. 强化学习《基于价值 - MC方法和TD方法》

    这一期的RL学习全是学习自李宏毅老师的教程,在自己多次学习后,自以为比较能理解后,才写下来了的.因此很多截图呢直接来自李宏毅老师的截图,很多地方我就不亲自写式子了. 本文讲解Value-Based的方 ...

最新文章

  1. PHP程序员突破成长瓶颈
  2. 【Caffe实践】基于Caffe的人脸检测实现
  3. centos7.3安装nodejs
  4. dw空心圆项目符号_如何懂建筑施工图?搞懂这些符号解析,耐下性子研究不会学不会...
  5. 新疆缺少计算机网络技术吗,新疆阿克苏职业技术学院的计算机网络技术专业好不?...
  6. oracle对某两列求和再求和_函数实战:多列条件求和
  7. shiro密码正确也会匹配错误_智能商贸-Shiro
  8. 为什么物联网产品迫切需要良好的 UI/UX 设计?
  9. python类takes no arguments_Python构造函数报错:TypeError: People() takes no arguments
  10. 「短篇小说」灵囚 540 天
  11. 云栖社区版权提示与说明【2018版】
  12. PE框架学习之道:PE框架——template,command,chain
  13. GoogleMap获取地图中心点位置信息
  14. Office基础操作:Word 使用交叉引用的超链接后,如何一步操作返回至引用处
  15. 水的黏度 Viscosity of Water
  16. 对端口Com1的访问被拒绝
  17. vs code + mingw64配置C语言环境
  18. ccxt php系统,CCXT中文开发手册
  19. 制作哔哩哔哩弹幕词云
  20. php更换wordpress用户头像,WordPress如何添加用户自定义上传头像功能

热门文章

  1. MCtalk教育创业者说:学吧课堂K12领域转型突围之路
  2. 7个套路让妹子心甘情愿陪你看魔兽世界大电影
  3. Java中的queue和deque
  4. System.InvalidOperationException:“线程间操作无效: 从不是创建控件“txtPortName02”的线程访问它。”...
  5. [C#]手把手教你打造Socket的TCP通讯连接(一)
  6. zend 修改默认view路径,添加扩展view
  7. neo4j 修改密码
  8. MongoDB中如何优雅地删除大量数据
  9. Apache Common常用jar包
  10. Django REST Framework(DRF)教程:快速入门