强化学习4——无模型预测(蒙特卡洛法和TD法)
文章目录
- 强化学习——无模型预测与控制
- 无模型的概念
- 无模型预测
- 蒙特卡洛法
- 基本蒙特卡洛
- 改进增量MC更新算法
- 动态规划(DP)与蒙特卡洛(MC)的区别
- Temporal Difference(TD)学习
- TD和MC的区别
强化学习——无模型预测与控制
无模型的概念
状态转移的概率和相应的奖励都是未知的,需要agent试探,相当于经验主义。agent通过不断地执行action与环境交互,然后得到实际的return,执行N次求其平均值。
无模型预测
蒙特卡洛法
agent在现实中从状态sss通过一个策略与环境进行交互,得到多个轨迹,每个轨迹会得到一个实际的收益Gt=Rt+1+γRt+2+γ2Rt+3+…G_t=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldotsGt=Rt+1+γRt+2+γ2Rt+3+…,对多个轨迹收益进行一个平均,就可以得到在这个策略下面,状态sss的价值vπ(s)=Eπ[Gt∣st=s]v_{\pi}(s)=\mathbb{E}_{ \pi}\left[G_{t} \mid s_{t}=s\right]vπ(s)=Eπ[Gt∣st=s]。
基本蒙特卡洛
基本蒙特卡洛解析:
① agent通过策略π\piπ与环境交互得到许多轨迹序列(agent通过action不停地和environment交互得到),每个轨迹中的状态都有对应的回报Gt。
② 开始估算v(s),N(s)=0,S(s)=0,t=0
① 在每个 episode 中,如果在时间步 t 状态 s 被访问了,那么
①状态 s 的访问数 N(s)N(s)N(s) 增加 1,
② 状态 s 的总的回报 S(s)S(s)S(s) 增加 GtG_tGt。
③状态 s 的价值可以通过 return 的平均来估计,即 v(s)=S(s)/N(s)v(s)=S(s)/N(s)v(s)=S(s)/N(s)
根据大数定律只要N(s)→∞N_(s) \rightarrow \infinN(s)→∞,v(s)→vπ(s)v(s) \rightarrow v^\pi(s)v(s)→vπ(s)
改进增量MC更新算法
红线公式推导如下
动态规划(DP)与蒙特卡洛(MC)的区别
动态规划(DP)需要考虑到下一次转移的所有状态;蒙特卡洛因为是现实中得到的return,不存在不确定性,所以它下一次转移只可能是一个状态。
Temporal Difference(TD)学习
v(St)←v(St)+1N(St)(Gt−v(St))v\left(S_{t}\right) \leftarrow v\left(S_{t}\right)+\frac{1}{N\left(S_{t}\right)}\left(G_{t}-v\left(S_{t}\right)\right)v(St)←v(St)+N(St)1(Gt−v(St)),其中Gt=Rt+1+γRt+2+γ2Rt+3+…=Rt+1+γGt+1G_t=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldots=R_{t+1}+\gamma G_{t+1}Gt=Rt+1+γRt+2+γ2Rt+3+…=Rt+1+γGt+1,而由于这是一个确定的真实学习场景所以v(st+1)=E[Gt+1∣st+1=s]=Gt+1v(s_{t+1})=\mathbb{E}\left[G_{t+1} \mid s_{t+1}=s\right]=G_{t+1}v(st+1)=E[Gt+1∣st+1=s]=Gt+1
TD和MC的区别
TD:从不完整的序列开始学习;可以是连续的无终止的状态;利用了马尔科夫性质
MC:整个序列完成之后开始学习;必须有终止;可以不是马尔科夫的环境
强化学习4——无模型预测(蒙特卡洛法和TD法)相关推荐
- [论文]基于强化学习的无模型水下机器人深度控制
基于强化学习的无模型水下机器人深度控制 摘要 介绍 问题公式 A.水下机器人的坐标框架 B.深度控制问题 马尔科夫模型 A.马尔科夫决策 B.恒定深度控制MDP C.弯曲深度控制MDP D.海底追踪的 ...
- 基于模型的强化学习比无模型的强化学习更好?错!
作者 | Carles Gelada and Jacob Buckman 编辑 | DeepRL 来源 | 深度强化学习实验室(ID:Deep-RL) [导读]许多研究人员认为,基于模型的强化学习(M ...
- 强化学习之无模型方法一:蒙特卡洛
无模型方法(model-free) 无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法.该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索. 由于 ...
- 重温强化学习之无模型学习方法:蒙特卡洛方法
1.无模型方法简介 无模型属于学习方法的一种,(学习和规划),需要智能体和环境进行交互,一般采用样本备份,需要结合充分的探索 MDPs中未知P,R-无模型 交互是为了更加了解环境,了解状态 动态规划是 ...
- 重温强化学习之无模型学习方法:时间差分方法
1.时间差分方法简介 强化学习中最核心也是最新奇的想法 混合DP和MC思想: 与MC类似,TD也从历史经验中学习:与DP类似使用后继状态的值函数更新当前状态的值函数 蒙特卡洛只是适用于片 ...
- 强化学习4——无模型控制model-free control (On-Policy learning:Sarsa和Off-policy learning:Q-learning)
文章目录 前言 无模型控制 问题 思路 方法 On-Policy learning MC Sarsa Off-policy learning Q-learning On-Policy learning ...
- 强化学习(四) - 无模型学习(MC、TDL)
上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题.具体的做法有两个:一个是策略迭代,一个是值迭代. 从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题. ...
- 重温强化学习之无模型学习方法:TD(lambda)
1.多步自举 一步TD:TD(0),白色圈V函数,黑色Q函数,后继状态V函数更新当前状态V函数,采样,智能体和环境进行交互.根据状态采取一个动作,转为后继状态,环境给一个奖励-->采样一步得到后 ...
- 强化学习《基于价值 - MC方法和TD方法》
这一期的RL学习全是学习自李宏毅老师的教程,在自己多次学习后,自以为比较能理解后,才写下来了的.因此很多截图呢直接来自李宏毅老师的截图,很多地方我就不亲自写式子了. 本文讲解Value-Based的方 ...
最新文章
- PHP程序员突破成长瓶颈
- 【Caffe实践】基于Caffe的人脸检测实现
- centos7.3安装nodejs
- dw空心圆项目符号_如何懂建筑施工图?搞懂这些符号解析,耐下性子研究不会学不会...
- 新疆缺少计算机网络技术吗,新疆阿克苏职业技术学院的计算机网络技术专业好不?...
- oracle对某两列求和再求和_函数实战:多列条件求和
- shiro密码正确也会匹配错误_智能商贸-Shiro
- 为什么物联网产品迫切需要良好的 UI/UX 设计?
- python类takes no arguments_Python构造函数报错:TypeError: People() takes no arguments
- 「短篇小说」灵囚 540 天
- 云栖社区版权提示与说明【2018版】
- PE框架学习之道:PE框架——template,command,chain
- GoogleMap获取地图中心点位置信息
- Office基础操作:Word 使用交叉引用的超链接后,如何一步操作返回至引用处
- 水的黏度 Viscosity of Water
- 对端口Com1的访问被拒绝
- vs code + mingw64配置C语言环境
- ccxt php系统,CCXT中文开发手册
- 制作哔哩哔哩弹幕词云
- php更换wordpress用户头像,WordPress如何添加用户自定义上传头像功能
热门文章
- MCtalk教育创业者说:学吧课堂K12领域转型突围之路
- 7个套路让妹子心甘情愿陪你看魔兽世界大电影
- Java中的queue和deque
- System.InvalidOperationException:“线程间操作无效: 从不是创建控件“txtPortName02”的线程访问它。”...
- [C#]手把手教你打造Socket的TCP通讯连接(一)
- zend 修改默认view路径,添加扩展view
- neo4j 修改密码
- MongoDB中如何优雅地删除大量数据
- Apache Common常用jar包
- Django REST Framework(DRF)教程:快速入门