强化学习note2——value iteration和policy iteration的区别,MC和TD的区别
value iteration和policy iteration的区别
value iteration: ①多次迭代Bellman最优等式和Bellman等式,等价值函数收敛后,②再用价值函数带入贝尔曼等式得到动作价值函数,策略就从最大的动作价值函数选取。(策略没有参与)policyiteration:①随机选取一个策略policy,用这个policy对Bellman等式进行多次迭代计算直到价值函数收敛,②再用价值函数求得动作价值函数,策略就从最大的动作价值函数选取。③然后用新的策略再进入①计算。
对①②③进行多次迭代直到策略收敛。(策略一直参与)MC和TD的区别
MC:基本的MC算法是采集n条轨迹,假设计算s1状态的价值函数,先取某一条轨迹中的n个不同时刻s1状态的回报相加再除以n就得到这条轨迹上s1状态的价值函数,然后按此方法计算其他轨迹的s1状态的价值函数,这样就得到n个s1状态的价值函数,最后取平均值即可。TD:增量型MC算法的变种,它相较于增量型MC算法,不需要agent与环境交互直到得到一条完整的轨迹,它只需要与环境进行一次交互得到一个Rt+1R_{t+1}Rt+1,然后采用DP算法进行迭代计算。
value iteration,policy iteration和MC,TD的区别
value iteration,policy iteration:不仅可以用来对价值函数进行估值,但是需要知道model;还能得到相应的最优的策略
MC,TD:只是用来对价值函数进行估值,不需要知道model
强化学习note2——value iteration和policy iteration的区别,MC和TD的区别相关推荐
- 【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 引用莫凡老师的素材 https://morvanzhou.github.io/tut ...
- 强化学习(4):策略梯度Policy Gradient算法
本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成 终于到Policy Gradient方法了! 一.引言 reinforcement le ...
- 机器学习-54-RL-06-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)
文章目录 Actor-Critic Actor-Critic Review – Policy Gradient Review – Q-Learning Actor-Critic Advantage A ...
- 深度强化学习(三):Policy Gradients
###一.Policy-based RL概述 ####1.Policy-based RL起源 在学习Policy Gradiens(PG)之前,我们将强化学习的方法分成两类进行考虑: 一类是value ...
- 强化学习(二):Policy Gradient理解
上一章已经介绍了基于值函数方法的简单的DQN的理解,而在深度强化学习领域另一种基于端到端思路的策略梯度(Policy Gradient)算法相较而言可能取得更好的结果,也更加方便理解.于是,本章我们就 ...
- 【7】强化学习之策略梯度(Policy Gradient)
[李宏毅]强化学习笔记(一) 什么是强化学习 监督学习 VS. 强化学习 AlphaGo Chat-bot Outline 1. Policy-based Approach:Learning an A ...
- 强化学习笔记 DDPG (Deep Deterministic Policy Gradient)
1 总述 总体来讲,和actor-critic 差不多,只不过这里用了target network 和experience relay 强化学习笔记 experience replay 经验回放_UQ ...
- 强化学习 / 动态规划:策略改进(Policy Improvement)使策略更优的数学证明
前言: Sutton第二版<强化学习>中,第4章第2节"策略改进"介绍了基于贪心算法的策略改进.为什么以(只考虑一个后续状态来选择当前动作的)贪心算法进行更新的策略一定 ...
- 强化学习笔记: MDP - Policy iteration
1 Policy iteration介绍 Policy iteration式马尔可夫决策过程 MDP里面用来搜索最优策略的算法 Policy iteration 由两个步骤组成:policy eval ...
最新文章
- 在web项目中使用SpringMVC
- 计算机版本号怎么看,怎样查看电脑版本型号,怎样查看电脑版本信息
- 【转载】扫盲概念RPA
- python三元表达式
- uefi启动如何进入
- Wordpress SEO robots
- php判断微信版本,判断是否是微信访问并获取版本号
- localhost方式提交作业到spark运行
- linux下的C语言开发(开篇)
- AIoT 又迎一利器,涂鸦云开发平台来了!
- 小学计算机小蘑菇教案,森林里的小蘑菇教案.doc
- 数据结构笔记(九)-- 单链队列
- 使用Tftpd64收集交换机日志
- 浅谈CPRI原理及测试解决方案(转)
- Android简易项目--傻瓜式阿拉伯语输入法(Dummy Arabic Input)
- 《东周列国志》第四十回 先轸诡谋激子玉 晋楚城濮大交兵
- hdu 校赛 油菜花王国
- java 中 Native.loadLibrary 不能加载 jar 包中库文件的解决方案
- 昂达b450s 内存超频3200,xmp设置教程
- TeamViewer用户注意:请尽快将其更新为最新版本
热门文章
- 0305互联网新闻 | 钉钉发布“未来校园”千校计划;海南出台方案鼓励发展网约医疗服务...
- 855C Helga Hufflepuff's Cup
- 11.28 限定某个目录禁止解析php 11.29 限制user_agent 11.30/11.31 php相关配置
- Java8:Lambda表达式增强版Comparator和排序
- thinkphp phpexcel导出
- 如何申请一份iOS工作
- SCCM 2012系列之一 Operations Manager 关键概念
- 介绍微软一个罕为人知的无敌命令
- (大纲)三小时学会openCV
- 史上最全的SpringCloud入门学习教程