强化学习note2——value iteration和policy iteration的区别，MC和TD的区别

value iteration和policy iteration的区别
value iteration: ①多次迭代Bellman最优等式和Bellman等式，等价值函数收敛后，②再用价值函数带入贝尔曼等式得到动作价值函数，策略就从最大的动作价值函数选取。（策略没有参与）

policyiteration：①随机选取一个策略policy，用这个policy对Bellman等式进行多次迭代计算直到价值函数收敛，②再用价值函数求得动作价值函数，策略就从最大的动作价值函数选取。③然后用新的策略再进入①计算。
对①②③进行多次迭代直到策略收敛。（策略一直参与）
MC和TD的区别
MC：基本的MC算法是采集n条轨迹，假设计算s1状态的价值函数，先取某一条轨迹中的n个不同时刻s1状态的回报相加再除以n就得到这条轨迹上s1状态的价值函数，然后按此方法计算其他轨迹的s1状态的价值函数，这样就得到n个s1状态的价值函数，最后取平均值即可。

TD：增量型MC算法的变种，它相较于增量型MC算法，不需要agent与环境交互直到得到一条完整的轨迹，它只需要与环境进行一次交互得到一个Rt+1R_{t+1}Rt+1，然后采用DP算法进行迭代计算。
value iteration，policy iteration和MC，TD的区别

value iteration，policy iteration：不仅可以用来对价值函数进行估值，但是需要知道model；还能得到相应的最优的策略

MC，TD：只是用来对价值函数进行估值，不需要知道model

强化学习note2——value iteration和policy iteration的区别，MC和TD的区别相关推荐

【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 引用莫凡老师的素材 https://morvanzhou.github.io/tut ...
强化学习(4)：策略梯度Policy Gradient算法
本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成终于到Policy Gradient方法了! 一.引言 reinforcement le ...
机器学习-54-RL-06-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)
文章目录 Actor-Critic Actor-Critic Review – Policy Gradient Review – Q-Learning Actor-Critic Advantage A ...
深度强化学习（三）：Policy Gradients
###一.Policy-based RL概述 ####1.Policy-based RL起源在学习Policy Gradiens(PG)之前,我们将强化学习的方法分成两类进行考虑: 一类是value ...
强化学习（二）：Policy Gradient理解
上一章已经介绍了基于值函数方法的简单的DQN的理解,而在深度强化学习领域另一种基于端到端思路的策略梯度(Policy Gradient)算法相较而言可能取得更好的结果,也更加方便理解.于是,本章我们就 ...
【7】强化学习之策略梯度（Policy Gradient）
[李宏毅]强化学习笔记(一) 什么是强化学习监督学习 VS. 强化学习 AlphaGo Chat-bot Outline 1. Policy-based Approach:Learning an A ...
强化学习笔记 DDPG (Deep Deterministic Policy Gradient)
1 总述总体来讲,和actor-critic 差不多,只不过这里用了target network 和experience relay 强化学习笔记 experience replay 经验回放_UQ ...
强化学习 / 动态规划：策略改进（Policy Improvement）使策略更优的数学证明
前言: Sutton第二版<强化学习>中,第4章第2节"策略改进"介绍了基于贪心算法的策略改进.为什么以(只考虑一个后续状态来选择当前动作的)贪心算法进行更新的策略一定 ...
强化学习笔记： MDP - Policy iteration
1 Policy iteration介绍 Policy iteration式马尔可夫决策过程 MDP里面用来搜索最优策略的算法 Policy iteration 由两个步骤组成:policy eval ...

强化学习note2——value iteration和policy iteration的区别，MC和TD的区别

强化学习note2——value iteration和policy iteration的区别，MC和TD的区别相关推荐

最新文章

热门文章