马尔科夫奖励过程MRP

状态转移函数：P(St+1=s′∣st=s)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s\right)P(St+1=s′∣st=s)

奖励函数：R(st=s)=E[rt∣st=s]R\left(s_{t}=s\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s\right]R(st=s)=E[rt∣st=s]

回报：Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT\mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}}Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT

回报只是状态转移中的一条路径的价值

状态价值函数：回报的期望Vt(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+…+γT−t−1RT∣st=s]\begin{aligned} \mathrm{V}_{\mathrm{t}}(\mathrm{s}) &=\mathbb{E}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathbb{E}\left[\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \end{aligned}Vt(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+…+γT−t−1RT∣st=s]，

状态价值函数相较于奖励函数，考虑了折扣后的未来的奖励，是一个更加靠谱的状态价值的估计;奖励函数只是考虑了当下。
状态价值函数是回报的一个期望
Rt+1表示t时刻的奖励R_{t+1}表示t时刻的奖励Rt+1表示t时刻的奖励

马尔科夫决策过程MDP

状态转移概率P(St+1=s′∣st=s，at=a)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s，a_{t}=a\right)P(St+1=s′∣st=s，at=a)

奖励函数R(st=s，at=a)=E[rt∣st=s，at=a]R\left(s_{t}=s，a_{t}=a\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s，a_{t}=a\right]R(st=s，at=a)=E[rt∣st=s，at=a]

状态价值函数：vπ(s)=Eπ[Gt∣st=s]\mathrm{v}^{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right]vπ(s)=Eπ[Gt∣st=s]

动作价值函数，Q函数：qπ(s,a)=Eπ[Gt∣st=s,At=a]q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, A_{t}=a\right]qπ(s,a)=Eπ[Gt∣st=s,At=a]

强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别相关推荐

马尔可夫Markov决策过程 MDP、马尔可夫奖励过程MRP
引言在概率论及统计学中,马尔可夫过程(英语:Markov process)是一个具备了马尔可夫性质的随机过程,因为俄国数学家安德雷·马尔可夫得名.马尔可夫过程是不具备记忆特质的(memoryless ...
马尔可夫奖励过程(MRP)
马尔可夫奖励过程目录逻辑场景回顾概念介绍状态(State): 动作(Action): 策略(Policy): 奖励(即时奖励)(Reward): 状态转移函数(State Transition ...
马科夫过程（MP) -＞马尔科夫奖励过程（MRP） -＞马尔科夫决策过程（MDP）
一 .马尔可夫性 - 只与当前状态有关马尔科夫性,当前状态包含了对未来预测所需要的有用信息,过去信息对未来预测不重要,该就满足了马尔科夫性,严格来说,就是某一状态信息包含了所有相关的历史,只要当前状 ...
强化学习笔记（二）马尔可夫决策过程
马尔可夫决策过程一.马尔可夫过程(MP) 二.马尔可夫奖励过程(MRP) 三.马尔可夫决策过程(MDP) 四.价值函数的求解方法 1.蒙特卡罗法 2.动态规划法 3.时序差分学习五.MDP的两个核 ...
强化学习笔记：马尔可夫过程马尔可夫奖励过程
1 马尔可夫性质 (Markov Property) 我们设状态的历史为(包含了之前的所有状态) 如果一个状态转移是符合马尔可夫性质的,也就是满足如下条件: 也就是说,从当前状态转移到状态的概率,就直 ...
深度强化学习笔记（二）马尔可夫决策过程
地址:https://datawhalechina.github.io/easy-rl/ 马尔可夫决策过程上图介绍了在强化学习里面 agent 跟 environment 之间的交互,agent 在 ...
强化学习笔记（一）马尔可夫决策过程
强化学习笔记(一)马尔可夫决策过程参考资料正文 Q1: R t R_{t} Rt, G t G_{t} Gt, V ( S t ) V(S_{t}) V(St)都有奖励或收获的含义,它们有什 ...
强化学习（二）：马尔可夫决策过程
首先感谢B站UP主:Re_miniscence_,本篇文章总结来自于他,并添加了一些自己的理解. 该up的BB空间 1.随机变量概率论中的知识,如用X表示一个随机事件,用p(X)表示概率. 2.随机 ...
强化学习：10种真实的奖励与惩罚应用
作者 | Patrycja 翻译 | Katie,责编 | 晋兆雨出品 | AI科技大本营头图 | 付费下载于视觉中国在强化学习(Reinforcement Learning)中,对代理进行奖励 ...

强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别

马尔科夫奖励过程MRP

马尔科夫决策过程MDP

强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别相关推荐

最新文章

热门文章