这里写目录标题

  • 1 马尔可夫性质
  • 2 马尔可夫过程
  • 3 马尔可夫奖励过程(Markov reward process, MRP)
    • 3.1 MRP的贝尔曼方程
    • 3.2 MRP的贝尔曼方程求解方法
    • 3.3 总结
  • 4 马尔可夫决策过程(Markov decision process, MDP)
    • 4.1 MDP状态价值函数贝尔曼方程推导
    • 4.2 MDP动作价值函数
    • 4.3 动作价值函数&状态价值函数的关系
    • 4.4 MDP寻找最优策略&贝尔曼最优公式
    • 4.4 总结
  • 5 强化学习引入MDP的原因

1 马尔可夫性质

马尔可夫性质(Markov property)是指一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。即: P ( S t + 1 ∣ S t , S t − 1 , . . . , S 1 ) = P ( S t + 1 ∣ S t ) P(S_{t+1}|S_t,S_{t-1},...,S_1)=P(S_{t+1}|S_t) P(St+1​∣St​,St−1​,...,S1​)=P(St+1​∣St​)

2 马尔可夫过程

马尔可夫链/过程是满足马尔可夫性质的随机过程,为一个两元组 < S , P > <S,P> <S,P>:

  • S S S 是状态集合 s ∈ S s \in S s∈S。
  • P P P是状态转移矩阵。用状态转移矩阵 P P P来描述在状态 s t s_t st​到达其他状态的概率 p ( s t + 1 ∣ s t ) p(s_{t+1} \mid s_t) p(st+1​∣st​)
    P = ( p ( s 1 ∣ s 1 ) p ( s 2 ∣ s 1 ) … p ( s N ∣ s 1 ) p ( s 1 ∣ s 2 ) p ( s 2 ∣ s 2 ) … p ( s N ∣ s 2 ) ⋮ ⋮ ⋱ ⋮ p ( s 1 ∣ s N ) p ( s 2 ∣ s N ) … p ( s N ∣ s N ) ) \boldsymbol{P}=\left(\begin{array}{cccc} p\left(s_{1} \mid s_{1}\right) & p\left(s_{2} \mid s_{1}\right) & \ldots & p\left(s_{N} \mid s_{1}\right) \\ p\left(s_{1} \mid s_{2}\right) & p\left(s_{2} \mid s_{2}\right) & \ldots & p\left(s_{N} \mid s_{2}\right) \\ \vdots & \vdots & \ddots & \vdots \\ p\left(s_{1} \mid s_{N}\right) & p\left(s_{2} \mid s_{N}\right) & \ldots & p\left(s_{N} \mid s_{N}\right) \end{array}\right) P= ​p(s1​∣s1​)p(s1​∣s2​)⋮p(s1​∣sN​)​p(s2​∣s1​)p(s2​∣s2​)⋮p(s2​∣sN​)​……⋱…​p(sN​∣s1​)p(sN​∣s2​)⋮p(sN​∣sN​)​ ​

3 马尔可夫奖励过程(Markov reward process, MRP)

马尔可夫奖励过程=马尔可夫链+奖励,为一个四元组 < S , P , R , γ > <S,P,R,\gamma> <S,P,R,γ>:

  • S S S 是状态集合 s ∈ S s \in S s∈S。
  • P P P是状态转移矩阵。用状态转移矩阵 P P P来描述在状态 s t s_t st​到达其他状态的概率 p ( s t + 1 ∣ s t ) p(s_{t+1} \mid s_t) p(st+1​∣st​)。
  • R R R是奖励函数, R ( s t = s ) = E [ r t ∣ s t = s ] R(s_t=s)=\mathbb{E} [r_t \mid s_t = s] R(st​=s)=E[rt​∣st​=s]。
  • γ \gamma γ是折扣率。

3.1 MRP的贝尔曼方程

MRP中引入了奖励的概念,因此对于任意状态 ∀ s ∈ S \forall s \in S ∀s∈S可以计算该状态的回报 v ( s ) v(s) v(s),推导出MRP贝尔曼方程如下:
v π ( s ) = E [ G t ∣ S t = s ] = E [ R t + 1 + γ G t + 1 ∣ S t = s ] = E [ R t + 1 ∣ S t = s ] + γ E [ G t + 1 ∣ S t = s ] = R ( s ) + γ ∑ s ′ p ( s ′ ∣ s ) v ( s ′ ) \begin{align} v_\pi(s) &=\mathbb{E}[G_t|S_t=s] \\ &=\mathbb{E}[R_{t+1}+\gamma G_{t+1} |S_t=s]\\ &=\textcolor{red}{\mathbb{E} [R_{t+1}|S_t=s]}+ \gamma \textcolor{blue}{\mathbb{E}[G_{t+1} |S_t=s]} \\ &=R(s)+\gamma \sum_{s'} p(s' \mid s) v(s') \end{align} vπ​(s)​=E[Gt​∣St​=s]=E[Rt+1​+γGt+1​∣St​=s]=E[Rt+1​∣St​=s]+γE[Gt+1​∣St​=s]=R(s)+γs′∑​p(s′∣s)v(s′)​​

除了一般形式,我们还需要矩阵形式:
v = r + γ P v \begin{align} \bold{v} = \bold{r}+ \gamma \bold{P} \bold{v}\end{align} v=r+γPv​​
我们可以把它展开(假设有4个状态)
[ v π ( s 1 ) v π ( s 2 ) v π ( s 3 ) v π ( s 4 ) ] ⏟ v π = [ r π ( s 1 ) r π ( s 2 ) r π ( s 3 ) r π ( s 4 ) ] ⏟ r π + γ [ p π ( s 1 ∣ s 1 ) p π ( s 2 ∣ s 1 ) p π ( s 3 ∣ s 1 ) p π ( s 4 ∣ s 1 ) p π ( s 1 ∣ s 2 ) p π ( s 2 ∣ s 2 ) p π ( s 3 ∣ s 2 ) p π ( s 4 ∣ s 2 ) p π ( s 1 ∣ s 3 ) p π ( s 2 ∣ s 3 ) p π ( s 3 ∣ s 3 ) p π ( s 4 ∣ s 3 ) p π ( s 1 ∣ s 4 ) p π ( s 2 ∣ s 4 ) p π ( s 3 ∣ s 4 ) p π ( s 4 ∣ s 4 ) ] ⏟ P π [ v π ( s 1 ) v π ( s 2 ) v π ( s 3 ) v π ( s 4 ) ] ⏟ v π . \underbrace{\left[\begin{array}{l} v_\pi\left(s_1\right) \\ v_\pi\left(s_2\right) \\ v_\pi\left(s_3\right) \\ v_\pi\left(s_4\right) \end{array}\right]}_{v_\pi}=\underbrace{\left[\begin{array}{l} r_\pi\left(s_1\right) \\ r_\pi\left(s_2\right) \\ r_\pi\left(s_3\right) \\ r_\pi\left(s_4\right) \end{array}\right]}_{r_\pi}+\gamma \underbrace{\left[\begin{array}{llll} p_\pi\left(s_1 \mid s_1\right) & p_\pi\left(s_2 \mid s_1\right) & p_\pi\left(s_3 \mid s_1\right) & p_\pi\left(s_4 \mid s_1\right) \\ p_\pi\left(s_1 \mid s_2\right) & p_\pi\left(s_2 \mid s_2\right) & p_\pi\left(s_3 \mid s_2\right) & p_\pi\left(s_4 \mid s_2\right) \\ p_\pi\left(s_1 \mid s_3\right) & p_\pi\left(s_2 \mid s_3\right) & p_\pi\left(s_3 \mid s_3\right) & p_\pi\left(s_4 \mid s_3\right) \\ p_\pi\left(s_1 \mid s_4\right) & p_\pi\left(s_2 \mid s_4\right) & p_\pi\left(s_3 \mid s_4\right) & p_\pi\left(s_4 \mid s_4\right) \end{array}\right]}_{P_\pi} \underbrace{\left[\begin{array}{l} v_\pi\left(s_1\right) \\ v_\pi\left(s_2\right) \\ v_\pi\left(s_3\right) \\ v_\pi\left(s_4\right) \end{array}\right]}_{v_\pi} . vπ​ ​vπ​(s1​)vπ​(s2​)vπ​(s3​)vπ​(s4​)​ ​​​=rπ​ ​rπ​(s1​)rπ​(s2​)rπ​(s3​)rπ​(s4​)​ ​​​+γPπ​ ​pπ​(s1​∣s1​)pπ​(s1​∣s2​)pπ​(s1​∣s3​)pπ​(s1​∣s4​)​pπ​(s2​∣s1​)pπ​(s2​∣s2​)pπ​(s2​∣s3​)pπ​(s2​∣s4​)​pπ​(s3​∣s1​)pπ​(s3​∣s2​)pπ​(s3​∣s3​)pπ​(s3​∣s4​)​pπ​(s4​∣s1​)pπ​(s4​∣s2​)pπ​(s4​∣s3​)pπ​(s4​∣s4​)​ ​​​vπ​ ​vπ​(s1​)vπ​(s2​)vπ​(s3​)vπ​(s4​)​ ​​​.

3.2 MRP的贝尔曼方程求解方法

式(5)是一个线性方程组,因此可以直接得到解析解:

v = r + γ P v ( I − γ P ) v = r v = ( I − γ P ) − 1 r \begin{align} \bold{v}=\bold{r}+\gamma \bold{P}\bold{v}\\ ({\bold{I}}-\gamma \bold{P}) \bold{v}=\bold{r} \\ \bold{v}=(\bold{I}-\gamma \bold{P})^{-1} \bold{r} \end{align} v=r+γPv(I−γP)v=rv=(I−γP)−1r​​
斜体样式
从上式可知,可以通过矩阵逆运算直接求解方程,但矩阵求逆的复杂度为O(n^3),n为状态数。因此,直接求解仅适用于状态空间规模小的MRP。状态空间规模大的MRP的求解通常使用迭代法。常用的迭代方法有:动态规划(Dynamic Programming)、蒙特卡洛评估(Monte-Carlo evaluation)、时序差分学(Temporal-Difference)等

3.3 总结

MRP贝尔曼方程

  • 一般形式:
  • 矩阵形式:

求解方法:

  • 解析法:适应于规模较小的问题
  • 迭代方法:适应于规模较大的问题,常用方法有动态规划、蒙特卡洛模拟、时序差分法

4 马尔可夫决策过程(Markov decision process, MDP)

马尔可夫决策过程=马尔可夫奖励过程+动作,MDP是一个五元组 < S , A , P , R , γ > <S,A,P,R,\gamma> <S,A,P,R,γ>

  • S S S 是状态空间 s ∈ S s \in S s∈S。
  • A A A是动作空间 a ∈ A a \in A a∈A。
  • P P P是状态转移矩阵。用状态转移矩阵 P P P来描述,在状态 s t s_t st​,采取动作 a t a_t at​,到达其他状态的概率 p ( s t + 1 ∣ s t = s , a t = a ) p(s_{t+1} \mid s_t=s, a_t=a) p(st+1​∣st​=s,at​=a)。
  • R R R是奖励函数, R ( s t = s , a t = a ) = E [ r t ∣ s t = s , a t = a ] R(s_t=s, a_t=a)=\mathbb{E} [r_t \mid s_t = s, a_t=a] R(st​=s,at​=a)=E[rt​∣st​=s,at​=a]。
  • γ \gamma γ是折扣率。

Markov decison process中,Markov代表的是马尔可夫性质(无后效性);decision代表的是策略(Policy),在某个状态s,采取动作a的概率是 π ( a ∣ s ) = P ( a t = a ∣ s t = s ) \pi(a|s)=P(a_t=a \mid s_t = s) π(a∣s)=P(at​=a∣st​=s);process代表的是状态转移概率

4.1 MDP状态价值函数贝尔曼方程推导

MDP中因为有了策略 π \pi π,状态价值函数 v π ( s ) v_{\pi}(s) vπ​(s)是从状态s开始,执行策略所获得的回报的期望。
v π ( s ) = E [ G t ∣ S t = s ] \begin{align} v_\pi(s)=\mathbb{E}[G_t|S_t=s] \end{align} vπ​(s)=E[Gt​∣St​=s]​​

根据状态价值的定义,推导Bellman equation:
v π ( s ) = E [ G t ∣ S t = s ] = E [ R t + 1 + γ G t + 1 ∣ S t = s ] = E [ R t + 1 ∣ S t = s ] + γ E [ G t + 1 ∣ S t = s ] = ∑ a π ( a ∣ s ) E [ R t + 1 ∣ S t = s , A t = a ] + γ ∑ s ′ E [ G t + 1 ∣ S t = s , S t + 1 = s ′ ] p ( s ′ ∣ s ) = ∑ a π ( a ∣ s ) R s a + γ ∑ s ′ v π ( s ′ ) ∑ a P s s ′ a π ( s ∣ a ) = ∑ a π ( a ∣ s ) ( R s a + γ ∑ s ′ P s s ′ a v π ( s ′ ) ) \begin{align} v_\pi(s) &=\mathbb{E}[G_t|S_t=s] \\ &=\mathbb{E}[R_{t+1}+\gamma G_{t+1} |S_t=s]\\ &=\textcolor{red}{\mathbb{E} [R_{t+1}|S_t=s]}+ \gamma \textcolor{blue}{\mathbb{E}[G_{t+1} |S_t=s]} \\ &=\textcolor{red}{ \sum_{a}{\pi(a \mid s) \mathbb{E}[R_{t+1}|S_t=s,A_t=a]}}+\gamma \textcolor{blue}{ \sum_{s'}{ \mathbb{E}[G_{t+1} | S_t=s,S_{t+1}=s' ] p(s'|s)}}\\ &=\textcolor{red}{\sum_a \pi( a \mid s)R_s^a}+ \gamma \textcolor{blue}{\sum_{s'}{v_{\pi}(s') \sum_{a}{P_{ss'}^a \pi(s|a)}}}\\ &= \sum_{a}{\pi(a \mid s)} \left( R_s^a +\gamma \sum_{s'}{P_{ss'}^a}v_{\pi}(s') \right) \end{align} vπ​(s)​=E[Gt​∣St​=s]=E[Rt+1​+γGt+1​∣St​=s]=E[Rt+1​∣St​=s]+γE[Gt+1​∣St​=s]=a∑​π(a∣s)E[Rt+1​∣St​=s,At​=a]+γs′∑​E[Gt+1​∣St​=s,St+1​=s′]p(s′∣s)=a∑​π(a∣s)Rsa​+γs′∑​vπ​(s′)a∑​Pss′a​π(s∣a)=a∑​π(a∣s)(Rsa​+γs′∑​Pss′a​vπ​(s′))​​

除了一般形式,我们还需要矩阵形式:
v π ( s ) = ∑ a π ( a ∣ s ) ( R s a + γ ∑ s ′ P s s ′ a v π ( s ′ ) ) = ∑ a π ( a ∣ s ) R s a + γ ∑ s ′ v π ( s ′ ) ∑ a P s s ′ a π ( s ∣ a ) = r π ( s ) + γ ∑ s ′ p π ( s ′ ∣ s ) v π ( s ′ ) \begin{align} v_\pi(s) &= \sum_{a}{\pi(a \mid s)} \left( R_s^a +\gamma \sum_{s'}{P_{ss'}^a}v_{\pi}(s') \right)\\ &=\textcolor{red}{ \sum_a{\pi(a \mid s)} R_s^a }+ \gamma \textcolor{blue}{\sum_{s'}{v_{\pi}(s') \sum_{a}{P_{ss'}^a \pi(s \mid a)}}}\\ &=r_\pi (s)+\gamma \sum_{s'}{p_\pi(s' \mid s)v_\pi(s')} \end{align} vπ​(s)​=a∑​π(a∣s)(Rsa​+γs′∑​Pss′a​vπ​(s′))=a∑​π(a∣s)Rsa​+γs′∑​vπ​(s′)a∑​Pss′a​π(s∣a)=rπ​(s)+γs′∑​pπ​(s′∣s)vπ​(s′)​​
假设状态空间为 { s i } i = 1 n \{s_i\}_{i=1}^n {si​}i=1n​,对 s i s_i si​,其Bellman equation为:
v π ( s i ) = r π ( s i ) + γ ∑ s j p π ( s j ∣ s i ) v π ( s j ) \begin{align} v_{\pi}\left(s_{i}\right)=r_{\pi}\left(s_{i}\right)+\gamma \sum_{s_{j}} p_{\pi}\left(s_{j} \mid s_{i}\right) v_{\pi}\left(s_{j}\right)\end{align} vπ​(si​)=rπ​(si​)+γsj​∑​pπ​(sj​∣si​)vπ​(sj​)​​
将矩阵向量形式表示所有状态的Bellman equation:
v π = r π + γ P π v π \begin{align} v_\pi=r_\pi+\gamma P_\pi v_\pi\end{align} vπ​=rπ​+γPπ​vπ​​​
其中,

  • v π = [ v π ( s 1 ) , … , v π ( s n ) ] T ∈ R n v_{\pi}=\left[v_{\pi}\left(s_{1}\right), \ldots, v_{\pi}\left(s_{n}\right)\right]^{T} \in \mathbb{R}^{n} vπ​=[vπ​(s1​),…,vπ​(sn​)]T∈Rn
  • r π = [ r π ( s 1 ) , … , r π ( s n ) ] T ∈ R n r_{\pi}=\left[r_{\pi}\left(s_{1}\right), \ldots, r_{\pi}\left(s_{n}\right)\right]^{T} \in \mathbb{R}^{n} rπ​=[rπ​(s1​),…,rπ​(sn​)]T∈Rn
  • P π ∈ R n ∗ n P_\pi \in \mathbb{R}^{n*n} Pπ​∈Rn∗n,where [ P π ] i j = p π ( s j ∣ s i ) [P_\pi ]_{ij}= p_\pi(s_j|s_i) [Pπ​]ij​=pπ​(sj​∣si​),为状态转移矩阵

4.2 MDP动作价值函数

动作价值函数定义为:
q π ( s , a ) = E [ G t ∣ S t = s , A t = a ] = ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) \begin{align} q_\pi{(s,a)} &=\mathbb{E}[G_t|S_t=s,A_t=a] \\ &= \sum_r{p(r|s,a)r+\gamma \sum_{s'}{p(s'|s,a)v_\pi(s')}} \end{align} qπ​(s,a)​=E[Gt​∣St​=s,At​=a]=r∑​p(r∣s,a)r+γs′∑​p(s′∣s,a)vπ​(s′)​​

4.3 动作价值函数&状态价值函数的关系

根据状态价值函数的定义:
E [ G t ∣ S t = s ] ⏟ v π ( s ) = ∑ a E [ G t ∣ S t = s , A t = a ] ⏟ q π ( s , a ) π ( a ∣ s ) \begin{align} \underbrace{\mathbb{E}\left[G_t \mid S_t=s\right]}_{v_\pi(s)}=\sum_a \underbrace{\mathbb{E}\left[G_t \mid S_t=s, A_t=a\right]}_{q_\pi(s, a)} \pi(a \mid s) \end{align} vπ​(s) E[Gt​∣St​=s]​​=a∑​qπ​(s,a) E[Gt​∣St​=s,At​=a]​​π(a∣s)​​
因此状态价值函数和动作价值函数的关系为:
v π ( s ) = ∑ a π ( a ∣ s ) q π ( s , a ) \begin{align} \textcolor{red}{ v_\pi(s) } =\sum_{a}{\pi(a|s) \textcolor{red}{q_\pi(s,a)}} \end{align} vπ​(s)=a∑​π(a∣s)qπ​(s,a)​​

backup diagram是算法的图形化表示,通过图形表示状态,动作,状态转移,奖励等。下图中,空心较大圆圈表示状态,黑色实心小圆表示的是动作,连接状态和动作的线条仅仅把该状态以及该状态下可以采取的动作关联起来,黑色小圆和后续状态之间的连线为即时奖励。

状态价值函数动作价值函数的关系:

动作价值函数状态价值函数的关系:

4.4 MDP寻找最优策略&贝尔曼最优公式

如果已有马尔可夫决策过程,如何寻找最优策略?贝尔曼公式中策略pi是给定。 若策略pi没有给出,则需要先确定最优策略pi,此时就变成了贝尔曼最优公式,记:

v ∗ ( s ) = max ⁡ π v π ( s ) = max ⁡ π ∑ a π ( a ∣ s ) ( ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ) , ∀ s ∈ S = max ⁡ π ∑ a π ( a ∣ s ) q π ( s , a ) s ∈ S \begin{align} v_*(s) &= \max_\pi v_\pi (s) \\ & =\max _{\pi} \sum_{a} \pi(a \mid s) \left(\sum_{r} p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right)\right), \quad \forall s \in \mathcal{S} \\ & =\max _{\pi} \sum_{a} \pi(a \mid s) q_\pi(s, a) \quad s \in \mathcal{S} \end{align} v∗​(s)​=πmax​vπ​(s)=πmax​a∑​π(a∣s)(r∑​p(r∣s,a)r+γs′∑​p(s′∣s,a)vπ​(s′)),∀s∈S=πmax​a∑​π(a∣s)qπ​(s,a)s∈S​​

注意:

  • p ( r ∣ s , a ) , p ( s ′ ∣ s , a ) p\left( r \mid s,a\right),p\left(s^{\prime} \mid s,a \right) p(r∣s,a),p(s′∣s,a)为已知
  • v ( s ) , v ( s ′ ) v\left(s\right),v\left( s^{\prime}\right) v(s),v(s′)是待求解的未知量
  • 策略 π ( a ∣ s ) \pi(a \mid s) π(a∣s)为未知

最优策略是使得状态动作价值最大的 v π ( s ) v_\pi(s) vπ​(s)策略:
π ∗ ( s ) = arg max ⁡ π v π ( s ) \begin{align} \pi_*(s)=\argmax_\pi v_\pi(s)\end{align} π∗​(s)=πargmax​vπ​(s)​​

π ∗ ( a ∣ s ) = { 1 if  a = arg ⁡ max ⁡ a ∈ A q ∗ ( s , a ) 0 else  \begin{align} \pi_{*}(a \mid s)=\left\{\begin{array}{ll} 1 & \text { if } a=\arg \max _{a \in A} q_{*}(s, a) \\ 0 & \text { else } \end{array}\right.\end{align} π∗​(a∣s)={10​ if a=argmaxa∈A​q∗​(s,a) else ​​​

除了一般形式:
v π ( s ) = max ⁡ π ∑ a π ( a ∣ s ) ( ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ) ⏟ q ( s , a ) , ∀ s ∈ S \begin{align}v_\pi (s)=\max _{\pi} \sum_{a} \pi(a \mid s) \underbrace{\left(\sum_{r} p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right)\right)}_{q(s, a)}, \quad \forall s \in \mathcal{S} \end{align} vπ​(s)=πmax​a∑​π(a∣s)q(s,a) (r∑​p(r∣s,a)r+γs′∑​p(s′∣s,a)vπ​(s′))​​,∀s∈S​​
我们还需要矩阵向量形式:
v = max ⁡ π ( r π + γ P π v ) \begin{align} \bold v=\max_{\pi}(\bold r_\pi+\gamma \bold{P_\pi} \bold v) \end{align} v=πmax​(rπ​+γPπ​v)​​
贝尔曼最优公式的解一定存在,且该解是唯一的,这里不做证明。

求解算法:解析解(不推荐);迭代方法

4.4 总结

  • 状态价值函数定义: v π ( s ) = E [ G t ∣ S t = s ] v_\pi(s)=\mathbb{E}[G_t|S_t=s] vπ​(s)=E[Gt​∣St​=s]
  • 动作价值函数定义: q π ( s , a ) = E [ G t ∣ S t = s , A t = a ] q_\pi{(s,a)}=\mathbb{E}[G_t|S_t=s,A_t=a] qπ​(s,a)=E[Gt​∣St​=s,At​=a]
  • 贝尔曼方程一般形式: v π ( s ) = max ⁡ π ∑ a π ( a ∣ s ) ( ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ) ⏟ q ( s , a ) , ∀ s ∈ S v_\pi (s)=\max _{\pi} \sum_{a} \pi(a \mid s) \underbrace{\left(\sum_{r} p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_\pi\left(s^{\prime}\right)\right)}_{q(s, a)}, \quad \forall s \in \mathcal{S} vπ​(s)=maxπ​∑a​π(a∣s)q(s,a) (r∑​p(r∣s,a)r+γs′∑​p(s′∣s,a)vπ​(s′))​​,∀s∈S
  • 贝尔曼方程矩阵形式: v = max ⁡ π ( r π + γ P π v ) v=\max_{\pi}(r_\pi+\gamma P_\pi v) v=maxπ​(rπ​+γPπ​v),推导出解析解
  • 如何求解贝尔曼方程:解析解,迭代的方法

5 强化学习引入MDP的原因

环境的状态转化模型,它可以表示为一个概率模型,即在状态s下采取动作a,转到下一个状态s′的概率,表示为 P s s ′ a P_{ss'}^a Pss′a​。

二、马尔可夫决策过程与贝尔曼方程相关推荐

  1. 马尔可夫决策过程和贝尔曼方程

    马尔可夫决策过程(MDP)简介 下一个状态St+1S_{t+1}St+1​是从概率分布P中得到的,该概率分布P取决于整个历史,因此我们需要考虑从s0s_0s0​开始到t时刻的状态.马尔可夫是具有马尔可 ...

  2. 强化学习: 贝尔曼方程与马尔可夫决策过程

    强化学习: 贝尔曼方程与马尔可夫决策过程 一.简介 贝尔曼方程和马尔可夫决策过程是强化学习非常重要的两个概念,大部分强化学习算法都是围绕这两个概念进行操作.尤其是贝尔曼方程,对以后理解蒙特卡洛搜索.时 ...

  3. 【学习笔记】传说中的马尔可夫决策过程(MDP)和贝尔曼方程(Bellman Equation)

    最近读了几篇paper,都着重涉及到了强化学习,都点到了马尔可夫决策过程(Markov Decision Process) 和贝尔曼方程或者叫贝尔曼等式(Bellman Equation),捧着似懂非 ...

  4. 强化学习学习笔记——马尔可夫决策过程(二)

    强化学习学习笔记--马尔可夫决策过程(二) 马尔科夫奖励过程(Markov Reword Process,MRP) 爱学习的马尔科夫蛙 状态值函数(State-Value Function) 马尔科夫 ...

  5. 马尔可夫决策过程-强化学习学习笔记(二)

    概念引入 强化学习的通俗理解 马尔可夫的通俗介绍 简介 马尔可夫决策过程 (Markov Decision Processes, MDPs)是对强化学习问题的数学描述. 马尔可夫决策过程(Markov ...

  6. 增强学习(二)----- 马尔可夫决策过程MDP

    1. 马尔可夫模型的几类子模型 大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM).它们具有的一个共同性质就是 ...

  7. (二)马尔可夫决策过程

      从第一章中了解到强化学习中,智能体通过和环境进行交互获得信息.这个交互过程可以通过马尔可夫决策过程来表示,所以了解一下什么是MDP至关重要.   不过在了解马尔可夫决策过程之前,先要一些预备知识, ...

  8. MDP马尔可夫决策过程(二)

    增强学习(二)----- 马尔可夫决策过程MDP 1. 马尔可夫模型的几类子模型 大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov ...

  9. 强化学习(二):马尔可夫决策过程

    首先感谢B站UP主:Re_miniscence_,本篇文章总结来自于他,并添加了一些自己的理解. 该up的BB空间 1.随机变量 概率论中的知识,如用X表示一个随机事件,用p(X)表示概率. 2.随机 ...

最新文章

  1. “画中画”效果--谈IFRAME标签的使用
  2. Nature综述: 宏基因组关联分析-深入研究微生物组
  3. 带有BERT模型代码的BILSTM+BERT+CRF
  4. 【Java基础】面向对象特性
  5. win32 去掉窗口边框
  6. 《C#编程风格》还记得多少
  7. python-configparser模块
  8. Lang.NEXT 2012相关Session
  9. shopify在哪里填写html,[Shopify开店教程]添加嵌入代码
  10. case class和trait
  11. PresentViewController切换界面
  12. 基于Matlab交流异步电机矢量控制系统仿真建模
  13. RK3399 ALC5640芯片配置
  14. 邮箱发大文件服务器怎么删除,Exchange 2010如何删除系统默认邮箱数据库
  15. html小说站源码,读取本地HTML的小说阅读器应用源码项目
  16. 论Python常见的内置模块
  17. 推荐一款稳定快速免费的前端开源项目 CDN 加速服务
  18. 云主机因远程连接数量限制无法连接时的解决办法
  19. 孤立森林异常检测算法原理和实战(附代码)
  20. Kubernetes(K8s)-k8s服务安装

热门文章

  1. Qt任务栏图标增加进度条
  2. oracle静默创建实例linux,linux CentOS7下快速静默安装Oracle11GR2数据库并创建实例
  3. B树(BTree)与B+树(B+Tree)
  4. SSD Performance测试简介
  5. 【Trie图】Hiho4_Hihocoder
  6. 数据库 Database
  7. 金蝶EAS BOS开发固定报表流程
  8. android横向卡片式布局,创建卡片式布局  |  Android 开发者  |  Android Developers
  9. [UAV] 无人机仿真平台搭建
  10. android sd卡数据恢复,手机sd卡受损怎么办 手机内存卡数据恢复方法【详解】