2. Stochastic Finite Horizon Problem

在这一节中主要介绍了随机DP算法来解决不确定性下的有限地范围问题，如Denition 1.4所述，它被表述为一个组合优化问题。众所周知，由于组合爆炸，它是一个极其困难的问题。为了从结构上缓解这种极端的复杂性，一种方法是对所有决策规则的空间进行建模，这样就可以在一些方便的搜索空间，即策略空间中有效地解决这个问题。

Review

Definition 1.4 有限范围的随机顺序决策(Stochastic Sequential decision making with finite horizon).
给定一个如公式（1.2）的离散时间动态系统，一个有限范围SDM问题旨在为任意x0∈X0x_0\in\mathcal{X}_0x0∈X0，找到一个行动序列π∈U0×...×UN−1\pi\in\mathcal{U}_0\times ... \times \mathcal{U}_{N-1}π∈U0×...×UN−1，这样就可以解决以下最小化问题

min⁡πEp(w)[gN(xN)+∑k=0N−1gk(xk,uk,wk)](1.6)\min _{\pi} \mathbb{E}_{p(w)}[g_N(x_N) + \sum_{k=0}^{N-1}g_k(x_k,u_k, w_k)] \tag{1.6}πminEp(w)[gN(xN)+k=0∑N−1gk(xk,uk,wk)](1.6)

以上定义了组合优化问题（combinatorial optimisation problem），但是同时会造成组合爆炸问题（combinatorial explosion）。为了减少这种复杂性，一种方法是对所有决策规则空间建模。

可以看到，一旦Definition 1.4中给出的随机有限范围问题的解决方案被确定下来，它就对任意状态x−kx-kx−k有一个明确的动作分配uku_kuk。这类分配的集合被称为确定性的历史无关策略。

Definition 2.1 确定性的历史无关策略(Deterministic History-independent Policy).
确定性的历史无关策略，也被称为确定性的马尔科夫策略( deterministic Markov Policy)，对于所有k=0,1,...,N−1k = 0, 1, ..., N-1k=0,1,...,N−1 它是一个只基于状态xkx_kxk决策规则, 即
πk:Xk→Uk,xk→uk(2.1)\pi_k :\mathcal{X}_k \to \mathcal{U}_k, x_k \to u_k \tag{2.1}πk:Xk→Uk,xk→uk(2.1)

Definition 2.2 有限范围的尾部子问题 (Tail subproblems of a finite horizon problem).
给定一个如公式（1.2）的离散时间动态系统，在每个阶段k=1,2,…,N−1k=1,2, \ldots, N-1k=1,2,…,N−1，随机有限水平问题的第kkk个尾部子问题旨在为任何xk∈Xkx_{k} \in \mathcal{X}_{k}xk∈Xk找到行动序列 μk:={uk,uk+1,…,uN−1}∈Uk×…×UN−1\mu_{k}:=\left\{u_{k}, u_{k+1}, \ldots, u_{N-1}\right\} \in \mathcal{U}_{k} \times \ldots \times \mathcal{U}_{N-1}μk:={uk,uk+1,…,uN−1}∈Uk×…×UN−1 ，这样就解决了以下最小化问题
min⁡μkEp(w~k)[gN(xN)+∑t=kN−1gt(xt,ut,wt)](2.2)\min _{\mu_{k}} \mathbb{E}_{p\left(\widetilde{w}_{k}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k}^{N-1} g_{t}\left(x_{t}, u_{t}, w_{t}\right)\right] \tag{2.2}μkminEp(wk)[gN(xN)+t=k∑N−1gt(xt,ut,wt)](2.2)
显然，对于所有定义，如策略的总成本函数，最佳成本函数，和最佳策略，都对于尾部子问题有效。特别的，对于一个不稳定的策略（non-stationary policy）π~0:={π0,π1,…,πN−1}\tilde{\pi}_{0}:=\left\{\pi_{0}, \pi_{1}, \ldots, \pi_{N-1}\right\}π~0:={π0,π1,…,πN−1} 及其尾部策略 π~k:={πk,…,πN−1}\widetilde{\pi}_{k}:=\left\{\pi_{k}, \ldots, \pi_{N-1}\right\}πk:={πk,…,πN−1}，总的成本函数Jkπ~kJ_{k}^{\widetilde{\pi}_{k}}Jkπk定义为：

Jkπ~k(xk)=Ep(w~k)[gN(xN)+∑t=kN−1gt(xt,πt(xt),wt)](2.3)J_{k}^{\widetilde{\pi}_{k}}\left(x_{k}\right)=\mathbb{E}_{p\left(\widetilde{w}_{k}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k}^{N-1} g_{t}\left(x_{t}, \pi_{t}\left(x_{t}\right), w_{t}\right)\right] \tag{2.3}Jkπk(xk)=Ep(wk)[gN(xN)+t=k∑N−1gt(xt,πt(xt),wt)](2.3)

最佳成本函数Jk∗J_{k}^{*}Jk∗定义为
Jk∗(xk)=min⁡μkEp(w~k)[gN(xN)+∑t=kN−1gt(xt,ut,wt)](2.4)J_{k}^{*}\left(x_{k}\right)=\min _{\mu_{k}} \mathbb{E}_{p\left(\widetilde{w}_{k}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k}^{N-1} g_{t}\left(x_{t}, u_{t}, w_{t}\right)\right] \tag{2.4}Jk∗(xk)=μkminEp(wk)[gN(xN)+t=k∑N−1gt(xt,ut,wt)](2.4)

2.1 Stochastic DP

Proposition 2.1 有限范围的贝尔曼方程( Bellman equation of finite horizon problems)

给定一个随机有限范围问题和策略π~0:={π0,π1,...πN−1}\tilde{\pi}_0:=\{\pi_0, \pi_1, ... \pi_{N-1}\}π~0:={π0,π1,...πN−1}。我们定义π~k:={π0,π1,...πN−1}\tilde{\pi}_k:=\{\pi_0, \pi_1, ... \pi_{N-1}\}π~k:={π0,π1,...πN−1}从状态kkk截断的尾部策略， k=1,..,N−1k = 1, .., N-1k=1,..,N−1, 然后有总的成本函数（total cost function）在任意状态xk∈Xkx_k \in \mathcal{X}_kxk∈Xk适用于以下方程
Jkπ~k(xk)=Ep(wk)[gk(xk,πk(xk),wk)+Jk+1π~k+1(fk(xk,πk(xk),wk))](2.5)J_{k}^{\tilde{\pi}_{k}}\left(x_{k}\right)=\mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+J_{k+1}^{\widetilde{\pi}_{k+1}}\left(f_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)\right)\right] \tag{2.5}Jkπ~k(xk)=Ep(wk)[gk(xk,πk(xk),wk)+Jk+1πk+1(fk(xk,πk(xk),wk))](2.5)

证明：我们定义χk:={xk,…,xN}∈Xk×…×XN\chi_{k}:=\left\{x_{k}, \ldots, x_{N}\right\} \in \mathcal{X}_{k} \times \ldots \times \mathcal{X}_{N}χk:={xk,…,xN}∈Xk×…×XN。回顾尾部问题的总成本函数，我们在kkk阶段推导出

Jkπˉk(xk):=Ep(wˉk)[gN(xN)+∑t=kN−1gt(xt,πt(xt),wt)]=Ep(wˉk)[gk(xk,πk(xk),wk)+gN(xN)+∑t=k+1N−1gt(xt,πt(xt),wt)]=Ep(wk)[gk(xk,πk(xk),wk)+Ep(wˉk+1)[gN(xN)+∑t=k+1N−1gt(xt,πt(xt),wt)]]=Ep(wk)[gk(xk,πk(xk),wk)+Jk+1πˉk+1(fk(xk,πk(xk),wk))],(2.6)\begin{aligned} J_{k}^{\bar{\pi}_{k}}\left(x_{k}\right): &=\mathbb{E}_{p\left(\bar{w}_{k}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k}^{N-1} g_{t}\left(x_{t}, \pi_{t}\left(x_{t}\right), w_{t}\right)\right] \\ &=\mathbb{E}_{p\left(\bar{w}_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+g_{N}\left(x_{N}\right)+\sum_{t=k+1}^{N-1} g_{t}\left(x_{t}, \pi_{t}\left(x_{t}\right), w_{t}\right)\right] \\ &=\mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+\mathbb{E}_{p\left(\bar{w}_{k+1}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{t=k+1}^{N-1} g_{t}\left(x_{t}, \pi_{t}\left(x_{t}\right), w_{t}\right)\right]\right] \\ &=\mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+J_{k+1}^{\bar{\pi}_{k+1}}\left(f_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)\right)\right], \end{aligned} \tag{2.6}Jkπˉk(xk):=Ep(wˉk)[gN(xN)+t=k∑N−1gt(xt,πt(xt),wt)]=Ep(wˉk)[gk(xk,πk(xk),wk)+gN(xN)+t=k+1∑N−1gt(xt,πt(xt),wt)]=Ep(wk)[gk(xk,πk(xk),wk)+Ep(wˉk+1)[gN(xN)+t=k+1∑N−1gt(xt,πt(xt),wt)]]=Ep(wk)[gk(xk,πk(xk),wk)+Jk+1πˉk+1(fk(xk,πk(xk),wk))],(2.6)

其中，公式（2.6b）中的第一个等式来自于这样的假设：所有的干扰wkw_kwk是统计上是独立的。因此，该结果得到了结论。

这是一个简单而有趣的属性。也就是说，对于一个给定的非稳态策略，某阶段的总成本函数可以只用紧接着后面阶段的信息或总成本函数来计算。那么，这样的属性对于最优总成本函数是否也是成立的。我们提出以下引理

Lemma 2.1. 给定一个随机的有限范围问题，如定义1.4和一个策略π~0:={π0,π1,...πN−1}\tilde{\pi}_0:=\{\pi_0, \pi_1, ... \pi_{N-1}\}π~0:={π0,π1,...πN−1}，我们定义π~k:={π0,π1,...πN−1}\tilde{\pi}_k:=\{\pi_0, \pi_1, ... \pi_{N-1}\}π~k:={π0,π1,...πN−1}从状态kkk截断的尾部策略， k=1,..,N−1k = 1, .., N-1k=1,..,N−1, 对于所有状态动作对(xk,uk)(x_k, u_k)(xk,uk)我们有如下等式

min⁡πˉk+1Ep(wk)[Jk+1πˉk+1(fk(xk,uk,wk))]=Ep(wk)[Jk+1∗(fk(xk,uk,wk))](2.7)\min _{\bar{\pi}_{k+1}} \mathbb{E}_{p\left(w_{k}\right)}\left[J_{k+1}^{\bar{\pi}_{k+1}}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right]=\mathbb{E}_{p\left(w_{k}\right)}\left[J_{k+1}^{*}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \tag{2.7}πˉk+1minEp(wk)[Jk+1πˉk+1(fk(xk,uk,wk))]=Ep(wk)[Jk+1∗(fk(xk,uk,wk))](2.7)

证明：对于一个任意的截断策略π~k+1\tilde{\pi}_{k+1}π~k+1，以下的方程是正确的
Ep(wk)[Jk+1πˉk+1(fk(xk,uk,wk))]≥Ep(wk)[min⁡πˉk+1Jk+1πˉk+1(fk(xk,uk,wk))]=Ep(wk)[Jk+1∗(fk(xk,uk,wk))](2.8)\begin{aligned} \mathbb{E}_{p\left(w_{k}\right)}\left[J_{k+1}^{\bar{\pi}_{k+1}}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] & \geq \mathbb{E}_{p\left(w_{k}\right)}\left[\min _{\bar{\pi}_{k+1}} J_{k+1}^{\bar{\pi}_{k+1}}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \\ &=\mathbb{E}_{p\left(w_{k}\right)}\left[J_{k+1}^{*}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \end{aligned}\tag{2.8} Ep(wk)[Jk+1πˉk+1(fk(xk,uk,wk))]≥Ep(wk)[πˉk+1minJk+1πˉk+1(fk(xk,uk,wk))]=Ep(wk)[Jk+1∗(fk(xk,uk,wk))](2.8)

显然，上述不等关系与策略π~k+1\widetilde{\pi}_{k+1}πk+1的选择无关。因此，我们有

min⁡πˉk+1Ep(wk)[Jk+1πˉk+1(fk(xk,uk,wk))]≥Ep(wk)[Jk+1∗(fk(xk,uk,wk))](2.9)\min _{\bar{\pi}_{k+1}} \mathbb{E}_{p\left(w_{k}\right)}\left[J_{k+1}^{\bar{\pi}_{k+1}}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \geq \mathbb{E}_{p\left(w_{k}\right)}\left[J_{k+1}^{*}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right]\tag{2.9}πˉk+1minEp(wk)[Jk+1πˉk+1(fk(xk,uk,wk))]≥Ep(wk)[Jk+1∗(fk(xk,uk,wk))](2.9)

现在我们定义

π~k+1∗∈argmin⁡πk+1Jk+1πˉk+1(xk+1)(2.10)\tilde{\pi}_{k+1}^{*} \in \underset{\pi_{k+1}}{\operatorname{argmin}} J_{k+1}^{\bar{\pi}_{k+1}}\left(x_{k+1}\right)\tag{2.10}π~k+1∗∈πk+1argminJk+1πˉk+1(xk+1)(2.10)

然后，将公式（2.7）左边的数量最小化，就可以得出

min⁡πˉk+1Ep(wk)[Jk+1πˉk+1(fk(xk,uk,wk))]≤Ep(wk)[Jk+1πˉk+1∗(fk(xk,uk,wk))]=Ep(wk)[Jk+1∗(fk(xk,uk,wk))](2.11)\begin{aligned} \min _{\bar{\pi}_{k+1}} \mathbb{E}_{p\left(w_{k}\right)}\left[J_{k+1}^{\bar{\pi}_{k+1}}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] & \leq \mathbb{E}_{p\left(w_{k}\right)}\left[J_{k+1}^{\bar{\pi}_{k+1}^{*}}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \\ &=\mathbb{E}_{p\left(w_{k}\right)}\left[J_{k+1}^{*}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \end{aligned}\tag{2.11}πˉk+1minEp(wk)[Jk+1πˉk+1(fk(xk,uk,wk))]≤Ep(wk)[Jk+1πˉk+1∗(fk(xk,uk,wk))]=Ep(wk)[Jk+1∗(fk(xk,uk,wk))](2.11)
因此，与公式（2.7）中的相等关系成立。

Proposition 2.2 有限范围的最优贝尔曼方程(Optimal Bellman equation of finite horizon problems)

给定一个随机有限范围问题，如定义1.4，对于k=0,1,...,N−1k = 0, 1 , ... ,N-1k=0,1,...,N−1，在任何状态下的最优总成本函数xk∈Xkx_k\in \mathcal{X}_kxk∈Xk都满足以下等式

Jk∗(xk)=min⁡ukEp(wk)[gk(xk,uk,wk)+Jk+1∗(fk(xk,uk,wk))](2.12)J_{k}^{*}\left(x_{k}\right)=\min _{u_{k}} \mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, u_{k}, w_{k}\right)+J_{k+1}^{*}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \tag{2.12}Jk∗(xk)=ukminEp(wk)[gk(xk,uk,wk)+Jk+1∗(fk(xk,uk,wk))](2.12)

证明： 对于k=0,1,...,N−1k = 0, 1 , ... ,N-1k=0,1,...,N−1，我们定义Jk∗J_k^*Jk∗为最优总成本函数，π~0∗:={π0∗,π1∗,…,πN−1∗}\widetilde{\pi}_{0}^{*}:=\left\{\pi_{0}^{*}, \pi_{1}^{*}, \ldots, \pi_{N-1}^{*}\right\}π0∗:={π0∗,π1∗,…,πN−1∗}即为相关的最佳不稳定策略，其尾部策略为π~k∗:={πk∗,…,πN−1∗}\widetilde{\pi}_{k}^{*}:=\left\{\pi_{k}^{*}, \ldots, \pi_{N-1}^{*}\right\}πk∗:={πk∗,…,πN−1∗}

我们从JK∗(xk)J_K^*(x_k)JK∗(xk)的定义开始
Jk∗(xk):=min⁡πˉkJkπˉk(xk)=min⁡πˉkEp(wk)[gk(xk,πk(xk),wk)+Jk+1πˉk+1(fk(xk,πk(xk),wk))]=min⁡πkmin⁡πˉk+1Ep(wk)[gk(xk,πk(xk),wk)+Jk+1πˉk+1(fk(xk,πk(xk),wk))]=min⁡πkEp(wk)[gk(xk,πk(xk),wk)+min⁡πˉk+1Jk+1πˉk+1(fk(xk,πk(xk),wk))]=min⁡πkEp(wk)[gk(xk,πk(xk),wk)+Jk+1∗(fk(xk,πk(xk),wk))](2.13)\begin{aligned} J_{k}^{*}\left(x_{k}\right) &:=\min _{\bar{\pi}_{k}} J_{k}^{\bar{\pi}_{k}}\left(x_{k}\right) \\ &=\min _{\bar{\pi}_{k}} \mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+J_{k+1}^{\bar{\pi}_{k+1}}\left(f_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)\right)\right] \\ &=\min _{\pi_{k}} \min _{\bar{\pi}_{k+1}} \mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+J_{k+1}^{\bar{\pi}_{k+1}}\left(f_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)\right)\right] \\ &=\min _{\pi_{k}} \mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+\min _{\bar{\pi}_{k+1}} J_{k+1}^{\bar{\pi}_{k+1}}\left(f_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)\right)\right] \\ &=\min _{\pi_{k}} \mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)+J_{k+1}^{*}\left(f_{k}\left(x_{k}, \pi_{k}\left(x_{k}\right), w_{k}\right)\right)\right] \end{aligned} \tag{2.13}Jk∗(xk):=πˉkminJkπˉk(xk)=πˉkminEp(wk)[gk(xk,πk(xk),wk)+Jk+1πˉk+1(fk(xk,πk(xk),wk))]=πkminπˉk+1minEp(wk)[gk(xk,πk(xk),wk)+Jk+1πˉk+1(fk(xk,πk(xk),wk))]=πkminEp(wk)[gk(xk,πk(xk),wk)+πˉk+1minJk+1πˉk+1(fk(xk,πk(xk),wk))]=πkminEp(wk)[gk(xk,πk(xk),wk)+Jk+1∗(fk(xk,πk(xk),wk))](2.13)

其中，公式（2.13b）中的第一个等式是由于贝尔曼方程（定义在Lemma 2.1），公式（2.13c）中的第二个等式探索了结构π~k:={πk,π~k+1}\widetilde{\pi}_k:=\{\pi_k, \widetilde{\pi}_{k+1}\}πk:={πk,πk+1}，公式（2.13d）中的第三个等式是由于Lemma 2.1的结果。公式(2.13d)中的第三个等式是由Lemma 2.1的结果决定的。最后，最后一个等式是由定义得出的，并简单地以πk(xk)=uk\pi_{k}\left(x_{k}\right)=u_{k}πk(xk)=uk结束了证明。

最后，我们准备证明有限范围问题的随机DP算法。

Proposition 2.3 动态规划(Dynamic programming)

给定一个定义1.4中的随机有限范围问题，用以下方式进行初始化
JN(xN)=gN(xN)(2.14)J_N(x_N) = g_N(x_N) \tag{2.14}JN(xN)=gN(xN)(2.14)
在k=N−1,...,1,0k=N-1, ..., 1, 0k=N−1,...,1,0的情况下，通过以下算法进行
Jk(xk)=min⁡ukEp(wk)[gk(xk,uk,wk)+Jk+1(fk(xk,uk,wk))](2.15)J_{k}\left(x_{k}\right)=\min _{u_{k}} \mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, u_{k}, w_{k}\right)+J_{k+1}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \tag{2.15}Jk(xk)=ukminEp(wk)[gk(xk,uk,wk)+Jk+1(fk(xk,uk,wk))](2.15)
输出J0(x0)J_0(x_0)J0(x0)是最优的。

证明：
我们使用归纳法证明这个问题。在终点状态NNN开始，对于所有xN∈XNx_N \in \mathcal{X}_NxN∈XN以下是显而易见的，
JN∗(xN)=gN(xN)=JN(xN)(2.16)J_N^*(x_N) = g_N(x_N) = J_N(x_N) \tag{2.16}JN∗(xN)=gN(xN)=JN(xN)(2.16)
让我们假设对于t=N−1,...,k+1t = N-1, ..., k+1t=N−1,...,k+1，由公式（2.15）得到的总的成本函数JtJ_tJt是最优的成本函数Jt∗J^*_tJt∗，即Jt(xt)=Jt∗(xt)J_t(x_t) = J^*_t(x_t)Jt(xt)=Jt∗(xt)。然后对于状态k，有如下结构
Jk(xk)=min⁡ukEp(wk)[gk(xk,uk,wk)+Jk+1(fk(xk,uk,wk))]=min⁡ukEp(wk)[gk(xk,uk,wk)+Jk+1∗(fk(xk,uk,wk))]=min⁡ukmin⁡π~k+1Ep(wk)[gk(xk,uk,wk)+Jk+1π~k+1(fk(xk,uk,wk))](2.17)\begin{aligned} J_{k}\left(x_{k}\right) &=\min _{u_{k}} \mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, u_{k}, w_{k}\right)+J_{k+1}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \\ &=\min _{u_{k}} \mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, u_{k}, w_{k}\right)+J_{k+1}^{*}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \\ &=\min _{u_{k}} \min _{\widetilde{\pi}_{k+1}} \mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, u_{k}, w_{k}\right)+J_{k+1}^{\widetilde{\pi}_{k+1}}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \end{aligned} \tag{2.17}Jk(xk)=ukminEp(wk)[gk(xk,uk,wk)+Jk+1(fk(xk,uk,wk))]=ukminEp(wk)[gk(xk,uk,wk)+Jk+1∗(fk(xk,uk,wk))]=ukminπk+1minEp(wk)[gk(xk,uk,wk)+Jk+1πk+1(fk(xk,uk,wk))](2.17)

其中公式（2.17b）是由于数学归纳法的假设，（2.17c）符合最优成本函数的定义Jk+1∗J^*_{k+1}Jk+1∗。现在我们定义π~k:={πk,π~k+1}\widetilde{\pi}_k:=\{\pi_k, \widetilde{\pi}_{k+1}\}πk:={πk,πk+1}，然后像在Lemma2.1中阐述的有限范围问题的贝尔曼方程那样，有
Jk(xk)=min⁡π~kJkπ~k(xk)=Jk∗(xk)(2.18)\begin{aligned} J_{k}\left(x_{k}\right) &=\min _{\widetilde{\pi}_{k}} J_{k}^{\tilde{\pi}_{k}}\left(x_{k}\right) \\ &=J_{k}^{*}\left(x_{k}\right) \end{aligned} \tag{2.18}Jk(xk)=πkminJkπ~k(xk)=Jk∗(xk)(2.18)
其中第二个等式直接来自最优总成本函数Jk∗J_k^*Jk∗的定义。

最后，以上两个Propositions 完善了随机有限范围SDM问题的最优性原则，我们得到以下原则

Theorem 2.1 最优化原则 (Principle of Optimality).

如定义1.4一样给定一个随机有限范围问题，仅当策略对于所有xk∈Xkx_k \in \mathcal{X}_kxk∈Xk和k=N−1,...,1.0k = N-1, ..., 1. 0k=N−1,...,1.0,
πk(xk)∈min⁡ukEp(wk)[gk(xk,uk,wk)+Jk+1(fk(xk,uk,wk))](2.19)\pi_{k}\left(x_{k}\right) \in \min _{u_{k}} \mathbb{E}_{p\left(w_{k}\right)}\left[g_{k}\left(x_{k}, u_{k}, w_{k}\right)+J_{k+1}\left(f_{k}\left(x_{k}, u_{k}, w_{k}\right)\right)\right] \tag{2.19}πk(xk)∈ukminEp(wk)[gk(xk,uk,wk)+Jk+1(fk(xk,uk,wk))](2.19)
一个不稳定策略π~0:={π0,π1,…,πN−1}\widetilde{\pi}_0:=\{\pi_{0}, \pi_{1}, \ldots, \pi_{N-1}\}π0:={π0,π1,…,πN−1}是最优的。其中 JkJ_kJk 是通过遵循Proposition 2.3 中给出的 DP 算法生成的。

需要注意的是，当状态空间和/或动作空间巨大时，DP 算法可能对最佳总成本函数的过于复杂计算。这种现象被称为维度的诅咒（the curse of dimensionality），它可以说是在实际应用中实现DP算法的最关键障碍。

2.2 Markov Decision Processes

与构建系统方程和建立系统不确定性模型不同的是，我们可以直接使用条件概率转换对环境状态间的转换进行建模。具体来说，在给定的决策时期kkk，我们假设在行动uku_{k}uk下从xkx_{k}xk到xk+1x_{k+1}xk+1的状态转换不再是确定性的，而是在统计上依赖于当前状态xkx_{k}xk和行动uku_{k}uk，即从p(xk+1∣xk,uk)p\left(x_{k+1}\mid x_{k}, u_{k}\right)p(xk+1∣xk,uk)提取。有了这样一个概率转换模型，我们可以将SDM问题建模为马尔可夫决策过程（MDP）。

Definition 2.3 马尔科夫决策过程定义（Definition of Markov Decision Process）
如果转换到下一个状态的概率只取决于目前的状态，而不取决于以前的状态，即，一个随机变量的序列x1,x2,x3,...x_1, x_2, x_3, ...x1,x2,x3,...是马尔可夫的。
p(xN∣x1,x2,…,xN−1)=p(xN∣xN−1)(2.20)p\left(x_{N} \mid x_{1}, x_{2}, \ldots, x_{N-1}\right)=p\left(x_{N} \mid x_{N-1}\right) \tag{2.20}p(xN∣x1,x2,…,xN−1)=p(xN∣xN−1)(2.20)

Definition 2.4 有限范围的马尔科夫决策过程（Markov decision process with finite horizon).
一个马尔科夫决策过程使用一个元组定义{X,U,p,gk,N}\left\{\mathcal{X}, \mathcal{U}, p, g_{k}, N\right\}{X,U,p,gk,N}，其中

X\mathcal{X}X 是一个有限的状态集
U\mathcal{U}U 有限的动作集
p(xk+1∣xk,uk)p\left(x_{k+1} \mid x_{k}, u_{k}\right)p(xk+1∣xk,uk) 是在状态xkx_{k}xk下行动uku_{k}uk导致状态xk+1x_{k+1}xk+1的转换概率。
gk(xk,uk,xk+1)g_{k}\left(x_{k}, u_{k}, x_{k+1}\right)gk(xk,uk,xk+1) 是定义在转换元组上的 (xk,uk,xk+1)\left(x_{k}, u_{k}, x_{k+1}\right)(xk,uk,xk+1)局部成本 ;
NNN 是有限的范围

Claim 2.1系统方程模型和状态转换模型的等效性 (Equivalence of system equation model and state transition model).

对于顺序决策问题，任何系统方程模型都承认有状态转换模型，反之亦然。

注，系统方程模型，如公式1.2中xk+1=fk(xk,uk,wk)x_{k+1} = f_k(x_{k}, u_{k}, w_{k})xk+1=fk(xk,uk,wk)的fkf_kfk。
状态转换模型， p(xN∣xN−1)p\left(x_{N} \mid x_{N-1}\right)p(xN∣xN−1)。

证明：通过条件概率的边缘化和Beyes规则，我们可以得到

边缘化：P(A)=∑iP(A,Yi)P(A) = \sum_i P(A, Y_i)P(A)=∑iP(A,Yi)
Beyes： P(A,B)=P(A∣B)P(B)→P(A,B∣X,Y)=P(A∣B,X,Y)P(B∣X,Y)P(A, B) =P(A|B) P(B) \to P(A,B|X,Y) = P(A|B, X, Y) P(B|X, Y)P(A,B)=P(A∣B)P(B)→P(A,B∣X,Y)=P(A∣B,X,Y)P(B∣X,Y)

p(xk+1∣xk,uk)=∑wk∈Wkp(xk+1,wk∣xk,uk)=∑wk∈Wkp(xk+1∣xk,uk,wk)p(wk∣xk,uk)(2.21)\begin{aligned} p\left(x_{k+1} \mid x_{k}, u_{k}\right) &=\sum_{w_{k} \in \mathcal{W}_{k}} p\left(x_{k+1}, w_{k} \mid x_{k}, u_{k}\right) \\ &=\sum_{w_{k} \in \mathcal{W}_{k}} p\left(x_{k+1} \mid x_{k}, u_{k}, w_{k}\right) p\left(w_{k} \mid x_{k}, u_{k}\right) \end{aligned} \tag{2.21}p(xk+1∣xk,uk)=wk∈Wk∑p(xk+1,wk∣xk,uk)=wk∈Wk∑p(xk+1∣xk,uk,wk)p(wk∣xk,uk)(2.21)

根据公式（1.2）中的系统方程的构造，即系统函数fkf_kfk 是确定的，我们有
p(xk+1∣xk,uk,wk)={1,fk(xk,uk,wk)=xk+10,otherwise (2.22)p\left(x_{k+1} \mid x_{k}, u_{k}, w_{k}\right)=\left\{\begin{array}{ll} 1, & f_{k}\left(x_{k}, u_{k}, w_{k}\right)=x_{k+1} \\ 0, & \text { otherwise } \end{array}\right. \tag{2.22}p(xk+1∣xk,uk,wk)={1,0,fk(xk,uk,wk)=xk+1 otherwise (2.22)

当 wkw_kwk 的概率分布是历史独立的，即p(wk∣xk,uk)=p(wk)p\left(w_{k} \mid x_{k}, u_{k}\right)=p\left(w_{k}\right)p(wk∣xk,uk)=p(wk)，我们得到
p(xk+1∣xk,uk)=∑fk(xk,uk,wk)=xk+1p(wk)(2.23)p\left(x_{k+1} \mid x_{k}, u_{k}\right)=\sum_{f_{k}\left(x_{k}, u_{k}, w_{k}\right)=x_{k+1}} p\left(w_{k}\right) \tag{2.23}p(xk+1∣xk,uk)=fk(xk,uk,wk)=xk+1∑p(wk)(2.23)
最后，以反方向推导。给定转换p(xk+1∣xk,uk)p(x_{k+1}|x_k,u_k)p(xk+1∣xk,uk)，定义 wk:=xk+1w_k := x_{k+1}wk:=xk+1 和
fk(xk,uk,wk):=xk+1(2.24)f_k(x_k, u_k, w_k) := x_{k+1} \tag{2.24}fk(xk,uk,wk):=xk+1(2.24)
可以看到p(wk∣xk,uk)=p(xk+1∣xk,uk)p\left(w_{k} \mid x_{k}, u_{k}\right)=p\left(x_{k+1} \mid x_{k}, u_{k}\right)p(wk∣xk,uk)=p(xk+1∣xk,uk)，所以扰动wkw_kwk独立于(xk,uk)(x_k, u_k)(xk,uk)。

如果公式（1.2）中表示的系统函数fkf_kfk是双向的，那么系统方程模型和状态转换模型是一一对应的。然而，系统方程模型可以被认为是更加面向过程的，而转换概率模型则更加面向结果。通过将过程的不确定性聚集在转换的不确定性中，转换概率模型往往对范围内知识的缺乏更加稳健，并且对应用更加友好。在本稿的其余部分，我们仅限于用MDP模型来研究SDM问题。

因此，可以用MDP等效地表述一个具有有限范围的SDM问题，具体如下。

Definition 2.5 有限范围的马尔科夫决策过程 (MDP with finite horizon).
给定一个MDP模型 {X,U,p,gk,N}\left\{\mathcal{X}, \mathcal{U}, p, g_{k}, N\right\}{X,U,p,gk,N} , 对于任何x0∈X0x_{0} \in \mathcal{X}_{0}x0∈X0 ，其目标是找到一个动作序列 μ0:={u0,u1,…,uN−1}∈U0×…×UN−1\mu_{0}:=\left\{u_{0}, u_{1}, \ldots, u_{N-1}\right\} \in \mathcal{U}_{0} \times \ldots \times \mathcal{U}_{N-1}μ0:={u0,u1,…,uN−1}∈U0×…×UN−1 , 来解决以下最小化问题
min⁡μ0Ep(χ,μ)[gN(xN)+∑k=0N−1gk(xk,uk,xk+1)]\min _{\mu_{0}} \mathbb{E}_{p(\chi, \mu)}\left[g_{N}\left(x_{N}\right)+\sum_{k=0}^{N-1} g_{k}\left(x_{k}, u_{k}, x_{k+1}\right)\right]μ0minEp(χ,μ)[gN(xN)+k=0∑N−1gk(xk,uk,xk+1)]
其中 χ=x0,....,xN\chi = {x_0, ...., x_N}χ=x0,....,xN是一个可接受的结果状态序列，从x0x_0x0开始，遵循行动μ0\mu_0μ0。

2.3 A zoo of polices

尽管确定性马尔可夫策略的定义可以很容易地被工程上的简单性所证明，但考虑具有历史依赖性策略的可能性仍然是自然和直观的。在本节中，我们研究了历史依赖性策略的可能性和（非）必要性。

Definition 2.6 通用策略(Generic policy).

给定一个有限范围 MDP {X,U,p,gk,N}\left\{\mathcal{X}, \mathcal{U}, p, g_{k}, N\right\}{X,U,p,gk,N} , 使 Zk\mathcal{Z}_{k}Zk 为在状态kkk时的一个观测集。策略 πk\pi_{k}πk是从阶段性的观测Zk\mathcal{Z}_{k}Zk 到可接受动作空间 Uk\mathcal{U}_{k}Uk 的映射, i.e., πk:Zk→Uk\pi_{k}: \mathcal{Z}_{k} \rightarrow \mathcal{U}_{k}πk:Zk→Uk .

Definition 2.7 通用总成本函数 (Generic total cost function).
给定一个有限范围 MDP {X,U,p,gk,N}\left\{\mathcal{X}, \mathcal{U}, p, g_{k}, N\right\}{X,U,p,gk,N}, 我们定义P\mathfrak{P}P为所有可行的策略。对于所有x0∈X0x_0 \in \mathcal{X}_0x0∈X0，策略π∈P\pi \in \mathfrak{P}π∈P的总的成本函数为
J0π(x0):=Epπ(χ,μ)[gN(xN)+∑k=0N−1gk(xk,uk,xk+1)∣uk∼πk(⋅∣zk)](2.26)J_{0}^{\pi}\left(x_{0}\right):=\mathbb{E}_{p_{\pi}(\chi, \mu)}\left[g_{N}\left(x_{N}\right)+\sum_{k=0}^{N-1} g_{k}\left(x_{k}, u_{k}, x_{k+1}\right) \mid u_{k} \sim \pi_{k}\left(\cdot \mid z_{k}\right)\right] \tag{2.26}J0π(x0):=Epπ(χ,μ)[gN(xN)+k=0∑N−1gk(xk,uk,xk+1)∣uk∼πk(⋅∣zk)](2.26)

其中，根据策略生成的轨迹的联合概率(χ,μ)(\chi, \mu)(χ,μ) 定义如下
pπ(χ,μ)=p(xN,uN−1,xN−1,…,x1,u0∣x0)=∏k=0N−1πk(uk∣xk)p(xk+1∣xk,uk)(2.27)\begin{aligned} p_{\pi}(\chi, \mu) &=p\left(x_{N}, u_{N-1}, x_{N-1}, \ldots, x_{1}, u_{0} \mid x_{0}\right) \\ &=\prod_{k=0}^{N-1} \pi_{k}\left(u_{k} \mid x_{k}\right) p\left(x_{k+1} \mid x_{k}, u_{k}\right) \end{aligned} \tag{2.27}pπ(χ,μ)=p(xN,uN−1,xN−1,…,x1,u0∣x0)=k=0∏N−1πk(uk∣xk)p(xk+1∣xk,uk)(2.27)

现在，我们需要对观察空间Zk\mathcal{Z}_{k}Zk进行更具体的说明。，它决定了解决方案的可行性和效率，使策略空间中的总成本函数最小。通常，有两种直观的观察值选择来构建策略空间，即当前阶段的状态和到当前阶段的轨迹。让我们用Hk\mathcal{H}_{k}Hk表示到阶段kkk的轨迹集，用Xk\mathcal{X}_{k}Xk表示阶段kkk的状态集。然后，我们可以定义以下两类策略。

Definition 2.8 历史依赖性策略(History-dependent Policy).
历史依赖性策略是基于历史的决策规则, 即πh(k):Hk→Uk\pi_h^{(k)}: \mathcal{H}_k \to \mathcal{U}_kπh(k):Hk→Uk。具体地，我们有

确定性策略: πh(k)(hk)=uk\pi_{h}^{(k)}\left(h_{k}\right)=u_{k}πh(k)(hk)=uk ;
随机性策略: πh(k)(hk)∼p(uk∣hk)\pi_{h}^{(k)}\left(h_{k}\right) \sim p\left(u_{k} \mid h_{k}\right)πh(k)(hk)∼p(uk∣hk) .

Definition 2.9 历史无关性策略(History-independent Policy).
历史无关性策略，也被称为马尔科夫策略，是一个只基于当前状态的决策规则，即πm(k):Xk→Uk\pi_m^{(k)}: \mathcal{X}_k \to \mathcal{U}_kπm(k):Xk→Uk。具体地，我们有

确定性策略: πm(k)(xk)=uk\pi_{m}^{(k)}\left(x_{k}\right)=u_{k}πm(k)(xk)=uk ;
随机性策略: πm(k)(xk)∼p(uk∣xk)\pi_{m}^{(k)}\left(x_{k}\right) \sim p\left(u_{k} \mid x_{k}\right)πm(k)(xk)∼p(uk∣xk)

根据以上两个定义，我们最终有四类可行的策略，即确定性的马尔科夫策略Pdm\mathfrak{P}_{d m}Pdm，随机马尔科夫策略Psm\mathfrak{P}_{s m}Psm，确定的历史依赖性策略Pdh\mathfrak{P}_{d h}Pdh，随机的依赖历史的策略Psh\mathfrak{P}_{s h}Psh。这些类别的策略之间的关系可以很容易地确定为。Pdm⊂Pdh⊂Psh\mathfrak{P}_{d m}\subset \mathfrak{P}_{d h} \subset \mathfrak{P}_{s h}Pdm⊂Pdh⊂Psh 和 Pdm⊂Psm⊂Psh\mathfrak{P}_{d m} \subset \mathfrak{P}_{s m}\subset \mathfrak{P}_{s h}Pdm⊂Psm⊂Psh。我们参考图4来说明这四类策略之间的关系。特别是，很明显，集合Pdm\mathfrak{P}_{d m}Pdm是最小的策略子集，在随机性和马尔科夫性方面是可以确定的。那么，研究这些不同的策略选择之间的潜在优势或劣势就具有相当的实际意义和重要性，这样就可以为具体的应用选择一套合适的策略。

图4 zoo of policy

根据公式（2.27）中给出的通用总成本函数的定义，很明显，如果两个策略对所有初始状态产生相同的轨迹分布pπ（χ,μ）p_{\pi}（ \chi, \mu）pπ（χ,μ），那么总成本函数也是相同的。具体来说，回顾随机策略作为条件概率的构造，经典的贝叶斯规则直接导致了公式（2.27）中轨迹的联合概率的因子化，即

pπ(χ,μ)=∏k=0N−1p(xk,uk)p(xk)p(xk+1∣xk,uk)(2.28)p_{\pi}(\chi, \mu)=\prod_{k=0}^{N-1} \frac{p\left(x_{k}, u_{k}\right)}{p\left(x_{k}\right)} p\left(x_{k+1} \mid x_{k}, u_{k}\right) \tag{2.28}pπ(χ,μ)=k=0∏N−1p(xk)p(xk,uk)p(xk+1∣xk,uk)(2.28)

因此，如果两个策略在所有状态k=0,…,N−1k=0, \ldots, N-1k=0,…,N−1时产生相同的分布p(xk)p\left(x_{k}\right)p(xk)和p(xk,uk)p\left(x_{k}, u_{k}\right)p(xk,uk)，那么相关的总成本函数也是相同的。

Proposition 2.4 随机马尔科夫策略的充分性 (Adequacy of stochastic Markov policy)

给定一个有限范围的MDP模型{X,U,p,gk,N}\left\{\mathcal{X}, \mathcal{U}, p, g_{k}, N\right\}{X,U,p,gk,N},令πsh\pi_{sh}πsh为一个随机性的历史依赖性策略。然后这里存在一个随机的马尔科夫策略πsm\pi_{sm}πsm, 以至于归集的联合概率分布符合历史依赖性策略，即
pπsh(χ,μ)=pπsm(χ,μ)(2.29)p_{\pi_{s h}}(\chi, \mu)=p_{\pi_{s m}}(\chi, \mu) \tag{2.29}pπsh(χ,μ)=pπsm(χ,μ)(2.29)

证明：定义 π:={π0,π1,…,πN−1}∈Psh\pi:=\left\{\pi_{0}, \pi_{1}, \ldots, \pi_{N-1}\right\} \in \mathfrak{P}_{s h}π:={π0,π1,…,πN−1}∈Psh为随机性历史依赖策略。p(xk)和p(xk,uk)p\left(x_{k}\right)和p\left(x_{k}, u_{k}\right)p(xk)和p(xk,uk)是xkx_{k}xk的相应分布。xk∈Xkx_k \in \mathcal{X}_{k}xk∈Xk和(xk,uk)∈Xk×Uk\left(x_{k}, u_{k}\right) \in\mathcal{X}_{k}\times\mathcal{U}_{k}(xk,uk)∈Xk×Uk在的相应分布。然后，我们可以构建一个随机的马尔科夫策略π′:={π0′,π1′,…,πN−1′}\pi^{'}:=\left\{\pi_{0}^{\prime}, \pi_{1}^{\prime}, \ldots, \pi_{N-1}^{\prime}\right\}π′:={π0′,π1′,…,πN−1′}。其中πk\pi_{k}πk对所有kkk定义为

πk′(uk∣xk):=p(xk,uk)p(xk)(2.30)\pi_{k}^{\prime}\left(u_{k} \mid x_{k}\right):=\frac{p\left(x_{k}, u_{k}\right)}{p\left(x_{k}\right)} \tag{2.30}πk′(uk∣xk):=p(xk)p(xk,uk)(2.30)

让我们定义 p′(xk)p^{\prime}\left(x_{k}\right)p′(xk) 和p′(xk,uk)p^{\prime}\left(x_{k}, u_{k}\right)p′(xk,uk) 为xk∈Xkx_{k} \in \mathcal{X}_{k}xk∈Xk 和 (xk,uk)∈Xk×Uk\left(x_{k}, u_{k}\right) \in \mathcal{X}_{k} \times \mathcal{U}_{k}(xk,uk)∈Xk×Uk的分布。所以对于所有 k=1,…,N−1k=1, \ldots, N-1k=1,…,N−1，有以下结论，

p(xk)=p′(xk)(2.31)p\left(x_{k}\right)=p^{\prime}\left(x_{k}\right)\tag{2.31}p(xk)=p′(xk)(2.31)

和

pk+1(xk+1,uk+1)=pk+1′(xk+1,uk+1)(2.32)p_{k+1}\left(x_{k+1}, u_{k+1}\right)=p_{k+1}^{\prime}\left(x_{k+1}, u_{k+1}\right)\tag{2.32}pk+1(xk+1,uk+1)=pk+1′(xk+1,uk+1)(2.32)

现在我们对（3.31）与（3.32）进行推导。对于 k=0k=0k=0 , 非常明显的是p(x0)=p′(x0)p\left(x_{0}\right)=p^{\prime}\left(x_{0}\right)p(x0)=p′(x0), 和

p′(x0,u0)=p′(x0)π0′(u0∣x0)=p(x0′)p(x0,u0)p(x0)=p(x0,u0)(2.33)\begin{aligned} p^{\prime}\left(x_{0}, u_{0}\right) &=p^{\prime}\left(x_{0}\right) \pi_{0}^{\prime}\left(u_{0} \mid x_{0}\right) \\ &=p\left(x_{0}^{\prime}\right) \frac{p\left(x_{0}, u_{0}\right)}{p\left(x_{0}\right)} \\ &=p\left(x_{0}, u_{0}\right) \end{aligned}\tag{2.33}p′(x0,u0)=p′(x0)π0′(u0∣x0)=p(x0′)p(x0)p(x0,u0)=p(x0,u0)(2.33)

让我们假设公式（2.31）中的结果对任意一个 kkk的。然后对于 k+1k+1k+1 , 根据归纳法我们有

p′(xk+1)=∑xk,ukp′(xk,uk)p(xk,uk,xk+1)(?)=∑xk,ukp′(xk)πk′(uk∣xk)p(xk,uk,xk+1)(bayes rule)=∑xk,ukp′(xk)p(xk,uk)p(xk)p(xk,uk,xk+1)=∑xk,ukp(xk,uk)p(xk,uk,xk+1)(归纳假设:p(xk)=p′(xk))=p(xk+1)(2.34)\begin{aligned} p^{\prime}\left(x_{k+1}\right) &=\sum_{x_{k}, u_{k}} p^{\prime}\left(x_{k}, u_{k}\right) p\left(x_{k}, u_{k}, x_{k+1}\right) \ \qquad (?)\\ &=\sum_{x_{k}, u_{k}} p^{\prime}\left(x_{k}\right) \pi_{k}^{\prime}\left(u_{k} \mid x_{k}\right) p\left(x_{k}, u_{k}, x_{k+1}\right) \qquad(\text{bayes rule}) \\ &=\sum_{x_{k}, u_{k}} p^{\prime}\left(x_{k}\right) \frac{p\left(x_{k}, u_{k}\right)}{p\left(x_{k}\right)} p\left(x_{k}, u_{k}, x_{k+1}\right) \\ &=\sum_{x_{k}, u_{k}} p\left(x_{k}, u_{k}\right) p\left(x_{k}, u_{k}, x_{k+1}\right) \qquad (\text{归纳假设:}p(x_k) = p^{\prime}(x_k))\\ &=p\left(x_{k+1}\right) \end{aligned}\tag{2.34}p′(xk+1)=xk,uk∑p′(xk,uk)p(xk,uk,xk+1) (?)=xk,uk∑p′(xk)πk′(uk∣xk)p(xk,uk,xk+1)(bayes rule)=xk,uk∑p′(xk)p(xk)p(xk,uk)p(xk,uk,xk+1)=xk,uk∑p(xk,uk)p(xk,uk,xk+1)(归纳假设:p(xk)=p′(xk))=p(xk+1)(2.34)

其中第二个等式是由于贝叶斯规则，第四个等式是由归纳假设(i. e. p(xk)=p′(xk)p(x_k) = p^{\prime}(x_k)p(xk)=p′(xk))得出的。同样地，我们得到

p′(xk+1,uk+1)=p′(xk+1)πk′(uk+1∣xk+1)=p′(xk+1)p(xk+1,uk+1)p(xk+1)=p(xk+1,uk+1)(2.35)\begin{aligned} p^{\prime}\left(x_{k+1}, u_{k+1}\right) &=p^{\prime}\left(x_{k+1}\right) \pi_{k}^{\prime}\left(u_{k+1} \mid x_{k+1}\right) \\ &=p^{\prime}\left(x_{k+1}\right) \frac{p\left(x_{k+1}, u_{k+1}\right)}{p\left(x_{k+1}\right)} \\ &=p\left(x_{k+1}, u_{k+1}\right) \end{aligned}\tag{2.35}p′(xk+1,uk+1)=p′(xk+1)πk′(uk+1∣xk+1)=p′(xk+1)p(xk+1)p(xk+1,uk+1)=p(xk+1,uk+1)(2.35)

上述分析表明，从相互作用的概率特征来看，随机马尔科夫策略与随机历史依赖策略的表现相当好。所以，所有的总成本函数和最佳总成本函数对随机马尔科夫策略和历史依赖策略都是重合的。 因此，马尔科夫策略是研究MDP问题的通用策略集。请注意，尽管马尔科夫策略有这样的充分性，但具体策略的性能仍然在很大程度上取决于MDP模型的构建。

在本章的其余部分，我们进一步研究策略的搜索空间，即确定性马尔科夫策略的集合。也就是说，我们比较了随机马尔科夫策略和确定性马尔科夫策略的总成本函数的最优性。

Definition 2.10 一个最佳的随机总成本函数被定义为

Jsm∗(x0):=min⁡π∈PsmJ0π(x0),∀x0∈X0(2.36)J_{s m}^{*}\left(x_{0}\right):=\min _{\pi \in \mathfrak{P}_{s m}} J_{0}^{\pi}\left(x_{0}\right), \quad \forall x_{0} \in \mathcal{X}_{0}\tag{2.36}Jsm∗(x0):=π∈PsmminJ0π(x0),∀x0∈X0(2.36)

一个最佳的随机策略 π∗\pi^{*}π∗ 是

πsm∗∣(x0)∈argmin⁡π∈PsmJ0π(x0)(2.37)\pi_{s m}^{*} \mid\left(x_{0}\right) \in \underset{\pi \in \mathfrak{P}_{s m}}{\operatorname{argmin}} J_{0}^{\pi}\left(x_{0}\right)\tag{2.37}πsm∗∣(x0)∈π∈PsmargminJ0π(x0)(2.37)

Definition 2.11 一个最佳的确定性总成本函数被定义为

Jdm∗(x0):=min⁡π∈PdmJ0π(x0),∀x0∈X0(2.38)J_{d m}^{*}\left(x_{0}\right):=\min _{\pi \in \mathfrak{P}_{d m}} J_{0}^{\pi}\left(x_{0}\right), \quad \forall x_{0} \in \mathcal{X}_{0}\tag{2.38}Jdm∗(x0):=π∈PdmminJ0π(x0),∀x0∈X0(2.38)

一个最佳的确定性策略 πdm∗\pi_{d m}^{*}πdm∗ 是

πdm∗(x0)∈argmin⁡π∈PdmJ0π(x0)(2.39)\pi_{d m}^{*}\left(x_{0}\right) \in \underset{\pi \in \mathfrak{P}_{d m}}{\operatorname{argmin}} J_{0}^{\pi}\left(x_{0}\right)\tag{2.39}πdm∗(x0)∈π∈PdmargminJ0π(x0)(2.39)

随机性马尔科夫和确定性马尔科夫的联系在下面的结果中得到了描述。

Proposition 2.5 给定一个有限范围的MDP⁡{X,U,p,gk,N}\operatorname{MDP}\left\{\mathcal{X}, \mathcal{U}, p, g_{k}, N\right\}MDP{X,U,p,gk,N},存在一个确定的马尔科夫策略，它不比最佳随机马尔科夫策略差。

证明： 令πsm∗∈Psm\pi_{s m}^{*} \in \mathfrak{P}_{s m}πsm∗∈Psm最佳随机马尔科夫策略, 和πdm∗∈Pdm\pi_{d m}^{*} \in \mathfrak{P}_{d m}πdm∗∈Pdm最佳确定性马尔科夫策略。由于假定确定性马尔科夫策略的集合是有限的，所以我们得到

Jπdm∗(x0)=min⁡πdm∈PdmJπdm(x0)(2.40)J_{\pi_{d m}^{*}}\left(x_{0}\right)=\min _{\pi_{d m} \in \mathfrak{P}_{d m}} J_{\pi_{d m}}\left(x_{0}\right)\tag{2.40}Jπdm∗(x0)=πdm∈PdmminJπdm(x0)(2.40)

对于给定的最佳随机策略 πsm∗\pi_{s m}^{*}πsm∗ , 我们定义

pπsm∗(x0)=∏k=0N−1πsm,k∗(uk∣xk)(2.41)p_{\pi_{s m}^{*}}\left(x_{0}\right)=\prod_{k=0}^{N-1} \pi_{s m, k}^{*}\left(u_{k} \mid x_{k}\right)\tag{2.41}pπsm∗(x0)=k=0∏N−1πsm,k∗(uk∣xk)(2.41)
其中 πsm,k∗(uk∣xk)\pi_{s m, k}^{*}\left(u_{k} \mid x_{k}\right)πsm,k∗(uk∣xk) 定义为在 kkk状态的最佳随机策略，对于一个固定的终止性马尔科夫策略，我们可以得到

pπdm(x0)=∏k=0N−1p(xk+1∣xk,uk)(2.42)p_{\pi_{d m}}\left(x_{0}\right)=\prod_{k=0}^{N-1} p\left(x_{k+1} \mid x_{k}, u_{k}\right)\tag{2.42}pπdm(x0)=k=0∏N−1p(xk+1∣xk,uk)(2.42)

直接可以得到，
Jπsm∗(x0)=Epπs∗m(χ,μ)[gN(xN)+∑k=0N−1gk(xk,uk,xk+1)]=Epπsm∗(x0)[Epπdm(x0)[gN(xN)+∑k=0N−1gk(xk,uk,xk+1)]]=Epπsm(x0)[Jπdm(x0)]≥Jπdm∗(x0)(2.43)\begin{aligned} J_{\pi_{s m}^{*}}\left(x_{0}\right) &=\mathbb{E}_{p_{\pi_{s}^{*} m}(\chi, \mu)}\left[g_{N}\left(x_{N}\right)+\sum_{k=0}^{N-1} g_{k}\left(x_{k}, u_{k}, x_{k+1}\right)\right] \\ &=\mathbb{E}_{p_{\pi_{s m}^{*}}\left(x_{0}\right)}\left[\mathbb{E}_{p_{\pi_{d m}}\left(x_{0}\right)}\left[g_{N}\left(x_{N}\right)+\sum_{k=0}^{N-1} g_{k}\left(x_{k}, u_{k}, x_{k+1}\right)\right]\right] \\ &=\mathbb{E}_{p_{\pi_{s m}}\left(x_{0}\right)}\left[J_{\pi_{d m}}\left(x_{0}\right)\right] \\ & \geq J_{\pi_{d m}^{*}}\left(x_{0}\right) \end{aligned}\tag{2.43}Jπsm∗(x0)=Epπs∗m(χ,μ)[gN(xN)+k=0∑N−1gk(xk,uk,xk+1)]=Epπsm∗(x0)[Epπdm(x0)[gN(xN)+k=0∑N−1gk(xk,uk,xk+1)]]=Epπsm(x0)[Jπdm(x0)]≥Jπdm∗(x0)(2.43)

显然，我们有 Jπsm∗(x0)≥Jπdm∗(x0)J_{\pi_{s m}^{*}}\left(x_{0}\right) \geq J_{\pi_{d m}^{*}}\left(x_{0}\right)Jπsm∗(x0)≥Jπdm∗(x0) for all x0∈X0x_{0} \in \mathcal{X}_{0}x0∈X0

这一结果简单地表明，在随机马尔科夫策略集Psm\mathfrak{P}_{s m}Psm中，全局最优总成本函数总是可以在确定性马尔科夫策略子集Pdm\mathfrak{P}_{d m}Pdm中找到。因此，在不丧失一般性的情况下，我们在其余部分将策略集限制为确定性的马尔可夫Pdm\mathfrak{P}_{d m}Pdm。

Definition 2.12 有限范围的确定性马尔科夫决策(Deterministic Markov decision making with finite horizon)

给定一个MDP {X,U,p,gk,N}\left\{\mathcal{X}, \mathcal{U}, p, g_{k}, N\right\}{X,U,p,gk,N} , 一个以非稳态策略为目标的有限范围问题 π~0:={π0,…,πN−1}∈Pdm\tilde{\pi}_{0}:=\left\{\pi_{0}, \ldots, \pi_{N-1}\right\} \in \mathfrak{P}_{d m}π~0:={π0,…,πN−1}∈Pdm 有πk:Xk→Uk\pi_{k}: \mathcal{X}_{k} \rightarrow \mathcal{U}_{k}πk:Xk→Uk, 所以对于所有x0∈X0x_{0} \in \mathcal{X}_{0}x0∈X0 , 我们有

min⁡π∈PdmEpπ(χ,μ)[gN(xN)+∑k=0N−1gk(xk,uk,xk+1)](2.44)\min _{\pi \in \mathfrak{P}_{d m}} \mathbb{E}_{p_{\pi}(\chi, \mu)}\left[g_{N}\left(x_{N}\right)+\sum_{k=0}^{N-1} g_{k}\left(x_{k}, u_{k}, x_{k+1}\right)\right] \tag{2.44}π∈PdmminEpπ(χ,μ)[gN(xN)+k=0∑N−1gk(xk,uk,xk+1)](2.44)

ADPRL - 近似动态规划和强化学习 - Note 2 - Stochastic Finite Horizon Problem相关推荐

ADPRL - 近似动态规划和强化学习 - Note 3 - Stochastic Infinite Horizon Problem
Stochastic Infinite Horizon Problem 3.Stochastic Infinite Horizon Problem 定义3.1 无限范围的马尔可夫决策过程 (Marko ...
ADPRL - 近似动态规划和强化学习 - Note 1 - Introduction
1. Intorduction Abbreviations Declaration SDM: sequential decision making 顺序决策 DP: Dynamic Programmi ...
ADPRL - 近似动态规划和强化学习 - Note 7 - Approximate Dynamic Programming
Note 7 - 近似动态规划 Approximate Dynamic Programming 7. 近似动态规划 (Approximate Dynamic Programming) 7.1 近似架构 ...
ADPRL - 近似动态规划和强化学习 - Note 8 - 近似策略迭代 (Approximate Policy Iteration)
Note 8 近似策略迭代 Approximate Policy Iteration 近似策略迭代 Note 8 近似策略迭代 Approximate Policy Iteration 8.1 通用框 ...
ADPRL - 近似动态规划和强化学习 - Note 10 - 蒙特卡洛法和时序差分学习及其实例（Monte Carlo and Temporal Difference）
Note 10 蒙特卡洛法和时序差分学习 Monte Carlo and Temporal Difference 蒙特卡洛法和时序差分学习 Note 10 蒙特卡洛法和时序差分学习 Monte Car ...
ADPRL - 近似动态规划和强化学习 - Note 6 - Mitigating the Curse of Dimensionality
Note 6 Mitigating the Curse of Dimensionality 减轻维度诅咒 6. Mitigating the Curse of Dimensionality 减轻维度诅 ...
ADPRL - 近似动态规划和强化学习 - Note 4 - Policy Iteration Algorithms
Note 4 - Policy Iteration Algorithms 4. Policy Iteration Algorithms 补充:范数的性质 4.1 贪婪诱导策略的特性 (Properti ...
ADPRL - 近似动态规划和强化学习 - Note 5 - Banach Fixed Point Theorem in Dynamic Programming
动态规划中的巴拿赫不动点定理 5. Banach Fixed Point Theorem in Dynamic Programming 5.1 巴拿赫不动点定理定理 (Banach fixed poi ...
RL（四）动态规划解决强化学习
目录 1.动态规划和强化学习的联系 2.用策略评估求解预测问题 3.用策略迭代求解控制问题 4.价值迭代求解控制问题 5.总结前面一篇博客讲了马尔科夫决策过程和贝尔曼方程,这一篇我们在此基础上用动态 ...

ADPRL - 近似动态规划和强化学习 - Note 2 - Stochastic Finite Horizon Problem