文章目录

随机过程 Markov 链（下）
- Markov 链的应用
- - 群体消失模型（分支过程）
  - 人口结构变化的 Markov 链模型
- 连续时间 Markov 链
- - 定义与性质
  - Kolmogorov 微分方程
  - 连续时间 Markov 链的应用
  - - Poisson 过程
    - Yule 过程
    - 生灭过程

随机过程 Markov 链（下）

Markov 链的应用

群体消失模型（分支过程）

考虑一个没有性别的群体，每个个体生命结束时以概率 p j ( j = 0 , 1 , 2 , ⋯ ) p_j\,(j=0,\,1,\,2,\,\cdots) pj(j=0,1,2,⋯) 产生 j j j 个新的后代，与别的个体产生的后代个数相互独立。初始个体数 X 0 X_0 X0 ，此 Markov 链 { X n , n = 0 , 1 , 2 , ⋯ } \{X_n,\,n=0,\,1,\,2,\,\cdots\} {Xn,n=0,1,2,⋯} 称为分支过程。

首先假设 X 0 = 1 X_0=1 X0=1 ，即：
X n = ∑ i = 1 X n − 1 Z n − 1 , i X_n=\sum\limits_{i=1}^{X_{n-1}}Z_{n-1,\,i} Xn=i=1∑Xn−1Zn−1,i
其中 Z n , i Z_{n,\,i} Zn,i 代表第 n n n 代的第 i i i 个成员的后代个数。

首先来考虑第 n n n 代的平均个体数 E ( X n ) E(X_n) E(Xn) 。令每个个体后代数目均值 μ = ∑ i = 0 ∞ i p i \mu=\sum\limits_{i=0}^{\infty}ip_i μ=i=0∑∞ipi 对 X n X_n Xn 取条件期望，有：
E ( X n ) = E [ E ( X n ∣ X n − 1 ) ] = μ E ( X n − 1 ) = ⋯ = μ n \begin{align} E(X_n)=&\,E[E(X_n|X_n-1)] \\ =&\, \mu E(X_{n-1}) \\ =&\,\cdots \\ =&\,\mu^n \end{align} E(Xn)====E[E(Xn∣Xn−1)]μE(Xn−1)⋯μn

若 μ < 1 \mu \lt 1 μ<1 ，则平均个体数单调下降趋于 0 0 0 ；
若 μ = 1 \mu=1 μ=1 ，则各代平均个体数相同；
若 μ > 1 \mu\gt 1 μ>1 ，平均个体数按指数阶上升至无穷。

下面考虑群体最终会消亡的概率 π 0 \pi_0 π0 。对第一代个体数取条件，得：
π 0 = P ( 群体消亡 ) = ∑ j = 0 ∞ P ( 群体消亡 ∣ X 1 = j ) ⋅ p j = ∑ j = 0 ∞ π 0 j p j \begin{align} \pi_0=&\,P(\text{群体消亡}) \\ =&\,\sum\limits_{j=0}^{\infty}P(\text{群体消亡}|X_1=j)\cdot p_j \\ =&\,\sum\limits_{j=0}^{\infty}\pi_0^{j}p_j \end{align} π0===P(群体消亡)j=0∑∞P(群体消亡∣X1=j)⋅pjj=0∑∞π0jpj
可以认为第一代的每个个体是一个群体的开端，则最终灭绝的概率为每一个群体都灭绝，即 π 0 j \pi_0^j π0j （有点更新方程的意思）。

Th：设 0 < p 0 < 1 0\lt p_0 \lt 1 0<p0<1 ， π 0 = 1 \pi_0=1 π0=1 的充要条件为 μ ≤ 1 \mu\le 1 μ≤1 ；

（当然 p 0 = 1 p_0=1 p0=1 一定会灭绝， p 0 = 0 p_0=0 p0=0 一定不会灭绝，我们不考虑这两种平凡的情况）

记 F ( π 0 ) = ∑ j = 0 ∞ π 0 j p j F(\pi_0)=\sum\limits_{j=0}^{\infty}\pi_0^j p_j F(π0)=j=0∑∞π0jpj ，则 π 0 = F ( π 0 ) \pi_0=F(\pi_0) π0=F(π0) 代表 y = x y=x y=x 和 y = F ( x ) y=F(x) y=F(x) 两条曲线的交点。比如 ( 1 , 1 ) (1,\,1) (1,1) 显然是一个交点；当 p 0 + p 1 = 1 p_0+p_1=1 p0+p1=1 时， y = F ( x ) y=F(x) y=F(x) 就是一条直线；一般情况下， p 0 + p 1 < 1 p_0+p_1\lt 1 p0+p1<1，有：
F ′ ( x ) = ∑ j = 1 ∞ j x j − 1 p j > 0 , 0 < x < 1 F ′ ′ ( x ) = ∑ j = 2 ∞ j ( j − 1 ) x j − 2 p j > 0 , 0 < x < 1 \begin{align} F'(x)=&\, \sum\limits_{j=1}^{\infty}jx^{j-1}p_j \gt 0 ,\quad 0 \lt x \lt 1 \\ F''(x)=&\, \sum\limits_{j=2}^{\infty}j(j-1)x^{j-2}p_j \gt 0 ,\quad 0 \lt x \lt 1 \end{align} F′(x)=F′′(x)=j=1∑∞jxj−1pj>0,0<x<1j=2∑∞j(j−1)xj−2pj>0,0<x<1
因此 F ( x ) F(x) F(x) 是一个单调递增的 convex 函数：

当 p 0 + p 1 = 1 p_0+p_1=1 p0+p1=1 时，只有一个交点 ( 1 , 1 ) (1,\,1) (1,1) ，即 π 0 = 1 \pi_0=1 π0=1 ，该群体必然会消亡；此时也有 μ = ∑ j = 0 ∞ j p j = p 1 < 1 \mu=\sum\limits_{j=0}^{\infty}jp_j=p_1\lt 1 μ=j=0∑∞jpj=p1<1 ；
当 p 0 + p 1 < 1 p_0+p_1 \lt 1 p0+p1<1 时， y = F ( x ) y=F(x) y=F(x) 与 y = x y=x y=x 可能会有至多两个交点，其中一个交点为 ( 1 , 1 ) (1,\,1) (1,1) ，另一个交点可能在 [ 0 , 1 ) [0,\,1) [0,1) ，也可能在 ( 1 , ∞ ) (1,\,\infty) (1,∞) ；由于 π 0 \pi_0 π0 代表概率，所以只有可能出现在 [ 0 , 1 ] [0,\,1] [0,1] 中
- [ 0 , 1 ) [0,\,1) [0,1) 时，存在一个交点 ( s , s ) (s,\,s) (s,s) 且 s = F ( s ) s=F(s) s=F(s) ，可以用归纳法证明 π 0 \pi_0 π0 是 s s s 而不是 1 1 1 ：
  
  我们假设 π \pi π 是 { π ∣ F ( x ) = x } \{\pi\,|\,F(x)=x\} {π∣F(x)=x} 集合中的元素，即交点构成的集合中的其中一个交点：
  
  ① 当 n = 1 n=1 n=1 时（第一代），有：
  π = ∑ j = 0 ∞ π j p j ≥ π 0 p 0 = p 0 = P ( X 1 = 0 ) \pi=\sum\limits_{j=0}^{\infty}\pi^jp_j\geq \pi^0p_0=p_0=P(X_1=0) π=j=0∑∞πjpj≥π0p0=p0=P(X1=0)
  ② 假设 π ≥ P ( X n = 0 ) \pi\geq P(X_n=0) π≥P(Xn=0) ，则：
  P ( X n + 1 = 0 ) = ∑ j = 0 ∞ P ( X n + 1 = 0 ∣ X 1 = j ) ⋅ p j = ∑ j = 0 ∞ P ( X n = 0 ) j ⋅ p j ≤ ∑ j = 0 ∞ π j ⋅ p j = π \begin{align} P(X_{n+1}=0)=&\,\sum\limits_{j=0}^{\infty}P(X_{n+1}=0|X_1=j)\cdot p_j \\ =&\, \sum\limits_{j=0}^{\infty}P(X_n=0)^j \cdot p_j \\ \leq &\, \sum\limits_{j=0}^{\infty}\pi^j \cdot p_j=\pi \end{align} P(Xn+1=0)==≤j=0∑∞P(Xn+1=0∣X1=j)⋅pjj=0∑∞P(Xn=0)j⋅pjj=0∑∞πj⋅pj=π
  因此对于任意 n n n ，都有 π ≥ P ( X n = 0 ) \pi\geq P(X_n=0) π≥P(Xn=0) ，因此 π ≥ lim ⁡ n → ∞ P ( X n = 0 ) = P ( 群体最终会灭绝 ) = π 0 \pi\geq\lim\limits_{n\to\infty}P(X_n=0)=P(\text{群体最终会灭绝})=\pi_0 π≥n→∞limP(Xn=0)=P(群体最终会灭绝)=π0 ，故 π 0 \pi_0 π0 是所有根中最小的，因此是 s
在这种情况下，群体灭绝的概率不为 1，此时 μ = F ′ ( 1 ) > 1 \mu=F'(1)\gt 1 μ=F′(1)>1 （就是说如果有一个小于 1 的交点的话， y = F ( x ) y=F(x) y=F(x) 在 1 处肯定是向上翘的）
( 1 , ∞ ) (1,\,\infty) (1,∞) 或者没有第二个交点时，只能是 π 0 = 1 \pi_0=1 π0=1 ，此时 μ = F ′ ( 1 ) ≤ 1 \mu=F'(1)\le 1 μ=F′(1)≤1 （就是说如果有一个大于 1 的交点的话， y = F ( x ) y=F(x) y=F(x) 在 1 处肯定比 y = x y=x y=x 要更平缓；如果没有其他交点的话，则 y = F ( x ) y=F(x) y=F(x) 与 y = x y=x y=x 在 1 处相切）

综上，在所有 y = F ( x ) y=F(x) y=F(x) 与 y = x y=x y=x 的交点情况中，都有 π 0 = 1 ⟺ μ ≤ 1 \pi_0=1 \iff \mu\le 1 π0=1⟺μ≤1 ，得证。

人口结构变化的 Markov 链模型

考虑一个社会的教育水平和文化程度的发展变化，将全国 16 岁以上的人口分为 7 个文化水平，结构的变化为升级、退化、进入（16 岁的人变多了）、迁出（移民或去世）。用 ( n 1 ( t ) , n 2 ( t ) , ⋯ , n 7 ( t ) ) (n_1(t),\,n_2(t),\,\cdots,\,n_7(t)) (n1(t),n2(t),⋯,n7(t)) 表示第 t t t 年各文化水平的人数， N ( t ) = ∑ i = 1 7 n i ( t ) N(t)=\sum\limits_{i=1}^{7}n_i(t) N(t)=i=1∑7ni(t) 为第 t t t 年 16 岁以上的人口总数。

以 q i j q_{ij} qij 记每年从 i i i 级转为 j j j 级的百分比，则 Q = ( q i j ) 7 × 7 Q=(q_{ij})_{7\times 7} Q=(qij)7×7 是一个准转矩阵（因为还有迁出的人，因此每行的元素之和 ≤ 1 \leq 1 ≤1 ）

考虑迁入迁出，以 w i w_i wi 记录每年从 i i i 级迁出占 i i i 级人数的百分比，则 ∑ j = 1 7 q i j + w i = 1 \sum\limits_{j=1}^7q_{ij}+w_i=1 j=1∑7qij+wi=1 ；记 r i r_i ri 为每年进入 i i i 级的人数占总进入人数的比例，则 ∑ i = 1 7 r i = 1 \sum\limits_{i=1}^7r_i=1 i=1∑7ri=1 ；

记 R ( t ) R(t) R(t) 为总进入人数， W ( t ) W(t) W(t) 为总迁出人数，则：
N ( t + 1 ) = N ( t ) + R ( t ) − W ( t ) n j ( t + 1 ) = ∑ i = 1 7 n i ( t ) q i j + r j R ( t ) − n j ( t ) w j \begin{align} N(t+1)=&\,N(t)+R(t)-W(t) \\ n_j(t+1)=&\,\sum\limits_{i=1}^{7}n_i(t)q_{ij}+r_jR(t)-n_j(t)w_j \end{align} N(t+1)=nj(t+1)=N(t)+R(t)−W(t)i=1∑7ni(t)qij+rjR(t)−nj(t)wj
令 16 岁以上人口变化为 M ( t ) M(t) M(t) ，增长率为 α \alpha α（可能为负增长）：
M ( t ) = N ( t + 1 ) − N ( t ) = R ( t ) − W ( t ) = α N ( t ) α = N ( t + 1 ) N ( t ) − 1 \begin{align} M(t)=&\,N(t+1)-N(t)=R(t)-W(t)=\alpha N(t) \\ \alpha=&\,\frac{N(t+1)}{N(t)}-1 \end{align} M(t)=α=N(t+1)−N(t)=R(t)−W(t)=αN(t)N(t)N(t+1)−1
于是
各文化水平人数占比 = n j ( t + 1 ) N ( t + 1 ) = N ( t ) N ( t + 1 ) [ ∑ i = 1 7 n i ( t ) N ( t ) q i j + r j R ( t ) N ( t ) − w j n j ( t ) N ( t ) ] = 1 1 + α [ ∑ i = 1 7 n i ( t ) N ( t ) q i j + r j R ( t ) N ( t ) − w j n j ( t ) N ( t ) ] \begin{align} \text{各文化水平人数占比}=\frac{n_j(t+1)}{N(t+1)}=&\,\frac{N(t)}{N(t+1)}\left[ \sum\limits_{i=1}^{7}\frac{n_i(t)}{N(t)}q_{ij}+r_j\frac{R(t)}{N(t)}-w_j\frac{n_j(t)}{N(t)} \right] \\ =&\,\frac{1}{1+\alpha}\left[ \sum\limits_{i=1}^{7}\frac{n_i(t)}{N(t)}q_{ij}+r_j\frac{R(t)}{N(t)}-w_j\frac{n_j(t)}{N(t)} \right] \end{align} 各文化水平人数占比=N(t+1)nj(t+1)==N(t+1)N(t)[i=1∑7N(t)ni(t)qij+rjN(t)R(t)−wjN(t)nj(t)]1+α1[i=1∑7N(t)ni(t)qij+rjN(t)R(t)−wjN(t)nj(t)]
记各文化水平人数占比为 a j ( t ) = n j ( t ) N ( t ) a_j(t)=\frac{n_j(t)}{N(t)} aj(t)=N(t)nj(t) ，记 a ( t ) = ( a 1 ( t ) , a 2 ( t ) , ⋯ , a 7 ( t ) ) a(t)=(a_1(t),\,a_2(t),\,\cdots,\,a_7(t)) a(t)=(a1(t),a2(t),⋯,a7(t)) ，则上式写成：
a j ( t + 1 ) = 1 1 + α [ ∑ i = 1 7 a i ( t ) q i j + r j R ( t ) N ( t ) − a i ( t ) w j ] a_j(t+1)=\frac{1}{1+\alpha}\left[ \sum\limits_{i=1}^{7}a_i(t)q_{ij}+r_j\frac{R(t)}{N(t)}-a_i(t)w_j\right] aj(t+1)=1+α1[i=1∑7ai(t)qij+rjN(t)R(t)−ai(t)wj]
由 R ( t ) = M ( t ) + W ( t ) = α N ( t ) + ∑ j = 1 7 n j ( t ) w j R(t)=M(t)+W(t)=\alpha N(t)+\sum\limits_{j=1}^{7}n_j(t)w_j R(t)=M(t)+W(t)=αN(t)+j=1∑7nj(t)wj ，则上式写成：
a j ( t + 1 ) = 1 1 + α [ ∑ i = 1 7 a i ( t ) ( q i j + r j w i ) − a i ( t ) w j + α r j ] a_j(t+1)=\frac{1}{1+\alpha}\left[ \sum\limits_{i=1}^{7}a_i(t)(q_{ij}+r_jw_i)-a_i(t)w_j +\alpha r_j \right] aj(t+1)=1+α1[i=1∑7ai(t)(qij+rjwi)−ai(t)wj+αrj]
特别地，当 α = 0 \alpha=0 α=0 时，有：
a j ( t + 1 ) = ∑ i = 1 7 a i ( t ) ( q i j + r j w i ) − a i ( t ) w j a_j(t+1)=\sum\limits_{i=1}^{7}a_i(t)(q_{ij}+r_jw_i)-a_i(t)w_j aj(t+1)=i=1∑7ai(t)(qij+rjwi)−ai(t)wj
记 P ~ = ( p ~ i j ) \tilde{P}=(\tilde{p}_{ij}) P~=(p~ij) ，其中：
p ~ i j = { q i j + r j w i i ≠ j q j j + r j w j − w j i = j \tilde{p}_{ij}=\left \{ \begin{array}{l} q_{ij}+r_jw_i & i\not=j \\ q_{jj}+r_jw_j-w_j & i=j \\ \end{array} \right . p~ij={qij+rjwiqjj+rjwj−wji=ji=j
则上式直接变成 a ( t + 1 ) = a ( t ) ⋅ P ~ a(t+1)=a(t)\cdot \tilde{P} a(t+1)=a(t)⋅P~ （这个是矩阵相乘），所以 P ~ \tilde{P} P~ 才是实际上的 Markov 转移矩阵。

在实际中，我们希望文化水平过低或者过高的人不需要太多，人口结构维持一个合理稳定的水平 a ∗ a^* a∗ 。比如在瓷器国，通过考试可以控制人口进入各级的比例 r = ( r 1 , r 2 , ⋯ , r 7 ) r=(r_1,\,r_2,\,\cdots,\,r_7) r=(r1,r2,⋯,r7) 来尽快达到这个稳定水平。（后边看不懂，不想看了）

连续时间 Markov 链

定义与性质

连续时间 Markov 链：过程 { X ( t ) , t ≥ 0 } \{X(t),\,t\geq 0\} {X(t),t≥0} 的状态空间 S S S 为离散空间（记为 { 0 , 1 , ⋯ } \{0,\,1,\,\cdots\} {0,1,⋯} ），若对一切 s , t ≥ 0 s,\,t\geq 0 s,t≥0 及 i , j ∈ S i,\,j\in S i,j∈S ，有：
P ( X ( t + s ) = j ∣ X ( s ) = i , X ( u ) = x ( u ) , 0 ≤ u ≤ s ) = P ( X ( t + s ) = j ∣ X ( s ) = i ) P(X(t+s)=j|X(s)=i,\,X(u)=x(u),\,0\leq u \leq s)=P(X(t+s)=j|X(s)=i) P(X(t+s)=j∣X(s)=i,X(u)=x(u),0≤u≤s)=P(X(t+s)=j∣X(s)=i)
成立（即将来的状态只和当前的状态有关），则称该过程为连续时间 Markov 链。此时转移概率 p i j ( s , t ) p_{ij}(s,\,t) pij(s,t) 为条件概率 P ( X ( t + s ) = j ∣ X ( s ) = i ) P(X(t+s)=j|X(s)=i) P(X(t+s)=j∣X(s)=i) ，转移概率矩阵为 P ( s , t ) = ( p i j ( s , t ) ) P(s,\,t)=(p_{ij}(s,\,t)) P(s,t)=(pij(s,t))

时齐 Markov 链：这里的时齐概念有点不一样，若 p i j ( s , t ) p_{ij}(s,\,t) pij(s,t) 与 s s s 无关，简记 p i j ( s , t ) = p i j ( t ) p_{ij}(s,\,t)=p_{ij}(t) pij(s,t)=pij(t) ，相应地记为 P i j ( t ) = ( p i j ( t ) ) P_{ij}(t)=(p_{ij}(t)) Pij(t)=(pij(t))

（我们后边也只讨论时齐的 Markov 链）

Th：对于连续时间 Markov 链 { X ( t ) , t ≥ 0 } \{X(t),\,t\geq 0\} {X(t),t≥0} ，假设时刻 0 过程刚刚到达 i ( i ∈ S ) i\,(i\in S) i(i∈S) ，以 τ i \tau_i τi 记过程在离开 i i i 之前停留的时间，则 τ i \tau_i τi 服从指数分布。

证明：之前概率论的时候有学过，连续型随机变量的分布里只有指数分布是具有无记忆性的（可以证明，虽然我证不出来），所以我们只需证明对 s , t ≥ 0 s,\,t\geq 0 s,t≥0 ，有：
P ( τ i > s + t ∣ τ i > s ) = P ( τ i > t ) P(\tau_i\gt s+t|\tau_i\gt s)=P(\tau_i\gt t) P(τi>s+t∣τi>s)=P(τi>t)
注意到：
{ τ i > s } ⟺ { X ( u ) = i , 0 < u ≤ s ∣ X ( 0 ) = i } { τ i > s + t } ⟺ { X ( u ) = i , 0 < u ≤ s , X ( v ) = i , s < v ≤ s + t ∣ X ( 0 ) = i } \begin{align} \{ \tau_i \gt s \} \iff&\, \{ X(u)=i,\,0\lt u\leq s \,|\, X(0)=i \} \\ \{ \tau_i \gt s+t \} \iff&\, \{ X(u)=i,\,0\lt u\leq s ,\, X(v)=i,\,s\lt v \leq s+t \,|\, X(0)=i \} \end{align} {τi>s}⟺{τi>s+t}⟺{X(u)=i,0<u≤s∣X(0)=i}{X(u)=i,0<u≤s,X(v)=i,s<v≤s+t∣X(0)=i}
则：
P ( τ i > s + t ∣ τ i > s ) = P ( X ( v ) = i , s < v ≤ s + t ∣ X ( u ) = i , 0 < u ≤ s ) = P ( X ( v ) = i , s < v ≤ s + t ) = P ( X ( v ) = i , 0 < v ≤ t ) = P ( τ i > t ) \begin{align} &\, P(\tau_i\gt s+t|\tau_i\gt s) \\ =&\, P(X(v)=i,\,s\lt v \leq s+t \,|\, X(u)=i,\,0\lt u\leq s) \\ =&\, P(X(v)=i,\,s\lt v \leq s+t) \\ =&\, P(X(v)=i,\,0\lt v \leq t) \\ =&\, P(\tau_i \gt t) \end{align} ====P(τi>s+t∣τi>s)P(X(v)=i,s<v≤s+t∣X(u)=i,0<u≤s)P(X(v)=i,s<v≤s+t)P(X(v)=i,0<v≤t)P(τi>t)
即 τ \tau τ 具有无记忆性，因此服从指数分布，得证。

因此，我们可以从另一种角度理解连续时间 Markov 链：

在转移到下一种状态之前，处于状态 i i i 的时间服从参数为 μ i \mu_i μi 的指数分布；
在过程离开状态 i i i 时，将以概率 p i j p_{ij} pij 到达 j j j ，并且 ∑ j ∈ S p i j = 1 \sum\limits_{j\in S}p_{ij=1} j∈S∑pij=1

若 μ i = ∞ \mu_i=\infty μi=∞ ，则状态 i i i 上停留的时间为 0，称状态 i i i 为瞬过状态。我们一般假设 Markov 链中不存在瞬过状态（因为瞬过状态其实也可以合并到其他状态上）。

若 μ i = 0 \mu_i=0 μi=0 ，则一旦进入状态 i i i ，停留的平均时间为无限长，这样的状态称为吸收状态。

连续时间 Markov 链是一个做如下运动的随机过程：它以一个 Markov 链的方式在各种状态之间转移，在两次转移之间以指数分布停留。并且这个指数分布仅与当前所处状态有关，而与下一个将要转移的状态独立。

正则性：若一个连续时间 Markov 链以概率 1 在任意有限长的时间内转移的次数是有限的，则称它是正则的。（我去查了一些资料，有些把这个叫做 Feller 性质或者正常性，而正则性指对于所有的初始状态，它们最终都能够达到同一个稳定分布）

正则的连续时间 Markov 链可以得到以下连续性条件：
lim ⁡ t → 0 p i j ( t ) = δ i j = { 1 i = j 0 i ≠ j \lim\limits_{t\to 0} p_{ij}(t)=\delta_{ij}=\left\{ \begin{array}{l} 1 & i = j \\ 0 & i \not= j \end{array} \right. t→0limpij(t)=δij={10i=ji=j

（这一节的例题可以看连续时间 Markov 链的应用，主要是判断某个过程是否是连续时间的 Markov 链，以及如何计算转移概率）

Kolmogorov 微分方程

离散时间 Markov 链的 n n n 步转移矩阵，可以直接由转移矩阵的 n n n 次方得到。但是连续时间的就比较复杂，我们先考虑 p i j ( t ) p_{ij}(t) pij(t) 的一些性质。

连续时间 Markov 链转移概率的性质：

p i j ( t ) ≥ 0 p_{ij}(t)\geq 0 pij(t)≥0 ；
∑ j ∈ S p i j ( t ) = 1 \sum\limits_{j\in S}p_{ij}(t)=1 j∈S∑pij(t)=1 ；
C-K 方程： p i j ( t + s ) = ∑ k ∈ S p i k ( t ) p k j ( t ) p_{ij}(t+s)=\sum\limits_{k\in S}p_{ik}(t)p_{kj}(t) pij(t+s)=k∈S∑pik(t)pkj(t) ；

证明：第一和第二点根据定义显然可以知道。现在证明第三点（其实也挺显然的）：
p i j ( t + s ) = P ( X ( t + s ) = j ∣ X ( 0 ) = i ) = ∑ k ∈ S P ( X ( t + s ) = j , X ( t ) = k ∣ X ( 0 ) = i ) = ∑ k ∈ S P ( X ( t + s ) = j ∣ X ( t ) = k , X ( 0 ) = i ) ⋅ P ( X ( t ) = k ∣ X ( 0 ) = i ) = ∑ k ∈ S P ( X ( t + s ) = j ∣ X ( t ) = k ) p i k ( k ) = ∑ k ∈ S p i k ( k ) p k j ( s ) \begin{align} p_{ij}(t+s)=&\, P(X(t+s)=j\,|\,X(0)=i) \\ =&\, \sum\limits_{k\in S} P(X(t+s)=j,\,X(t)=k\,|\,X(0)=i) \\ =&\, \sum\limits_{k\in S} P(X(t+s)=j\,|\,X(t)=k,\,X(0)=i)\cdot P(X(t)=k\,|\,X(0)=i) \\ =&\, \sum\limits_{k\in S} P(X(t+s)=j\,|\,X(t)=k)p_{ik}(k) \\ =&\, \sum\limits_{k\in S} p_{ik}(k)p_{kj}(s) \end{align} pij(t+s)=====P(X(t+s)=j∣X(0)=i)k∈S∑P(X(t+s)=j,X(t)=k∣X(0)=i)k∈S∑P(X(t+s)=j∣X(t)=k,X(0)=i)⋅P(X(t)=k∣X(0)=i)k∈S∑P(X(t+s)=j∣X(t)=k)pik(k)k∈S∑pik(k)pkj(s)

第二行到第三行可以这样理解，记 A A A 为事件 X ( t + s ) = j X(t+s)=j X(t+s)=j ， B B B 为事件 X ( t ) = k X(t)=k X(t)=k ， C C C 为事件 X ( 0 ) = i X(0)=i X(0)=i ，则：

P ( X ( t + s ) = j , X ( t ) = k ∣ X ( 0 ) = i ) = P ( A B ∣ C ) = P ( A B C ) P ( C ) = P ( A ∣ B C ) P ( B ∣ C ) = P ( A B C ) P ( B C ) P ( B C ) P ( C ) = P ( X ( t + s ) = j ∣ X ( t ) = k , X ( 0 ) = i ) P ( X ( t ) = k ∣ X ( 0 ) = i ) \begin{align} &\,P(X(t+s)=j,\,X(t)=k\,|\,X(0)=i) \\ =&\,P(AB|C) \\ =&\,\frac{P(ABC)}{P(C)} \\ =&\,P(A|BC)P(B|C) \\ =&\,\frac{P(ABC)}{P(BC)}\frac{P(BC)}{P(C)} \\ =&\, P(X(t+s)=j\,|\,X(t)=k,\,X(0)=i)P(X(t)=k\,|\,X(0)=i) \end{align} =====P(X(t+s)=j,X(t)=k∣X(0)=i)P(AB∣C)P(C)P(ABC)P(A∣BC)P(B∣C)P(BC)P(ABC)P(C)P(BC)P(X(t+s)=j∣X(t)=k,X(0)=i)P(X(t)=k∣X(0)=i)

第三行到第四行是 Markov 链的定义，转移概率与过去的状态无关

Th ： q i j q_{ij} qij 称为状态 i i i 转移到状态 j j j 的转移速率，具有以下性质：（没有证明，估计有点困难）

lim ⁡ t → 0 1 − p i i ( t ) t = q i i ≤ + ∞ \lim\limits_{t\to 0}\frac{1-p_{ii}(t)}{t}=q_{ii} \leq +\infty t→0limt1−pii(t)=qii≤+∞ ；
lim ⁡ t → 0 p i j ( t ) t = q i j < + ∞ \lim\limits_{t\to 0}\frac{p_{ij}(t)}{t}=q_{ij} \lt +\infty t→0limtpij(t)=qij<+∞ ；

推论：对有限状态时齐的连续时间 Markov 链，有：
q i i = ∑ j ≠ i q i j < + ∞ q_{ii}=\sum\limits_{j\not=i}q_{ij} \lt +\infty qii=j=i∑qij<+∞
证明：有 ∑ j ∈ S p i j ( t ) = 1 \sum\limits_{j\in S}p_{ij}(t)=1 j∈S∑pij(t)=1 ，即 1 − p i i ( t ) = ∑ j ≠ i p i j ( t ) 1-p_{ii}(t)=\sum\limits_{j\not=i}p_{ij}(t) 1−pii(t)=j=i∑pij(t) ，故：（中间有一步交换极限和求和的顺序，因为状态有限，所以可以交换）
lim ⁡ t → 0 1 − p i i ( t ) t = lim ⁡ t → 0 ∑ j ≠ i p i j ( t ) t = ∑ j ≠ i lim ⁡ t → 0 p i j ( t ) t = ∑ j ≠ i q i j < ∞ \begin{align} \lim\limits_{t\to 0}\frac{1-p_{ii}(t)}{t} =&\, \lim\limits_{t\to 0}\sum\limits_{j\not=i}\frac{p_{ij}(t)}{t} \\ =&\, \sum\limits_{j\not=i}\lim\limits_{t\to 0}\frac{p_{ij}(t)}{t} \\ =&\, \sum\limits_{j\not=i}q_{ij} \lt \infty \end{align} t→0limt1−pii(t)===t→0limj=i∑tpij(t)j=i∑t→0limtpij(t)j=i∑qij<∞
Tip：对于无限状态的情况，一般只能得到 q i j ≥ ∑ j ≠ i q i j q_{ij}\geq \sum\limits_{j\not =i}q_{ij} qij≥j=i∑qij ；为简单起见，设状态空间为 S = { 1 , 2 , ⋯ } S=\{1,\,2,\,\cdots\} S={1,2,⋯} ，此时记：
Q = [ − q 11 q 12 q 13 ⋯ q 1 i ⋯ q 21 − q 22 q 23 ⋯ q 2 i ⋯ ⋮ ⋮ ⋮ ⋮ q i 1 q i 2 q i 3 ⋯ − q i i ⋯ ⋮ ⋮ ⋮ ⋮ ] Q=\begin{bmatrix} -q_{11} & q_{12} & q_{13} & \cdots & q_{1i} & \cdots \\ q_{21} & -q_{22} & q_{23} & \cdots & q_{2i} & \cdots \\ \vdots & \vdots & \vdots & & \vdots & & \\ q_{i1} & q_{i2} & q_{i3} & \cdots & -q_{ii} & \cdots \\ \vdots & \vdots & \vdots & & \vdots & & \\ \end{bmatrix} Q= −q11q21⋮qi1⋮q12−q22⋮qi2⋮q13q23⋮qi3⋮⋯⋯⋯q1iq2i⋮−qii⋮⋯⋯⋯
称为连续时间 Markov 链的 Q-矩阵 。当矩阵元素 q i i = ∑ j ≠ i q i j < + ∞ q_{ii}=\sum\limits_{j\not=i}q_{ij} \lt +\infty qii=j=i∑qij<+∞ 时，称该矩阵是保守的。

我们用以上两个定理和推论导出重要的 Kolmogorov 微分方程。

Kolmogorov 微分方程：对一切 i , j ∈ S i,\,j\in S i,j∈S ， t ≥ 0 t\geq 0 t≥0 且 ∑ j ≠ i q i j = q i i < ∞ \sum\limits_{j\not=i}q_{ij}=q_{ii}\lt \infty j=i∑qij=qii<∞ ，有：

向后方程：

p i j ′ ( t ) = ∑ k ≠ i q i k p k j ( t ) − q i i p i j ( t ) p_{ij}'(t)=\sum\limits_{k\not=i}q_{ik}p_{kj}(t)-q_{ii}p_{ij}(t) pij′(t)=k=i∑qikpkj(t)−qiipij(t)

在适当正则的条件下，有向前方程：

p i j ′ ( t ) = ∑ k ≠ j q k j p i k ( t ) − q j j p i j ( t ) p_{ij}'(t)=\sum\limits_{k\not=j}q_{kj}p_{ik}(t)-q_{jj}p_{ij}(t) pij′(t)=k=j∑qkjpik(t)−qjjpij(t)

证明：由连续时间 Markov 链的 C-K 方程，有 p i j ( t + h ) = ∑ k ∈ S p i k ( h ) p k j ( t ) p_{ij}(t+h)=\sum\limits_{k \in S}p_{ik}(h)p_{kj}(t) pij(t+h)=k∈S∑pik(h)pkj(t) ，变型为：
p i j ( t + h ) − p i i ( h ) p i j ( t ) = ∑ k ≠ i p i k ( h ) p k j ( t ) p i j ( t + h ) − p i j ( t ) = ∑ k ≠ i p i k ( h ) p k j ( t ) − ( 1 − p i i ( h ) ) p i j ( t ) \begin{align} p_{ij}(t+h)-p_{ii}(h)p_{ij}(t)=&\,\sum\limits_{k\not= i}p_{ik}(h)p_{kj}(t) \\ p_{ij}(t+h)-p_{ij}(t)=&\,\sum\limits_{k\not= i}p_{ik}(h)p_{kj}(t)-(1-p_{ii}(h))p_{ij}(t) \end{align} pij(t+h)−pii(h)pij(t)=pij(t+h)−pij(t)=k=i∑pik(h)pkj(t)k=i∑pik(h)pkj(t)−(1−pii(h))pij(t)
两边除以 h h h ，对 h h h 取极限得到：
lim ⁡ h → 0 p i j ( t + h ) − p i j ( t ) h = lim ⁡ h → 0 ∑ k ≠ i p i k ( h ) h p k j ( t ) − lim ⁡ h → 0 1 − p i i ( h ) h p i j ( t ) \lim\limits_{h\to 0}\frac{p_{ij}(t+h)-p_{ij}(t)}{h}= \lim\limits_{h\to 0}\sum\limits_{k\not= i}\frac{p_{ik}(h)}{h}p_{kj}(t)-\lim\limits_{h\to 0}\frac{1-p_{ii}(h)}{h}p_{ij}(t) h→0limhpij(t+h)−pij(t)=h→0limk=i∑hpik(h)pkj(t)−h→0limh1−pii(h)pij(t)
当 Markov 链状态有限时， lim ⁡ h → 0 ∑ k ≠ i p i k ( h ) h p k j ( t ) \lim\limits_{h\to 0}\sum\limits_{k\not= i}\frac{p_{ik}(h)}{h}p_{kj}(t) h→0limk=i∑hpik(h)pkj(t) 的极限与求和可以交换次序，此时直接得到了向后方程。

当 Markov 链状态无限时，我们也只需要证明极限与求和可以交换次序。对于固定的 N N N ，有：
lim ⁡ h → 0 inf ⁡ ∑ k ≠ i p i k ( h ) h p k j ( t ) ≥ lim ⁡ h → 0 inf ⁡ ∑ k ≠ i , k < N p i k ( h ) h p k j ( t ) = ∑ k ≠ i , k < N lim ⁡ h → 0 inf ⁡ p i k ( h ) h p k j ( t ) = ∑ k ≠ i , k < N q i k p k j ( t ) \begin{align} \lim\limits_{h\to 0}\inf \sum\limits_{k\not=i}\frac{p_{ik}(h)}{h}p_{kj}(t)\geq &\, \lim\limits_{h\to 0}\inf \sum\limits_{k\not=i,\,k\lt N}\frac{p_{ik}(h)}{h}p_{kj}(t) \\ =&\, \sum\limits_{k\not=i,\,k\lt N}\lim\limits_{h\to 0}\inf \frac{p_{ik}(h)}{h}p_{kj}(t) \\ =&\, \sum\limits_{k\not=i,\,k\lt N}q_{ik}p_{kj}(t) \end{align} h→0liminfk=i∑hpik(h)pkj(t)≥==h→0liminfk=i,k<N∑hpik(h)pkj(t)k=i,k<N∑h→0liminfhpik(h)pkj(t)k=i,k<N∑qikpkj(t)

由 N N N 的任意性，可以得到：

lim ⁡ h → 0 inf ⁡ ∑ k ≠ i p i k ( h ) h p k j ( t ) ≥ ∑ k ≠ i q i k p k j ( t ) \lim\limits_{h\to 0}\inf \sum\limits_{k\not=i}\frac{p_{ik}(h)}{h}p_{kj}(t) \geq \sum\limits_{k\not=i}q_{ik}p_{kj}(t) h→0liminfk=i∑hpik(h)pkj(t)≥k=i∑qikpkj(t)
又因为对于 ∀ k ∈ S \forall k\in S ∀k∈S 有 p k j ( t ) ≤ 1 p_{kj}(t)\leq 1 pkj(t)≤1 ，因此：

lim ⁡ h → 0 sup ⁡ ∑ k ≠ i p i k ( h ) h p k j ( t ) ≤ lim ⁡ h → 0 sup ⁡ [ ∑ k ≠ i , k < N p i k ( h ) h p k j ( t ) + ∑ k ≠ i , k ≥ N p i k ( h ) h ] = lim ⁡ h → 0 sup ⁡ { ∑ k ≠ i , k < N p i k ( h ) h p k j ( t ) + [ ∑ k ≠ i p i k ( h ) h − ∑ k ≠ i , k < N p i k ( h ) h ] } = lim ⁡ h → 0 sup ⁡ { ∑ k ≠ i , k < N p i k ( h ) h p k j ( t ) + [ 1 − p i i ( h ) h − ∑ k ≠ i , k < N p i k ( h ) h ] } = ∑ k ≠ i , k < N q i k p k j ( t ) + q i i − ∑ k ≠ i , k < N q i k \begin{align} &\,\lim\limits_{h\to 0}\sup \sum\limits_{k\not=i}\frac{p_{ik}(h)}{h}p_{kj}(t) \leq \lim\limits_{h\to 0}\sup \left[ \sum\limits_{k\not=i,\,k\lt N}\frac{p_{ik}(h)}{h}p_{kj}(t) + \sum\limits_{k\not=i,\,k\geq N}\frac{p_{ik}(h)}{h} \right] \\ =&\, \lim\limits_{h\to 0}\sup \left \{ \sum\limits_{k\not=i,\,k\lt N} \frac{p_{ik}(h)}{h}p_{kj}(t) + \left [ \sum\limits_{k\not=i}\frac{p_{ik}(h)}{h} - \sum\limits_{k\not=i,\,k\lt N}\frac{p_{ik}(h)}{h} \right ] \right \} \\ =&\, \lim\limits_{h\to 0}\sup \left \{ \sum\limits_{k\not=i,\,k\lt N} \frac{p_{ik}(h)}{h}p_{kj}(t) + \left [ \frac{1-p_{ii}(h)}{h} - \sum\limits_{k\not=i,\,k\lt N}\frac{p_{ik}(h)}{h} \right ] \right \} \\ =&\, \sum\limits_{k\not=i,\,k\lt N}q_{ik}p_{kj}(t)+q_{ii}-\sum\limits_{k\not=i,\,k\lt N} q_{ik} \end{align} ===h→0limsupk=i∑hpik(h)pkj(t)≤h→0limsup k=i,k<N∑hpik(h)pkj(t)+k=i,k≥N∑hpik(h) h→0limsup⎩ ⎨ ⎧k=i,k<N∑hpik(h)pkj(t)+ k=i∑hpik(h)−k=i,k<N∑hpik(h) ⎭ ⎬ ⎫h→0limsup⎩ ⎨ ⎧k=i,k<N∑hpik(h)pkj(t)+ h1−pii(h)−k=i,k<N∑hpik(h) ⎭ ⎬ ⎫k=i,k<N∑qikpkj(t)+qii−k=i,k<N∑qik

同样由于 N N N 的任意性，可以得到：

lim ⁡ h → 0 sup ⁡ ∑ k ≠ i p i k ( h ) h p k j ( t ) ≤ ∑ k ≠ i q i k p j k ( t ) \lim\limits_{h\to 0}\sup \sum\limits_{k\not=i}\frac{p_{ik}(h)}{h}p_{kj}(t) \leq \sum\limits_{k\not=i}q_{ik}p_{jk}(t) h→0limsupk=i∑hpik(h)pkj(t)≤k=i∑qikpjk(t)

这就证明了

lim ⁡ h → 0 sup ⁡ ∑ k ≠ i p i k ( h ) h p k j ( t ) = ∑ k ≠ i q i k p j k ( t ) \lim\limits_{h\to 0}\sup \sum\limits_{k\not=i}\frac{p_{ik}(h)}{h}p_{kj}(t)= \sum\limits_{k\not=i}q_{ik}p_{jk}(t) h→0limsupk=i∑hpik(h)pkj(t)=k=i∑qikpjk(t)

于是无限状态的情况下，向后方程也成立，矩阵形式为 P ′ ( t ) = Q P ( t ) P'(t)=QP(t) P′(t)=QP(t) ；向后方程的意思是，我们计算 p i j ( t + h ) p_{ij}(t+h) pij(t+h) 是回退到 p i j ( h ) p_{ij}(h) pij(h) 来计算的。我们可以换一种角度考虑，来证明向前方程：

由连续时间 Markov 链的 C-K 方程，有 p i j ( t + h ) = ∑ k ∈ S p i k ( t ) p k j ( h ) p_{ij}(t+h)=\sum\limits_{k \in S}p_{ik}(t)p_{kj}(h) pij(t+h)=k∈S∑pik(t)pkj(h) ，和上面类似的变形可以得到：

lim ⁡ h → 0 p i j ( t + h ) − p i j ( t ) h = lim ⁡ h → 0 ∑ k ≠ i p i k ( t ) p k j ( h ) h − lim ⁡ h → 0 1 − p j j ( h ) h p i j ( t ) \lim\limits_{h\to 0}\frac{p_{ij}(t+h)-p_{ij}(t)}{h}= \lim\limits_{h\to 0}\sum\limits_{k\not= i}p_{ik}(t)\frac{p_{kj}(h)}{h}-\lim\limits_{h\to 0}\frac{1-p_{jj}(h)}{h}p_{ij}(t) h→0limhpij(t+h)−pij(t)=h→0limk=i∑pik(t)hpkj(h)−h→0limh1−pjj(h)pij(t)

对于适当正则的 Markov 链，上述的极限和求和可以交换次序，因此向前方程也成立，写成矩阵形式为 P ′ ( t ) = P ( t ) Q P'(t)=P(t)Q P′(t)=P(t)Q 。

适当正则的 Markov 满足以下两个条件：

从任何一个状态开始，都可以通过有限步骤到达其他任何状态。
在一定的时间内，任何一个状态都可以通过有限步骤回到自身。

对于有限状态的 Markov 链或者生灭过程（特别是 Yule 过程），都是满足适当正则的条件的，即向前方程成立。

连续时间 Markov 链的应用

Poisson 过程

参数为 λ \lambda λ 的 Poisson 过程， { N ( t ) , t ≥ 0 } \{N(t),\,t\geq 0\} {N(t),t≥0} 。可以看成一个 Markov 链，状态取值为 { 0 , 1 , 2 , ⋯ } \{0,\,1,\,2,\,\cdots\} {0,1,2,⋯} ，在每个状态 i i i 停留的时间服从指数分布，并且离开 i i i 时以概率为 1 转移到 i + 1 i+1 i+1 。可知 Poisson 过程是时齐的连续时间 Markov 链。对于 i ∈ S i\in S i∈S ，它的转移概率为：
p i , i ( t ) = P ( N ( t + s ) = i ∣ N ( s ) = i ) = P ( N ( t ) = 0 ) = e − λ t \begin{align} p_{i,\,i}(t)=&\,P(N(t+s)=i\,|\,N(s)=i) \\ =&\,P(N(t)=0) \\ =&\,e^{-\lambda t} \end{align} pi,i(t)===P(N(t+s)=i∣N(s)=i)P(N(t)=0)e−λt
（第一行是定义，第二行是因为时间 [ s , t + s ] [s,\,t+s] [s,t+s] 内没有发生更新，又由于 Poisson 过程的独立增量性，相当从 0 开始到 t t t 时刻没有发生更新的概率，即 P ( N ( t ) ) = 0 P(N(t))=0 P(N(t))=0 ；第三行是定义）
p i , i + 1 ( t ) = P ( N ( t + s ) = i + 1 ∣ N ( s ) = i ) = P ( N ( t ) = 1 ) = λ t e − λ t p i , j ( t ) = ( λ t ) j − i ( j − i ) ! e − λ t , j > i + 1 p i , j ( t ) = 0 , j < i \begin{align} p_{i,\,i+1}(t)=&\,P(N(t+s)=i+1\,|\,N (s)=i) \\ =&\, P(N(t)=1) \\ =&\, \lambda t e^{-\lambda t} \\ p_{i,\,j}(t)=&\,\frac{(\lambda t)^{j-i}}{(j-i)!}e^{-\lambda t},\quad j\gt i+1 \\ p_{i,\,j}(t)=&\,0, \quad j\lt i \\ \end{align} pi,i+1(t)===pi,j(t)=pi,j(t)=P(N(t+s)=i+1∣N(s)=i)P(N(t)=1)λte−λt(j−i)!(λt)j−ie−λt,j>i+10,j<i

接下来我们使用 Kolmogorove 微分方程来计算转移概率。

由 Poisson 过程的第二个定义可以得到：
p k k ( h ) = P ( N ( t + h ) − N ( t ) = 0 ∣ N ( t ) = k ) = 1 − λ h + o ( h ) p k , k + 1 ( h ) = P ( N ( t + h ) − N ( t ) = 1 ∣ N ( t ) = k ) = λ h + o ( h ) p k , k + n ( h ) = P ( N ( t + h ) − N ( t ) = n ∣ N ( t ) = k ) = o ( h ) ( n ≥ 2 ) \begin{align} p_{kk}(h)=&\, P(N(t+h)-N(t)=0\,|\,N(t)=k) \\ =&\, 1-\lambda h+o(h) \\ p_{k,\,k+1}(h)=&\, P(N(t+h)-N(t)=1\,|\,N(t)=k) \\ =&\,\lambda h+o(h) \\ p_{k,\,k+n}(h)=&\, P(N(t+h)-N(t)=n\,|\,N(t)=k) \\ =&\,o(h) \quad(n\geq 2)\\ \end{align} pkk(h)==pk,k+1(h)==pk,k+n(h)==P(N(t+h)−N(t)=0∣N(t)=k)1−λh+o(h)P(N(t+h)−N(t)=1∣N(t)=k)λh+o(h)P(N(t+h)−N(t)=n∣N(t)=k)o(h)(n≥2)
两边除以 h h h ，取极限，可以得到：
lim ⁡ h → 0 1 − p k k ( h ) h = q k k = λ lim ⁡ h → 0 p k , k + 1 ( h ) h = q k , k + 1 = λ lim ⁡ h → 0 p k , k + n ( h ) h = q k , k + n = 0 ( n ≥ 2 ) \begin{align} \lim\limits_{h\to 0}\frac{1-p_{kk}(h)}{h}=&\, q_{kk}=\lambda \\ \lim\limits_{h\to 0}\frac{p_{k,\,k+1}(h)}{h}=&\, q_{k,\,k+1}=\lambda \\ \lim\limits_{h\to 0}\frac{p_{k,\,k+n}(h)}{h}=&\, q_{k,\,k+n}=0 \quad(n\geq 2)\\ \end{align} h→0limh1−pkk(h)=h→0limhpk,k+1(h)=h→0limhpk,k+n(h)=qkk=λqk,k+1=λqk,k+n=0(n≥2)
代入向后方程：

当 j = i j=i j=i 时，有：
p i i ′ ( t ) = − q i i p i i ( t ) = − λ p i i ( t ) = − λ e − λ t p'_{ii}(t)=-q_{ii}p_{ii}(t)=-\lambda p_{ii}(t)=-\lambda e^{-\lambda t} pii′(t)=−qiipii(t)=−λpii(t)=−λe−λt
当 j = i + 1 j=i+1 j=i+1 时，有：
p i , i + 1 ′ ( t ) = q i , i + 1 p i + 1 , i + 1 ( t ) − q i i p i , i + 1 ( t ) = λ ( p i + 1 , i + 1 ( t ) − p i , i + 1 ( t ) ) = λ e − λ t ( 1 − λ t ) \begin{align} &\, p_{i,\,i+1}'(t) \\ =&\, q_{i,\,i+1}p_{i+1,\,i+1}(t)-q_{ii}p_{i,\,i+1}(t) \\ =&\, \lambda(p_{i+1,\,i+1}(t)-p_{i,\,i+1}(t)) \\ =&\, \lambda e^{-\lambda t}(1-\lambda t) \end{align} ===pi,i+1′(t)qi,i+1pi+1,i+1(t)−qiipi,i+1(t)λ(pi+1,i+1(t)−pi,i+1(t))λe−λt(1−λt)
当 j = i + 2 j=i+2 j=i+2 时，有：
p i , i + 2 ′ ( t ) = q i , i + 1 p i + 1 , i + 2 ( t ) − q i i p i , i + 2 ( t ) = λ ( λ t e − λ t − ( λ t ) 2 2 e − λ t ) p'_{i,\,i+2}(t)=q_{i,\,i+1}p_{i+1,\,i+2}(t)-q_{ii}p_{i,\,i+2}(t)=\lambda(\lambda te^{-\lambda t}-\frac{(\lambda t)^2}{2}e^{-\lambda t}) pi,i+2′(t)=qi,i+1pi+1,i+2(t)−qiipi,i+2(t)=λ(λte−λt−2(λt)2e−λt)

其他情况下，好像都差不多，主要是因为 $ q_{k,,k+n}=0 \quad(n\geq 2)$ ；书上说其他情况微分方程不存在，我没有理解。。。

有条件 p i i ( 0 ) = 1 p_{ii}(0)=1 pii(0)=1 （这个是微分方程的初值条件），上述微分方程的解为：
p i j ( t ) = ( λ t ) j − i ( j − i ) ! e − λ t , j ≥ i ≥ 0 p_{ij}(t)=\frac{(\lambda t)^{j-i}}{(j-i)!}e^{-\lambda t},\quad j\geq i \geq 0 pij(t)=(j−i)!(λt)j−ie−λt,j≥i≥0
和我们上面解出来的转移概率一致，也和 Poisson 过程的第一个定义等价。

注意：前面 j j j 的各种情况，最后一步都是用前面的已经得到的转移概率的结论而算出来的具体解，但是实际上我们是不知道具体的解的，而是要通过解微分方程才能得到转移概率的具体解；我用结论直接代入微分方程是为了验证一下有没有算错hhh

Yule 过程

设某一生物群体中各个体的繁殖时相互独立、强度为 λ \lambda λ 的 Poisson 过程，并且群体中没有死亡，此过程称为 Yule 过程。则 Yule 过程是一个连续时间的 Markov 链，下面进行说明：

设 0 时刻时群体中有一个个体，则群体中个体个数为 { 1 , 2 , 3 , ⋯ } \{\,1,\,2,\,3,\,\cdots\} {1,2,3,⋯} ，我们将其看作 Markov 链的状态。当群体中个体数目为 i i i 时，要到达 i + 1 i+1 i+1 个，由 Poisson 过程的独立可加性可知，这相当于是一个强度为 λ i \lambda i λi 的 Poisson 过程。若以 T i T_i Ti 记群体个体数目从 i i i 到 i + 1 i+1 i+1 的时间，那么 T i T_i Ti 服从参数为 λ i \lambda i λi 的指数分布。这是因为每个个体都有可能会繁殖，而 T i T_i Ti 是繁殖时间最短的那个，相当于 i i i 个服从指数分布的随机变量的最小顺序统计量，分布为 F T ( 1 ) ( t ) = 1 − ( 1 − F ( t ) ) i = 1 − e − λ i t F_{T(1)}(t)=1-(1-F(t))^i=1-e^{-\lambda i t} FT(1)(t)=1−(1−F(t))i=1−e−λit ，所以 T i T_i Ti 服从参数为 λ i \lambda i λi 的指数分布。

这就说明了 Yule 过程是一个连续时间的 Markov 链。我们算一下它的转移概率：
P ( T 1 ≤ t ) = 1 − e − λ t P ( T 1 + T 2 ≤ t ) = ∫ 0 t P ( T 1 + T 2 ≤ t ∣ T 1 = x ) λ e − λ x d x = ∫ 0 t ( 1 − e − 2 λ ( t − x ) ) λ e − λ x d x = ( 1 − e − λ t ) 2 \begin{align} P(T_1 \leq t)=&\,1-e^{-\lambda t} \\ P(T_1+T_2 \leq t) = &\, \int_0^t P(T_1+T_2\leq t\,|\,T_1=x)\lambda e^{-\lambda x}\,dx \\ = &\, \int_0^t (1-e^{-2\lambda(t-x)})\lambda e^{-\lambda x}\,dx \\ = &\, (1-e^{-\lambda t})^2 \end{align} P(T1≤t)=P(T1+T2≤t)===1−e−λt∫0tP(T1+T2≤t∣T1=x)λe−λxdx∫0t(1−e−2λ(t−x))λe−λxdx(1−e−λt)2
用归纳法可以得到 P ( ∑ i = 1 j T i ≤ t ) = ( 1 − e − λ t ) j P(\sum\limits_{i=1}^{j}T_i\leq t)=(1-e^{-\lambda t})^j P(i=1∑jTi≤t)=(1−e−λt)j 。以 X ( t ) X(t) X(t) 记 t t t 时刻的状态，则：
{ ∑ i = 0 j T i ≤ t } ⟺ { X ( t ) ≥ j + 1 ∣ X ( 0 ) = 1 } \{ \sum\limits_{i=0}^{j}T_i \leq t \} \iff \{ X(t) \geq j+1 | X(0)=1 \} {i=0∑jTi≤t}⟺{X(t)≥j+1∣X(0)=1}
所以：
p 1 , j ( t ) = P ( X ( t ) = j ∣ X ( 0 ) = 1 ) = P ( X ( t ) ≥ j ∣ X ( 0 ) = 1 ) − P ( X ( t ) ≥ j + 1 ∣ X ( 0 ) = 1 ) = ( 1 − e − λ t ) j − 1 − ( 1 − e − λ t ) j = e − λ t ( 1 − e − λ t ) j − 1 ( j ≥ 1 ) \begin{align} p_{1,\,j}(t)=&\, P(X(t)=j\,|\,X(0)=1) \\ =&\, P(X(t)\geq j\,|\,X(0)=1) - P(X(t)\geq j+1\,|\,X(0)=1) \\ = &\, (1-e^{-\lambda t})^{j-1} - (1-e^{-\lambda t})^{j} \\ = &\, e^{-\lambda t}(1-e^{-\lambda t})^{j-1} \quad\quad (j\geq 1) \end{align} p1,j(t)====P(X(t)=j∣X(0)=1)P(X(t)≥j∣X(0)=1)−P(X(t)≥j+1∣X(0)=1)(1−e−λt)j−1−(1−e−λt)je−λt(1−e−λt)j−1(j≥1)
这是一个几何分布，看出来了吗，参数是 p = e − λ t p=e^{-\lambda t} p=e−λt ，因此均值为 e λ t e^{\lambda t} eλt ，代表从一个个体开始，经过时间为 t t t 后，群体中个体数平均会达到 e λ t e^{\lambda t} eλt ；又因为：
p i , j ( t ) = P ( X ( s + t ) = j ∣ X ( s ) = i ) p_{i,\,j}(t)=P(X(s+t)=j\,|\,X(s)=i) pi,j(t)=P(X(s+t)=j∣X(s)=i)
这个概率代表从 i i i 个个体开始，经过时间为 t t t 后，群体中个体数达到 j j j 的概率。可以理解成，有 i i i 个群体，每个群体从一个个体开始，经过时间为 t t t 后，各群体的个体数之和达到 j j j 的概率。那就是：（用隔板法想一下为什么是 ( j − 1 i − 1 ) \binom{j-1}{i-1} (i−1j−1) ）
p i , j = ( j − 1 i − 1 ) e − λ t i ( 1 − e − λ t ) j − i , j ≥ i ≥ 0 p_{i,\,j}=\binom{j-1}{i-1}e^{-\lambda ti}(1-e^{-\lambda t})^{j-i},\quad j\geq i \geq 0 pi,j=(i−1j−1)e−λti(1−e−λt)j−i,j≥i≥0

接下来我们使用 Kolmogorove 微分方程来计算转移概率。

我们考虑的是单一祖先的情况，因此 X ( 0 ) = 1 X(0)=1 X(0)=1 （这个是微分方程的初值条件）。有：
P ( X ( t + h ) − X ( t ) = 1 ∣ X ( t ) = i ) = i λ h + o ( h ) P ( X ( t + h ) − X ( t ) = 0 ∣ X ( t ) = i ) = 1 − i λ h + o ( h ) P ( X ( t + h ) − X ( t ) ≥ 2 ∣ X ( t ) = i ) = o ( h ) P ( X ( t + h ) − X ( t ) < 0 ∣ X ( t ) = i ) = 0 \begin{align} P(X(t+h)-X(t)=1\,|\,X(t)=i) =&\, i\lambda h+o(h) \\ P(X(t+h)-X(t)=0\,|\,X(t)=i) =&\, 1-i\lambda h+o(h) \\ P(X(t+h)-X(t)\geq 2\,|\,X(t)=i)=&\, o(h) \\ P(X(t+h)-X(t)\lt 0\,|\,X(t)=i)=&\, 0 \\ \end{align} P(X(t+h)−X(t)=1∣X(t)=i)=P(X(t+h)−X(t)=0∣X(t)=i)=P(X(t+h)−X(t)≥2∣X(t)=i)=P(X(t+h)−X(t)<0∣X(t)=i)=iλh+o(h)1−iλh+o(h)o(h)0
（已经有 k k k 个个体的时候，Poisson 过程的强度为 k λ k\lambda kλ ）

像前面一样，两边除以 h h h ，求极限，可以得到 q i i = q i , i + 1 = i λ q_{ii}=q_{i,\,i+1}=i\lambda qii=qi,i+1=iλ ，其他情况下 q i j = 0 q_{ij}=0 qij=0 （ j < i j\lt i j<i 或 j ≥ i + 2 j\ge i+2 j≥i+2）；代入向前方程得到：
p i i ′ ( t ) = − i λ p i i ( t ) p i j ′ ( t ) = ( j − 1 ) λ p i , j − 1 ( t ) − j λ p i j ( t ) , j > i \begin{align} p'_{ii}(t)=&\, -i\lambda p_{ii}(t) \\ p'_{ij}(t)=&\, (j-1)\lambda p_{i,\,j-1}(t)-j\lambda p_{ij}(t),\quad j\gt i \end{align} pii′(t)=pij′(t)=−iλpii(t)(j−1)λpi,j−1(t)−jλpij(t),j>i
解得：
p i , j = ( j − 1 i − 1 ) e − λ t i ( 1 − e − λ t ) j − i , j ≥ i ≥ 0 p_{i,\,j}=\binom{j-1}{i-1}e^{-\lambda ti}(1-e^{-\lambda t})^{j-i},\quad j\geq i \geq 0 pi,j=(i−1j−1)e−λti(1−e−λt)j−i,j≥i≥0
和前面得到的转移概率一致。

生灭过程

同 Yule 过程一样的繁殖速度，但是每个个体将以指数速率 μ \mu μ 死亡，则称为生灭过程。生灭过程的状态为 { 0 , 1 , 2 , ⋯ } \{0,\,1,\,2,\,\cdots\} {0,1,2,⋯} 。在状态 i i i ，可以转移到 i − 1 i-1 i−1 ，也可以转移到 i + 1 i+1 i+1 。以 T i T_i Ti 记过程从 i i i 到 i − 1 i-1 i−1 或 i + 1 i+1 i+1 的时间。可以得到 T i T_i Ti 服从参数为 i μ + i λ i\mu+i\lambda iμ+iλ 的指数分布（和上面 Yule 过程一样的原理）。并且下一次转移到 i + 1 i+1 i+1 的概率是 p i , i + 1 = λ λ + μ p_{i,\,i+1}=\frac{\lambda}{\lambda + \mu} pi,i+1=λ+μλ ，转移到 i − 1 i-1 i−1 的概率是 p i , i − 1 = μ λ + μ p_{i,\,i-1}=\frac{\mu}{\lambda + \mu} pi,i−1=λ+μμ 。

我觉得这个转移概率是这样得到的：我们只考虑一个个体，它先死亡还是先繁殖一个后代的概率：
P ( 先死亡 ) = ∫ 0 ∞ P ( 死亡时间小于 x ∣ 繁殖时间为 x ) P ( 繁殖时间为 x ) d x = ∫ 0 ∞ ( 1 − e − μ x ) λ e − λ x d x = μ λ + μ P ( 先繁殖 ) = 1 − P ( 先死亡 ) = λ λ + μ \begin{align} P(\text{先死亡})=&\,\int_{0}^{\infty}P(\text{死亡时间小于}x\,|\,\text{繁殖时间为}x)P(\text{繁殖时间为}x)\,dx \\ =&\, \int_0^{\infty}(1-e^{-\mu x})\lambda e^{-\lambda x} \,dx =\frac{\mu}{\lambda +\mu} \\ P(\text{先繁殖})=&\, 1-P(\text{先死亡})= \frac{\lambda}{\lambda +\mu} \end{align} P(先死亡)==P(先繁殖)=∫0∞P(死亡时间小于x∣繁殖时间为x)P(繁殖时间为x)dx∫0∞(1−e−μx)λe−λxdx=λ+μμ1−P(先死亡)=λ+μλ
但是为什么一个个体的概率和 i i i 个个体转移的概率是一样的呢？

接下来我们使用 Kolmogorove 微分方程来计算转移概率。
P ( X ( t + h ) − X ( t ) = 1 ∣ X ( t ) = i ) = i λ h + o ( h ) P ( X ( t + h ) − X ( t ) = − 1 ∣ X ( t ) = i ) = i μ h + o ( h ) P ( X ( t + h ) − X ( t ) = 0 ∣ X ( t ) = i ) = 1 − ( i λ + i μ ) h + o ( h ) p i i ( 0 ) = 1 , p i j ( 0 ) = 0 ( j ≠ i ) \begin{align} P(X(t+h)-X(t)=1\,|\,X(t)=i) =&\, i\lambda h+o(h) \\ P(X(t+h)-X(t)=-1\,|\,X(t)=i) =&\, i\mu h+o(h) \\ P(X(t+h)-X(t)=0\,|\,X(t)=i) =&\, 1-(i\lambda+i\mu) h+o(h) \\ p_{ii}(0)=1,\,p_{ij}(0)=&\,0 \quad (j\not= i) \end{align} P(X(t+h)−X(t)=1∣X(t)=i)=P(X(t+h)−X(t)=−1∣X(t)=i)=P(X(t+h)−X(t)=0∣X(t)=i)=pii(0)=1,pij(0)=iλh+o(h)iμh+o(h)1−(iλ+iμ)h+o(h)0(j=i)
最后一条是微分方程的初值条件。从而按照前面 Poisson 过程和 Yule 过程的方法，可以得到 Kolmogorov 向后方程为：
{ p i j ′ ( t ) = i μ p i − 1 , j ( t ) − ( i λ + i μ ) p i j ( t ) + i λ p i + 1 , j ( t ) i ≥ 1 p 0 , j ′ ( t ) = − λ p 0 , j ( t ) + λ p 1 , j ( t ) \left\{ \begin{array}{ll} p_{ij}'(t)=i\mu p_{i-1,\,j}(t)-(i\lambda+i\mu)p_{ij}(t)+i\lambda p_{i+1,\,j}(t) & i \geq 1 \\ p_{0,\,j}'(t)=-\lambda p_{0,\,j}(t)+\lambda p_{1,\,j}(t) \end{array} \right. {pij′(t)=iμpi−1,j(t)−(iλ+iμ)pij(t)+iλpi+1,j(t)p0,j′(t)=−λp0,j(t)+λp1,j(t)i≥1
（这个 p 0 , j ′ ( t ) p_{0,\,j}'(t) p0,j′(t) 我觉得怪怪的。。。）

Kolmogorov 向前方程为：fd
{ p i j ′ ( t ) = ( j + 1 ) μ p i , j + 1 ( t ) − ( j λ + j μ ) p i j ( t ) + ( j − 1 ) λ p i , j − 1 ( t ) j ≥ 1 p i , 0 ′ ( t ) = − λ p i , 0 ( t ) + μ p i , 1 ( t ) \left\{ \begin{array}{ll} p_{ij}'(t)=(j+1)\mu p_{i,\,j+1}(t)-(j\lambda+j\mu)p_{ij}(t)+(j-1)\lambda p_{i,\,j-1}(t) & j \geq 1 \\ p_{i,\,0}'(t)=-\lambda p_{i,\,0}(t)+\mu p_{i,\,1}(t) \end{array} \right. {pij′(t)=(j+1)μpi,j+1(t)−(jλ+jμ)pij(t)+(j−1)λpi,j−1(t)pi,0′(t)=−λpi,0(t)+μpi,1(t)j≥1