Markovian Stick-breaking Process的构造

假设X⊂N\mathcal{X} \subset \mathbb{N}X⊂N是一个离散事件空间，μ\muμ是X\mathcal{X}X上的一个测度，另外引入参数θ>0\theta>0θ>0；(X,2X,μ)(\mathcal{X},2^{\mathcal{X}},\mu)(X,2X,μ)上参数为(μ,θ)(\mu,\theta)(μ,θ)的Dirichlet Process是可测空间(X,2X)\mathcal{X},2^{\mathcal{X}})X,2X)上所有概率测度组成的集合MXM_{\mathcal{X}}MX上的概率测度，如果PPP是Dirichlet Process对应于X\mathcal{X}X的分割{Ai}i=1n\{A_i\}_{i=1}^n{Ai}i=1n的一个样本，那么
(P(A1),⋯,P(An))∼Dirichlet(θμ(A1),⋯,θμ(An))(P(A_1),\cdots,P(A_n)) \sim Dirichlet(\theta \mu(A_1),\cdots,\theta \mu(A_n))(P(A1),⋯,P(An))∼Dirichlet(θμ(A1),⋯,θμ(An))关于Dirichlet分布的介绍可以看UA MATH564 概率论 Dirichlet分布。

Dirichlet Process可以用“折棍子”过程(Stick-breaking Process)来表示(A constructive definition of Dirichlet priors, J Sethuraman 1994)。折棍子过程的直观介绍可以参考从折棍子（Stick Breaking）模型到狄利克雷过程（DP）。对于Dirichlet Process的样本PPP，
P=∑j=1∞PjδTjP = \sum_{j=1}^{\infty}P_j\delta_{T_j}P=j=1∑∞PjδTj

其中P={Pj}j≥1\textbf{P}=\{P_j\}_{j \ge 1}P={Pj}j≥1服从GEM(θ)GEM(\theta)GEM(θ)分布，下文再详细介绍这个分布；T={Tj}j≥1\textbf{T}=\{T_j\}_{j \ge 1}T={Tj}j≥1是iid的序列，样本空间为X\mathcal{X}X且分布为μ\muμ；∑j=1∞PjδTj\sum_{j=1}^{\infty}P_j\delta_{T_j}∑j=1∞PjδTj这种构造被称为折棍子过程。如果{Tj}j≥1\{T_j\}_{j \ge 1}{Tj}j≥1由Markov Chain定义，那么这个过程就叫Markovian Stick-breaking Process（Dietz, Z., Lippitt, W., Sethuraman, S.: Stick-breaking processes, clumping, and Markov chain occupation laws. Under review, https://www.math.arizona.edu/ sethuram/papers/DLS.pdf），具体的构造如下：

定义一个Markov transition kernel （可以参考UA MATH565C 随机微分方程V Markov Family简介）
Q=I+G/θQ = I+G/\thetaQ=I+G/θ

其中GGG是generator matrix，G={Gij:i,j∈X}G=\{G_{ij}:i,j \in \mathcal{X}\}G={Gij:i,j∈X}满足
Gij>0Gii=−∑j≠iGijG_{ij}>0 \\ G_{ii} = -\sum_{j \ne i}G_{ij}Gij>0Gii=−j=i∑Gij

T\textbf TT服从transition kernel为QQQ的平稳Markov Chain。

GEM分布

GEM的全名是Griffiths-Engel-McCloskey，它是一个residual allocation sequence，作用是把一个资源分配给无限个单位：我们先把这一个资源的X1X_1X1分给第一个单位，假设X1∼Beta(1,θ)X_1 \sim Beta(1,\theta)X1∼Beta(1,θ)，则第一个单位分得
P1=X1P_1=X_1P1=X1

则剩下的资源为1−P11-P_11−P1；然后我们把剩下的资源的X2X_2X2分给第二个单位，X2∼Beta(1,θ)X_2 \sim Beta(1,\theta)X2∼Beta(1,θ)且与X1X_1X1独立，则第二个单位分得
P2=X2(1−P1)=X2(1−X1)P_2=X_2(1-P_1)=X_2(1-X_1)P2=X2(1−P1)=X2(1−X1)且剩下的资源为1−P1−P2=1−X1−X2(1−X1)=(1−X2)(1−X1)1-P_1-P_2=1-X_1-X_2(1-X_1)=(1-X_2)(1-X_1)1−P1−P2=1−X1−X2(1−X1)=(1−X2)(1−X1)；以此类推，第jjj个单位分得的资源为
Pj=Xj∏i=1j−1(1−Xi)P_j = X_j \prod_{i=1}^{j-1}(1-X_i)Pj=Xji=1∏j−1(1−Xi)

且剩余资源为∏i=1j(1−Xi)\prod_{i=1}^j(1-X_i)∏i=1j(1−Xi)。记P={Pj}j≥1\textbf P=\{P_j\}_{j \ge 1}P={Pj}j≥1，这个序列表示我们分配在每个单位上的资源，称P\textbf PP服从的分布为GEM(θ)GEM(\theta)GEM(θ)。

Generator

称实值矩阵G=(Gxy)x,y∈XG=(G_{xy})_{x,y \in \mathcal{X}}G=(Gxy)x,y∈X为generator kernel (or say generator matrix) over X\mathcal{X}X，如果

∀x,y∈X\forall x,y \in \mathcal{X}∀x,y∈X, x≠yx \ne yx=y, Gxy≥0G_{xy} \ge 0Gxy≥0
∀x∈X\forall x \in \mathcal{X}∀x∈X, Gxx=−∑y∈X∖{x}GxyG_{xx}=-\sum_{y \in \mathcal{X}\setminus \{x\}}G_{xy}Gxx=−∑y∈X∖{x}Gxy
θG=sup⁡x∈X∣Gxx∣<∞\theta^G=\sup_{x \in \mathcal{X}}|G_{xx}|<\inftyθG=supx∈X∣Gxx∣<∞

如果μ\muμ是X\mathcal{X}X上的一个概率测度，并且μTG=0\mu^TG=0μTG=0，则称μ\muμ是GGG的平稳概率分布。

用一个比较具体的例子来说明这个定义。考虑掷色子的事件空间X={1,2,3,4,5,6}\mathcal{X}=\{1,2,3,4,5,6\}X={1,2,3,4,5,6}，取Gxy=∣x−y∣G_{xy}=|x-y|Gxy=∣x−y∣，则
G=[−15123451−15234512−15345123−15451234−15512345−15]G=\left[ \begin{matrix} -15& 1 & 2 & 3 & 4 & 5 \\ 1 & -15 & 2 & 3 & 4 & 5 \\ 1 & 2 & -15 & 3 & 4 & 5 \\ 1 & 2 & 3 & -15 & 4 & 5 \\ 1& 2 & 3 & 4 & -15 & 5 \\ 1 & 2 & 3& 4 & 5 & -15 \end{matrix} \right]G=⎣⎢⎢⎢⎢⎢⎢⎡−15111111−15222222−15333333−15444444−15555555−15⎦⎥⎥⎥⎥⎥⎥⎤

这个矩阵就是一个generator；如果这个色子是公平的，那么它的概率分布就是
μ=[1/61/61/61/61/61/6]\mu=\left[ \begin{matrix}1/6 & 1/6 & 1/6 & 1/6 & 1/6 & 1/6 \end{matrix} \right]μ=[1/61/61/61/61/61/6]

不难验证，μTG=0\mu^TG=0μTG=0，也就是说μ\muμ关于generator GGG是平稳分布。需要注意的是generator matrix可能不止一个。