1.数据定义

我们知道主成分分析PCA主要是将原始样本数据X从p维度降到q维，是对原始特征空间的重构。我们假设Z是重构空间，X是原始空间；
X∈Rp,Z∈Rq,q<p;z=latent−variable(隐变量)；x=observed−data(观测数据)；(1)X\in \mathbb{R}^p,Z \in \mathbb{R}^q,q<p;z=latent-variable(隐变量)；x=observed-data(观测数据)；\tag{1}X∈Rp,Z∈Rq,q<p;z=latent−variable(隐变量)；x=observed−data(观测数据)；(1)
我们给z一个先验Z∼N(0q，Iq);假设X与Z满足线性关系X=WZ+μ+ϵ;Z \sim N(0_q，I_q);假设X与Z满足线性关系X=WZ+\mu+\epsilon;Z∼N(0q，Iq);假设X与Z满足线性关系X=WZ+μ+ϵ;
噪声ϵ∼N(0,σ2Ip)；噪声ϵ独立于Z;噪声\epsilon\sim N(0,\sigma^2I_p)；噪声\epsilon 独立于Z;噪声ϵ∼N(0,σ2Ip)；噪声ϵ独立于Z;
线性高斯模型：
1.隐变量z和观测量x是线性关系；
2.噪声服从高斯分布，σ2Ip是对角线值均为σ2的对角矩阵；这个矩阵为各向同性矩阵\sigma^2I_p是对角线值均为\sigma^2的对角矩阵；这个矩阵为各向同性矩阵σ2Ip是对角线值均为σ2的对角矩阵；这个矩阵为各向同性矩阵
P-PCA:
infernece:p(z|x)
learning:w,μ,σ2w,\mu,\sigma^2w,μ,σ2—>EM算法

1.1 GMM与P-PCA区别

对于GMM来说，隐变量Z是离散的；对于P-PCA来说，隐变量Z是连续的

2.模型图

在高斯分布图中取一点Z，得到P(Z),再在线性变换中得到X=WZ
在线性直线上得到WZ+μ+ε;此时的数值是以wz+μ为中心，以σ2为半径的圆，不断的采集Z，就可以得到不同的各向同性圆\sigma^2为半径的圆，不断的采集Z，就可以得到不同的各向同性圆σ2为半径的圆，不断的采集Z，就可以得到不同的各向同性圆
P(X)就是以w为轴方向的各向分布圆，如图所示；

3.模型推断

3.1 求P(X|Z)分布

∵z∼N(0,I)；X=WZ+μ+ϵ；ϵ∼N(0,σ2I),ϵ⊥z;\because z \sim N(0,I)；X=WZ+\mu+\epsilon；\epsilon \sim N(0,\sigma^2I),\epsilon \perp z;∵z∼N(0,I)；X=WZ+μ+ϵ；ϵ∼N(0,σ2I),ϵ⊥z;

∴E(X∣Z)=E(WZ+μ+ϵ)=WZ+μ+E(ϵ)=WZ+μ;(注：此时Z是已知常量)\therefore E(X|Z)=E(WZ+\mu+\epsilon)=WZ+\mu+E(\epsilon)=WZ+\mu;(注：此时Z是已知常量)∴E(X∣Z)=E(WZ+μ+ϵ)=WZ+μ+E(ϵ)=WZ+μ;(注：此时Z是已知常量)

∴D(X∣Z)=D(WZ+μ+ϵ)=WZ+μ+E(ϵ)=0+σ2I;\therefore D(X|Z)=D(WZ+\mu+\epsilon)=WZ+\mu+E(\epsilon)=0+\sigma^2I;∴D(X∣Z)=D(WZ+μ+ϵ)=WZ+μ+E(ϵ)=0+σ2I;

P(X∣Z)∼N(WZ+μ,σ2I)(2)P(X|Z)\sim N(WZ+\mu,\sigma^2I)\tag{2}P(X∣Z)∼N(WZ+μ,σ2I)(2)

3.2 求P(X)分布

∴E(X)=E(WZ+μ+ϵ)=WE(Z)+μ+E(ϵ)=0+μ+0=μ(注：此时Z是自变量)\therefore E(X)=E(WZ+\mu+\epsilon)=WE(Z)+\mu+E(\epsilon)=0+\mu+0=\mu(注：此时Z是自变量)∴E(X)=E(WZ+μ+ϵ)=WE(Z)+μ+E(ϵ)=0+μ+0=μ(注：此时Z是自变量)

∴D(X)=D(WZ+μ+ϵ)=WD(Z)WT+0+D(ϵ)=WIWT+σ2I(注：此时Z是自变量)\therefore D(X)=D(WZ+\mu+\epsilon)=WD(Z)W^T+0+D(\epsilon)=WIW^T+\sigma^2I(注：此时Z是自变量)∴D(X)=D(WZ+μ+ϵ)=WD(Z)WT+0+D(ϵ)=WIWT+σ2I(注：此时Z是自变量)
P(X)∼N(μ,WIWT+σ2I)(3)P(X)\sim N(\mu,WIW^T+\sigma^2I) \tag{3}P(X)∼N(μ,WIWT+σ2I)(3)

3.3引用高斯分布中，已知联合概率求条件概率公式

链接如下：14-高斯分布基础知识
已知：X=(xaxb);m+n=p;μ=(μaμb);Σ=(ΣaaΣabΣbaΣbb);Σab=ΣbaT(4)已知：X= \begin{pmatrix} x_a\\\\x_b \end{pmatrix};m+n=p;\mu= \begin{pmatrix} \mu_a\\\\\mu_b \end{pmatrix};\Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb} \end{pmatrix};\Sigma_{ab}=\Sigma_{ba}^T \tag {4}已知：X=⎝⎛xaxb⎠⎞;m+n=p;μ=⎝⎛μaμb⎠⎞;Σ=(ΣaaΣbaΣabΣbb);Σab=ΣbaT(4)
求边缘概率p(xa),条件概率p(xb∣xa)求边缘概率p(x_a),条件概率p(x_b|x_a)求边缘概率p(xa),条件概率p(xb∣xa)
构造相关变量：
xb⋅a=xb−ΣbaΣaa−1xa(5)x_{b \cdot a}=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{5}xb⋅a=xb−ΣbaΣaa−1xa(5)
μb⋅a=μb−ΣbaΣaa−1μa(6)\mu_{b \cdot a}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a \tag{6}μb⋅a=μb−ΣbaΣaa−1μa(6)
Σbb⋅a=Σbb−ΣbaΣaa−1Σab(7)\Sigma_{bb \cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{7}Σbb⋅a=Σbb−ΣbaΣaa−1Σab(7)
xb⋅a∼N(μb⋅a,Σbb⋅a)(8)x_{b \cdot a}\sim N(\mu_{b \cdot a},\Sigma_{bb \cdot a})\tag{8}xb⋅a∼N(μb⋅a,Σbb⋅a)(8)
E[xb∣xa]=μb+ΣbaΣaa−1(xa−μa)(9)\mathbb{E}[x_{b}|x_a]=\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)\tag{9}E[xb∣xa]=μb+ΣbaΣaa−1(xa−μa)(9)
D[xb∣xa]=Σbb−ΣbaΣaa−1Σab(10)\mathbb{D}[x_{b}|x_a]=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{10}D[xb∣xa]=Σbb−ΣbaΣaa−1Σab(10)
结论：p(xb∣xa)∼N[μb+ΣbaΣaa−1(xa−μa),Σbb−ΣbaΣaa−1Σab](11)结论：p(x_b|x_a)\sim N[\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a),\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}] \tag{11}结论：p(xb∣xa)∼N[μb+ΣbaΣaa−1(xa−μa),Σbb−ΣbaΣaa−1Σab](11)

3.4构造相关函数

3.4.1 令M为X,Z组合函数

M=(xz);P(x)∼N(μ,WIWT+σ2I);P(z)∼N(0,I)(12)M= \begin{pmatrix} x\\\\z \end{pmatrix};P(x)\sim N(\mu,WIW^T+\sigma^2I);P(z) \sim N(0,I) \tag{12}M=⎝⎛xz⎠⎞;P(x)∼N(μ,WIWT+σ2I);P(z)∼N(0,I)(12)
M=(xz)∼N((μxμz),(ΣxxΣxzΣzxΣzz))(13)M= \begin{pmatrix} x\\\\z \end{pmatrix}\sim N( \begin{pmatrix} \mu_x\\\\\ \mu_z \end{pmatrix}, \begin{pmatrix} \Sigma_{xx}&\Sigma_{xz}\\\Sigma_{zx}&\Sigma_{zz} \end{pmatrix}) \tag{13}M=⎝⎛xz⎠⎞∼N(⎝⎛μx μz⎠⎞,(ΣxxΣzxΣxzΣzz))(13)
Σxx=D(x)=WIWT+σ2I;Σzz=D(Z)=I;Σxz=Cov(xz)(14)\Sigma_{xx}=D(x)=WIW^T+\sigma^2I;\Sigma_{zz}=D(Z)=I;\Sigma_{xz}=Cov(xz)\tag{14}Σxx=D(x)=WIWT+σ2I;Σzz=D(Z)=I;Σxz=Cov(xz)(14)\

3.4.2求COV(X,Z)

Cov(xz)=E[(x−μx)(z−μz)T]Cov(xz)=E[(x-\mu_x)(z-\mu_z)^T]Cov(xz)=E[(x−μx)(z−μz)T]

=E[(x−μ)(z)T]=E[(x-\mu)(z)^T]=E[(x−μ)(z)T]

=E[(wz+μ+ϵ−μ)(z)T]=E[(wz+\mu+\epsilon-\mu)(z)^T]=E[(wz+μ+ϵ−μ)(z)T]

=E[(wz+ϵ)zT]=E[(wz+\epsilon)z^T]=E[(wz+ϵ)zT]

=E[(wz)zT+ϵzT]=E[(wz)z^T+\epsilon z^T]=E[(wz)zT+ϵzT]

=wE[z2]+E[ϵ]E[zT]=wE[z^2]+E[\epsilon]E[ z^T]=wE[z2]+E[ϵ]E[zT]

注：E(z2)=D(z)+[E(Z)]2=I;E(ϵ)=0注：E(z^2)=D(z)+[E(Z)]^2=I;E(\epsilon)=0注：E(z2)=D(z)+[E(Z)]2=I;E(ϵ)=0

=wE[z2]+E[ϵ]E[zT]=wE[z^2]+E[\epsilon]E[ z^T]=wE[z2]+E[ϵ]E[zT]

=wI=w=wI=w=wI=w
Cov(X,Z)=W(15)Cov(X,Z)=W\tag{15}Cov(X,Z)=W(15)
结论：M=(xz)∼N((μ0),(WIWT+σ2IWWTI))(16)结论：M= \begin{pmatrix} x\\\\z \end{pmatrix}\sim N( \begin{pmatrix} \mu\\\\\ \ 0 \end{pmatrix}, \begin{pmatrix} WIW^T+\sigma^2I&W\\W^T&I \end{pmatrix}) \tag{16}结论：M=⎝⎛xz⎠⎞∼N(⎝⎛μ 0⎠⎞,(WIWT+σ2IWTWI))(16)
由3.4.1结论可得：
结论：p(z∣x)∼N[μz+ΣzxΣxx−1(x−μx),Σzz−ΣzxΣxx−1Σxz](17)结论：p(z|x)\sim N[\mu_{z}+\Sigma_{zx}\Sigma_{xx}^{-1}(x-\mu_x),\Sigma_{zz}-\Sigma_{zx}\Sigma_{xx}^{-1}\Sigma_{xz}] \tag{17}结论：p(z∣x)∼N[μz+ΣzxΣxx−1(x−μx),Σzz−ΣzxΣxx−1Σxz](17)
E(Z∣X)=WT(WIWT+σ2I)−1(X−μ)(18)\mathbb{E}(Z|X)=W^T(WIW^T+\sigma^2I)^{-1}(X-\mu) \tag{18}E(Z∣X)=WT(WIWT+σ2I)−1(X−μ)(18)
D(Z∣X)=I−WT(WIWT+σ2I)−1W(19)\mathbb{D}(Z|X)=I-W^T(WIW^T+\sigma^2I)^{-1}W \tag{19}D(Z∣X)=I−WT(WIWT+σ2I)−1W(19)

3.5结论

结果：p(z∣x)∼N[WT(WIWT+σ2I)−1(X−μ),I−WT(WIWT+σ2I)−1W](20)结果：p(z|x)\sim N[W^T(WIW^T+\sigma^2I)^{-1}(X-\mu),I-W^T(WIW^T+\sigma^2I)^{-1}W] \tag{20}结果：p(z∣x)∼N[WT(WIWT+σ2I)−1(X−μ),I−WT(WIWT+σ2I)−1W](20)

15-P-PCA从概率角度思考PCA主成分分析相关推荐

主成分分析(PCA)，概率主成分分析(PPCA)和因子分析(FA)的区别？
介绍在PCA中,有一份样本为n,维度为d的数据X∈Rn×d\displaystyle X\in \mathbb{R}^{n\times d}X∈Rn×d,我们希望降维,于是: X≈ZWTX\appr ...
PRML读书会第十二章 Continuous Latent Variables（PCA，PPCA，核PCA，Autoencoder，非线性流形)
主讲人戴玮 (新浪微博:@戴玮_CASIA) Wilbur_中博(1954123) 20:00:49 我今天讲PRML的第十二章,连续隐变量.既然有连续隐变量,一定也有离散隐变量,那么离散隐变量是什 ...
PCA降维算法（内含PCA可视化迷你案例+PCA人脸识别降维案例+PCA逆转降噪案例）
文章目录 1.sklearn中的降维算法 (1)PCA (2)SVD (3)思考 2.重要参数n_components 3.PCA中的SVD 4.重要接口inverse_transform 5.重要接 ...
千万不要小看PCA，大神对PCA的理解
学习PCA的时候感觉这是个什么玩意,挺简单呀,为自己的无知感到羞愧.本片学习的不仅仅是PCA的深入理解,更是学习大神们思考问题的方式. 作者:史博链接:https://www.zhihu.com/q ...
互补性：从不同的角度思考同一个事物时，发现它同时具有不同甚至相互矛盾的性质...
来源:混沌巡洋舰检验一流智力的标准是头脑中能同时持有两种截然相反的观点,却能并行不悖. --弗朗西斯·斯科特·菲茨杰拉德显然,这种互补性推翻了学术的本体论.真理是什么?我们之所以要提出彼拉多的问题 ...
扪心自问！15个IT技术人员必须思考的问题
扪心自问!15个IT技术人员必须思考的问题转载自:泰课在线原文地址行内的人自嘲是程序猿.屌丝和码农,行外的人也经常拿IT人调侃,那么究竟是IT人没有价值,还是没有仔细思考过自身的价值? 1.搞I ...
从产品经理的角度思考内容平台（一）——开启时不宜过于专业
写在最前面随着币乎平台引入Streamr模式,开启了国内区块链内容平台的先河,随后支点.QunQun.ONO.Primas.IveryOne.知币.币车.方球.币嗨.向北.优享.区分等像雨后春笋一样 ...
python pca_第27集 python机器学习：PCA的属性及其使用PCA提取特征脸
PCA对象的主要成分都保存在components_.shape属性中,其属性中的每一行对应一个主成分,他们按重要性来排序(第一主成分排在首位,以此类推).列对应PCA的原始特征属性,如下: print ...
主成分分析（PCA）原理和鲁棒主成分分析（RPCA）详解
主成分分析(PCA)原理和鲁棒主成分分析(RPCA)详解 1.相关背景在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律.多变量大数据集无疑会为研究和应用 ...
PCA、碎石图、PCA+正确的维度个数、增量PCA（IncrementalPCA）、随机PCA（Randomized PCA）、KernelPCA
PCA.碎石图.PCA+正确的维度个数.增量PCA(IncrementalPCA).随机PCA(Randomized PCA).KernelPCA 目录 PCA

15-P-PCA从概率角度思考PCA主成分分析

文章目录