15-P-PCA从概率角度思考PCA主成分分析
文章目录
- 1.数据定义
- 1.1 GMM与P-PCA区别
- 2.模型图
- 3.模型推断
- 3.1 求P(X|Z)分布
- 3.2 求P(X)分布
- 3.3引用高斯分布中,已知联合概率求条件概率公式
- 3.4构造相关函数
- 3.4.1 令M为X,Z组合函数
- 3.4.2求COV(X,Z)
- 3.5结论
1.数据定义
我们知道主成分分析PCA主要是将原始样本数据X从p维度降到q维,是对原始特征空间的重构。我们假设Z是重构空间,X是原始空间;
X∈Rp,Z∈Rq,q<p;z=latent−variable(隐变量);x=observed−data(观测数据);(1)X\in \mathbb{R}^p,Z \in \mathbb{R}^q,q<p;z=latent-variable(隐变量);x=observed-data(观测数据);\tag{1}X∈Rp,Z∈Rq,q<p;z=latent−variable(隐变量);x=observed−data(观测数据);(1)
我们给z一个先验Z∼N(0q,Iq);假设X与Z满足线性关系X=WZ+μ+ϵ;Z \sim N(0_q,I_q);假设X与Z满足线性关系X=WZ+\mu+\epsilon;Z∼N(0q,Iq);假设X与Z满足线性关系X=WZ+μ+ϵ;
噪声ϵ∼N(0,σ2Ip);噪声ϵ独立于Z;噪声\epsilon\sim N(0,\sigma^2I_p);噪声\epsilon 独立于Z;噪声ϵ∼N(0,σ2Ip);噪声ϵ独立于Z;
线性高斯模型:
1.隐变量z和观测量x是线性关系;
2.噪声服从高斯分布,σ2Ip是对角线值均为σ2的对角矩阵;这个矩阵为各向同性矩阵\sigma^2I_p是对角线值均为\sigma^2的对角矩阵;这个矩阵为各向同性矩阵σ2Ip是对角线值均为σ2的对角矩阵;这个矩阵为各向同性矩阵
P-PCA:
infernece:p(z|x)
learning:w,μ,σ2w,\mu,\sigma^2w,μ,σ2—>EM算法
1.1 GMM与P-PCA区别
对于GMM来说,隐变量Z是离散的;对于P-PCA来说,隐变量Z是连续的
2.模型图
- 在高斯分布图中取一点Z,得到P(Z),再在线性变换中得到X=WZ
- 在线性直线上得到WZ+μ+ε;此时的数值是以wz+μ为中心,以σ2为半径的圆,不断的采集Z,就可以得到不同的各向同性圆\sigma^2为半径的圆,不断的采集Z,就可以得到不同的各向同性圆σ2为半径的圆,不断的采集Z,就可以得到不同的各向同性圆
- P(X)就是以w为轴方向的各向分布圆,如图所示;
3.模型推断
3.1 求P(X|Z)分布
∵z∼N(0,I);X=WZ+μ+ϵ;ϵ∼N(0,σ2I),ϵ⊥z;\because z \sim N(0,I);X=WZ+\mu+\epsilon;\epsilon \sim N(0,\sigma^2I),\epsilon \perp z;∵z∼N(0,I);X=WZ+μ+ϵ;ϵ∼N(0,σ2I),ϵ⊥z;
∴E(X∣Z)=E(WZ+μ+ϵ)=WZ+μ+E(ϵ)=WZ+μ;(注:此时Z是已知常量)\therefore E(X|Z)=E(WZ+\mu+\epsilon)=WZ+\mu+E(\epsilon)=WZ+\mu;(注:此时Z是已知常量)∴E(X∣Z)=E(WZ+μ+ϵ)=WZ+μ+E(ϵ)=WZ+μ;(注:此时Z是已知常量)
∴D(X∣Z)=D(WZ+μ+ϵ)=WZ+μ+E(ϵ)=0+σ2I;\therefore D(X|Z)=D(WZ+\mu+\epsilon)=WZ+\mu+E(\epsilon)=0+\sigma^2I;∴D(X∣Z)=D(WZ+μ+ϵ)=WZ+μ+E(ϵ)=0+σ2I;
P(X∣Z)∼N(WZ+μ,σ2I)(2)P(X|Z)\sim N(WZ+\mu,\sigma^2I)\tag{2}P(X∣Z)∼N(WZ+μ,σ2I)(2)
3.2 求P(X)分布
∴E(X)=E(WZ+μ+ϵ)=WE(Z)+μ+E(ϵ)=0+μ+0=μ(注:此时Z是自变量)\therefore E(X)=E(WZ+\mu+\epsilon)=WE(Z)+\mu+E(\epsilon)=0+\mu+0=\mu(注:此时Z是自变量)∴E(X)=E(WZ+μ+ϵ)=WE(Z)+μ+E(ϵ)=0+μ+0=μ(注:此时Z是自变量)
∴D(X)=D(WZ+μ+ϵ)=WD(Z)WT+0+D(ϵ)=WIWT+σ2I(注:此时Z是自变量)\therefore D(X)=D(WZ+\mu+\epsilon)=WD(Z)W^T+0+D(\epsilon)=WIW^T+\sigma^2I(注:此时Z是自变量)∴D(X)=D(WZ+μ+ϵ)=WD(Z)WT+0+D(ϵ)=WIWT+σ2I(注:此时Z是自变量)
P(X)∼N(μ,WIWT+σ2I)(3)P(X)\sim N(\mu,WIW^T+\sigma^2I) \tag{3}P(X)∼N(μ,WIWT+σ2I)(3)
3.3引用高斯分布中,已知联合概率求条件概率公式
链接如下:14-高斯分布基础知识
已知:X=(xaxb);m+n=p;μ=(μaμb);Σ=(ΣaaΣabΣbaΣbb);Σab=ΣbaT(4)已知:X= \begin{pmatrix} x_a\\\\x_b \end{pmatrix};m+n=p;\mu= \begin{pmatrix} \mu_a\\\\\mu_b \end{pmatrix};\Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb} \end{pmatrix};\Sigma_{ab}=\Sigma_{ba}^T \tag {4}已知:X=⎝⎛xaxb⎠⎞;m+n=p;μ=⎝⎛μaμb⎠⎞;Σ=(ΣaaΣbaΣabΣbb);Σab=ΣbaT(4)
求边缘概率p(xa),条件概率p(xb∣xa)求边缘概率p(x_a),条件概率p(x_b|x_a)求边缘概率p(xa),条件概率p(xb∣xa)
构造相关变量:
xb⋅a=xb−ΣbaΣaa−1xa(5)x_{b \cdot a}=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{5}xb⋅a=xb−ΣbaΣaa−1xa(5)
μb⋅a=μb−ΣbaΣaa−1μa(6)\mu_{b \cdot a}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a \tag{6}μb⋅a=μb−ΣbaΣaa−1μa(6)
Σbb⋅a=Σbb−ΣbaΣaa−1Σab(7)\Sigma_{bb \cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{7}Σbb⋅a=Σbb−ΣbaΣaa−1Σab(7)
xb⋅a∼N(μb⋅a,Σbb⋅a)(8)x_{b \cdot a}\sim N(\mu_{b \cdot a},\Sigma_{bb \cdot a})\tag{8}xb⋅a∼N(μb⋅a,Σbb⋅a)(8)
E[xb∣xa]=μb+ΣbaΣaa−1(xa−μa)(9)\mathbb{E}[x_{b}|x_a]=\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)\tag{9}E[xb∣xa]=μb+ΣbaΣaa−1(xa−μa)(9)
D[xb∣xa]=Σbb−ΣbaΣaa−1Σab(10)\mathbb{D}[x_{b}|x_a]=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{10}D[xb∣xa]=Σbb−ΣbaΣaa−1Σab(10)
结论:p(xb∣xa)∼N[μb+ΣbaΣaa−1(xa−μa),Σbb−ΣbaΣaa−1Σab](11)结论:p(x_b|x_a)\sim N[\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a),\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}] \tag{11}结论:p(xb∣xa)∼N[μb+ΣbaΣaa−1(xa−μa),Σbb−ΣbaΣaa−1Σab](11)
3.4构造相关函数
3.4.1 令M为X,Z组合函数
M=(xz);P(x)∼N(μ,WIWT+σ2I);P(z)∼N(0,I)(12)M= \begin{pmatrix} x\\\\z \end{pmatrix};P(x)\sim N(\mu,WIW^T+\sigma^2I);P(z) \sim N(0,I) \tag{12}M=⎝⎛xz⎠⎞;P(x)∼N(μ,WIWT+σ2I);P(z)∼N(0,I)(12)
M=(xz)∼N((μxμz),(ΣxxΣxzΣzxΣzz))(13)M= \begin{pmatrix} x\\\\z \end{pmatrix}\sim N( \begin{pmatrix} \mu_x\\\\\ \mu_z \end{pmatrix}, \begin{pmatrix} \Sigma_{xx}&\Sigma_{xz}\\\Sigma_{zx}&\Sigma_{zz} \end{pmatrix}) \tag{13}M=⎝⎛xz⎠⎞∼N(⎝⎛μx μz⎠⎞,(ΣxxΣzxΣxzΣzz))(13)
Σxx=D(x)=WIWT+σ2I;Σzz=D(Z)=I;Σxz=Cov(xz)(14)\Sigma_{xx}=D(x)=WIW^T+\sigma^2I;\Sigma_{zz}=D(Z)=I;\Sigma_{xz}=Cov(xz)\tag{14}Σxx=D(x)=WIWT+σ2I;Σzz=D(Z)=I;Σxz=Cov(xz)(14)\
3.4.2求COV(X,Z)
Cov(xz)=E[(x−μx)(z−μz)T]Cov(xz)=E[(x-\mu_x)(z-\mu_z)^T]Cov(xz)=E[(x−μx)(z−μz)T]
=E[(x−μ)(z)T]=E[(x-\mu)(z)^T]=E[(x−μ)(z)T]
=E[(wz+μ+ϵ−μ)(z)T]=E[(wz+\mu+\epsilon-\mu)(z)^T]=E[(wz+μ+ϵ−μ)(z)T]
=E[(wz+ϵ)zT]=E[(wz+\epsilon)z^T]=E[(wz+ϵ)zT]
=E[(wz)zT+ϵzT]=E[(wz)z^T+\epsilon z^T]=E[(wz)zT+ϵzT]
=E[(wz)zT+ϵzT]=E[(wz)z^T+\epsilon z^T]=E[(wz)zT+ϵzT]
=wE[z2]+E[ϵ]E[zT]=wE[z^2]+E[\epsilon]E[ z^T]=wE[z2]+E[ϵ]E[zT]
注:E(z2)=D(z)+[E(Z)]2=I;E(ϵ)=0注:E(z^2)=D(z)+[E(Z)]^2=I;E(\epsilon)=0注:E(z2)=D(z)+[E(Z)]2=I;E(ϵ)=0
=wE[z2]+E[ϵ]E[zT]=wE[z^2]+E[\epsilon]E[ z^T]=wE[z2]+E[ϵ]E[zT]
=wI=w=wI=w=wI=w
Cov(X,Z)=W(15)Cov(X,Z)=W\tag{15}Cov(X,Z)=W(15)
结论:M=(xz)∼N((μ0),(WIWT+σ2IWWTI))(16)结论:M= \begin{pmatrix} x\\\\z \end{pmatrix}\sim N( \begin{pmatrix} \mu\\\\\ \ 0 \end{pmatrix}, \begin{pmatrix} WIW^T+\sigma^2I&W\\W^T&I \end{pmatrix}) \tag{16}结论:M=⎝⎛xz⎠⎞∼N(⎝⎛μ 0⎠⎞,(WIWT+σ2IWTWI))(16)
由3.4.1结论可得:
结论:p(z∣x)∼N[μz+ΣzxΣxx−1(x−μx),Σzz−ΣzxΣxx−1Σxz](17)结论:p(z|x)\sim N[\mu_{z}+\Sigma_{zx}\Sigma_{xx}^{-1}(x-\mu_x),\Sigma_{zz}-\Sigma_{zx}\Sigma_{xx}^{-1}\Sigma_{xz}] \tag{17}结论:p(z∣x)∼N[μz+ΣzxΣxx−1(x−μx),Σzz−ΣzxΣxx−1Σxz](17)
E(Z∣X)=WT(WIWT+σ2I)−1(X−μ)(18)\mathbb{E}(Z|X)=W^T(WIW^T+\sigma^2I)^{-1}(X-\mu) \tag{18}E(Z∣X)=WT(WIWT+σ2I)−1(X−μ)(18)
D(Z∣X)=I−WT(WIWT+σ2I)−1W(19)\mathbb{D}(Z|X)=I-W^T(WIW^T+\sigma^2I)^{-1}W \tag{19}D(Z∣X)=I−WT(WIWT+σ2I)−1W(19)
3.5结论
结果:p(z∣x)∼N[WT(WIWT+σ2I)−1(X−μ),I−WT(WIWT+σ2I)−1W](20)结果:p(z|x)\sim N[W^T(WIW^T+\sigma^2I)^{-1}(X-\mu),I-W^T(WIW^T+\sigma^2I)^{-1}W] \tag{20}结果:p(z∣x)∼N[WT(WIWT+σ2I)−1(X−μ),I−WT(WIWT+σ2I)−1W](20)
15-P-PCA从概率角度思考PCA主成分分析相关推荐
- 主成分分析(PCA),概率主成分分析(PPCA)和因子分析(FA)的区别?
介绍 在PCA中,有一份样本为n,维度为d的数据X∈Rn×d\displaystyle X\in \mathbb{R}^{n\times d}X∈Rn×d,我们希望降维,于是: X≈ZWTX\appr ...
- PRML读书会第十二章 Continuous Latent Variables(PCA,PPCA,核PCA,Autoencoder,非线性流形)
主讲人 戴玮 (新浪微博:@戴玮_CASIA) Wilbur_中博(1954123) 20:00:49 我今天讲PRML的第十二章,连续隐变量.既然有连续隐变量,一定也有离散隐变量,那么离散隐变量是什 ...
- PCA降维算法(内含PCA可视化迷你案例+PCA人脸识别降维案例+PCA逆转降噪案例)
文章目录 1.sklearn中的降维算法 (1)PCA (2)SVD (3)思考 2.重要参数n_components 3.PCA中的SVD 4.重要接口inverse_transform 5.重要接 ...
- 千万不要小看PCA,大神对PCA的理解
学习PCA的时候感觉这是个什么玩意,挺简单呀,为自己的无知感到羞愧.本片学习的不仅仅是PCA的深入理解,更是学习大神们思考问题的方式. 作者:史博 链接:https://www.zhihu.com/q ...
- 互补性:从不同的角度思考同一个事物时,发现它同时具有不同甚至相互矛盾的性质...
来源:混沌巡洋舰 检验一流智力的标准是头脑中能同时持有两种截然相反的观点,却能并行不悖. --弗朗西斯·斯科特·菲茨杰拉德 显然,这种互补性推翻了学术的本体论.真理是什么?我们之所以要提出彼拉多的问题 ...
- 扪心自问!15个IT技术人员必须思考的问题
扪心自问!15个IT技术人员必须思考的问题 转载自:泰课在线 原文地址 行内的人自嘲是程序猿.屌丝和码农,行外的人也经常拿IT人调侃,那么究竟是IT人没有价值,还是没有仔细思考过自身的价值? 1.搞I ...
- 从产品经理的角度思考内容平台(一)——开启时不宜过于专业
写在最前面 随着币乎平台引入Streamr模式,开启了国内区块链内容平台的先河,随后支点.QunQun.ONO.Primas.IveryOne.知币.币车.方球.币嗨.向北.优享.区分等像雨后春笋一样 ...
- python pca_第27集 python机器学习:PCA的属性及其使用PCA提取特征脸
PCA对象的主要成分都保存在components_.shape属性中,其属性中的每一行对应一个主成分,他们按重要性来排序(第一主成分排在首位,以此类推).列对应PCA的原始特征属性,如下: print ...
- 主成分分析(PCA)原理和鲁棒主成分分析(RPCA)详解
主成分分析(PCA)原理和鲁棒主成分分析(RPCA)详解 1.相关背景 在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律.多变量大数据集无疑会为研究和应用 ...
- PCA、碎石图、PCA+正确的维度个数、增量PCA(IncrementalPCA)、随机PCA(Randomized PCA)、KernelPCA
PCA.碎石图.PCA+正确的维度个数.增量PCA(IncrementalPCA).随机PCA(Randomized PCA).KernelPCA 目录 PCA
最新文章
- 30分钟掌握ES6/ES2015核心内容
- android把255转换成字节,android 上传参数设置,字符转化成字节,包装流等
- php5.5 ts vc11 x64,windows版 rar-3.0.2扩展插件 php_rar-3.0.2-5.5-ts-vc11-x64,php5.5 rar-3.0.2扩展插件...
- makefile 的export问题
- RMSProp均方根反向传播法
- 极路由3刷老毛子稳定使用锐捷教程
- 几乎没人教你的用poi导出如此复杂的考勤表
- win10本机计算机策略,[本地策略组怎么打开]win10本地组策略打开方法
- 斯坦福NLP名课带学详解 | CS224n 第17讲 - 多任务学习(以问答系统为例)(NLP通关指南·完结)
- python新手入门-------字符串与函数(3)
- 王道计算机组成原理课代表 - 考研计算机 第二章 数据的表示和运算 究极精华总结笔记
- 5G是什么? --5G
- 学习node.js前所需储备知识
- 01_Dive_into_python (reading note)
- 数一英一408,超高分数线392分!上海交大计算机学硕
- Python 教程之 Pandas(14)—— 使用 Pandas 进行数据分析
- 黑白照片如何上色?AI智能一键上色
- CreateProcess error=206, 文件名或扩展名太长
- 扩散模型(Diffusion Model)最新综述!
- 春夏秋冬-第12届蓝桥杯Scratch选拔赛真题精选
热门文章
- win10系统如何设置局域网服务器地址,Win10怎么设置局域网IP地址
- 如何判断DNS解析故障?如何解决DNS解析错误?
- excel双击打不开,但是点击文件里的打开就行
- win7 虚拟wifi服务器,在win7下建立虚拟wifi
- Error while trying to use the following icon from the Manifest
- win10系统matlab不能卸载不了,win10系统matlab打不开无法运行的方案
- QCA(1)基本概念及软件
- 苹果手机在哪搜索测试版软件,如何在 beta 版软件上测试你的 App
- 调色盘——将真彩色图像降级为低分辨率图像的八叉树算法
- 微分几何学习(一)(向量函数)