【白板推导系列笔记】数学基础-概率-高斯分布-求联合概率分布

X∼N(μ,Σ)=1(2π)p2∣Σ∣12exp(−12(x−μ)TΣ−1(x−μ))x∈Rp,r.v.\begin{gathered} X \sim N(\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\text{exp}\left(- \frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)\right)\\ x \in \mathbb{R}^{p},r.v.\\ \end{gathered} X∼N(μ,Σ)=(2π)2p∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))x∈Rp,r.v.
已知
p(x)=N(x∣μ,Λ−1)p(y∣x)=N(y∣Ax+b,L−1)\begin{aligned} p(x)&=N(x|\mu,\Lambda^{-1})\\ p(y|x)&=N(y|Ax+b,L^{-1}) \end{aligned} p(x)p(y∣x)=N(x∣μ,Λ−1)=N(y∣Ax+b,L−1)
求p(y),p(x∣y)p(y),p(x|y)p(y),p(x∣y)

对于一元实值变量xxx，高斯分布被定义为
N(x∣μ,σ2)=1(2πσ2)12exp[−12σ2(x−μ)2]N(x|\mu,\sigma^{2})=\frac{1}{(2\pi \sigma^{2})^{\frac{1}{2}}}\text{exp}\left[- \frac{1}{2\sigma^{2}}(x-\mu)^{2}\right]N(x∣μ,σ2)=(2πσ2)211exp[−2σ21(x−μ)2]
它有两个参数控制：μ\muμ，被叫做均值，以及σ2\sigma^{2}σ2，被叫做方差

来源：《PRML Translation》-P24
作者：马春鹏
原著：《Pattern Recognition and Machine Learning》
作者：Christopher M. Bishop

曲线拟合问题的目标是能够根据NNN个输入X=(x1,⋯,xN)TX=(x_{1},\cdots ,x_{N})^{T}X=(x1,⋯,xN)T组成的数据集和它们对应的目标值T=(t1,⋯,tN)TT=(t_{1},\cdots ,t_{N})^{T}T=(t1,⋯,tN)T，在给出输入变量xxx的新值的情况下，对目标变量ttt进行预测。我们可以使用概率分布来表达目标变量的值的不确定性。为了达到这个目的，我们要假定，给定xxx的值，对应的ttt值服从高斯分布，分布的均值为y(x,ω)y(x,\omega)y(x,ω)，由公式
y(x,ω)=ω0+ω1x+ω2x2+⋯+ωMxM=∑j=0Mωjxjy(x,\omega)=\omega_{0}+\omega_{1}x+\omega_{2}x^{2}+\cdots +\omega_{M}x^{M}=\sum\limits_{j=0}^{M}\omega_{j}x^{j}y(x,ω)=ω0+ω1x+ω2x2+⋯+ωMxM=j=0∑Mωjxj给出，因此，我们有
p(t∣x,ω,β)=N(t∣y(x,ω),β−1)p(t|x,\omega,\beta)=N(t|y(x,\omega),\beta^{-1})p(t∣x,ω,β)=N(t∣y(x,ω),β−1)
其中，为了和后续章节中的记号相同，我们定义了精度参数β\betaβ。它对应与分布方差的倒数，下图给出了图形化表示

用图形说明了公式p(t∣x,ω,β)=N(t∣y(x,ω),β−1)p(t|x,\omega,\beta)=N(t|y(x,\omega),\beta^{-1})p(t∣x,ω,β)=N(t∣y(x,ω),β−1)给出的给定xxx的条件下ttt的高斯条件概率分布，其中均值为多项式函数y(x,ω)y(x,\omega)y(x,ω)，精度由参数β\betaβ给出，它与方差的关系为β−1=σ2\beta^{-1}=\sigma^{2}β−1=σ2

来源：《PRML Translation》-P27
作者：马春鹏
原著：《Pattern Recognition and Machine Learning》
作者：Christopher M. Bishop

y=Ax+b+ϵ,ϵ∼N(0,L−1)E(y)=E(Ax+b+ϵ)=E(Ax+b)+E(ϵ)=Aμ+bVar(y)=Var(Ax+b+ϵ)=Var(Ax+b)+Var(ϵ)=A⋅Λ−1A−1+L−1\begin{aligned} y&=Ax+b+\epsilon ,\epsilon \sim N(0,L^{-1})\\ E(y)&=E(Ax+b+\epsilon )\\ &=E(Ax+b)+E(\epsilon )\\ &=A \mu+b\\ \text{Var}(y)&=\text{Var}(Ax+b+\epsilon )\\ &=\text{Var}(Ax+b)+\text{Var}(\epsilon )\\ &=A \cdot \Lambda^{-1}A^{-1}+L^{-1} \end{aligned} yE(y)Var(y)=Ax+b+ϵ,ϵ∼N(0,L−1)=E(Ax+b+ϵ)=E(Ax+b)+E(ϵ)=Aμ+b=Var(Ax+b+ϵ)=Var(Ax+b)+Var(ϵ)=A⋅Λ−1A−1+L−1
因此y∼N(Aμ+b,L−1+AΛ−1A−1)y \sim N(A \mu+b,L^{-1}+A \Lambda^{-1}A^{-1})y∼N(Aμ+b,L−1+AΛ−1A−1)
想求p(x∣y)p(x|y)p(x∣y)，如果能由已知条件推出p(x,y)p(x,y)p(x,y)，则根据上一节xb∣xa∼N(μb−ΣbaΣaa−1μa+ΣbaΣaa−1xa,Σbb−ΣbaΣaa−1Σab)x_{b}|x_{a} \sim N(\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a},\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab})xb∣xa∼N(μb−ΣbaΣaa−1μa+ΣbaΣaa−1xa,Σbb−ΣbaΣaa−1Σab)，就可以得到p(x∣y)p(x|y)p(x∣y)
z=(xy)∼N([μAμ+b],[Λ−1ΔΔL−1+AΛ−1AT])Δ=Cov(x,y)=E{[x−E(x)]⋅[y−E(y)]T}=E[(x−μ)(y−Aμ−b)T]=E[(x−μ)(Ax+b+ϵ−Aμ−b)T]=E[(x−μ)(Ax−Aμ)T+(x−μ)ϵT]=E[(x−μ)(Ax−Aμ)T]+E[(x−μ)ϵT]⏟0(x⊥ϵ)=E[(x−μ)(Ax−Aμ)T]=E[(x−μ)(x−μ)T⋅AT]=E[(x−μ)(x−μ)T]AT=Var(x)AT=Λ−1AT\begin{aligned} z&=\begin{pmatrix} x \\ y \end{pmatrix}\sim N\left(\begin{bmatrix} \mu \\ A \mu+b \end{bmatrix},\begin{bmatrix} \Lambda^{-1} & \Delta \\ \Delta & L^{-1}+A \Lambda^{-1}A^{T} \end{bmatrix}\right)\\ \Delta &=\text{Cov}(x,y)\\ &=E \left\{[x-E(x)]\cdot [y-E(y)]^{T}\right\}\\ &=E [(x-\mu)(y-A \mu-b)^{T}]\\ &=E[(x-\mu)(Ax+b+\epsilon -A \mu-b)^{T}]\\ &=E[(x-\mu)(Ax-A \mu)^{T}+(x-\mu)\epsilon ^{T}]\\ &=E[(x-\mu)(Ax-A \mu)^{T}]+\underbrace{E[(x-\mu)\epsilon ^{T}]}_{0}\quad (x \bot \epsilon )\\ &=E[(x-\mu)(Ax-A \mu)^{T}]\\ &=E[(x-\mu)(x-\mu)^{T}\cdot A^{T}]\\ &=E[(x-\mu)(x-\mu)^{T}]A^{T}\\ &=\text{Var}(x)A^{T}\\ &=\Lambda^{-1}A^{T} \end{aligned} zΔ=(xy)∼N([μAμ+b],[Λ−1ΔΔL−1+AΛ−1AT])=Cov(x,y)=E{[x−E(x)]⋅[y−E(y)]T}=E[(x−μ)(y−Aμ−b)T]=E[(x−μ)(Ax+b+ϵ−Aμ−b)T]=E[(x−μ)(Ax−Aμ)T+(x−μ)ϵT]=E[(x−μ)(Ax−Aμ)T]+0E[(x−μ)ϵT](x⊥ϵ)=E[(x−μ)(Ax−Aμ)T]=E[(x−μ)(x−μ)T⋅AT]=E[(x−μ)(x−μ)T]AT=Var(x)AT=Λ−1AT
因此(xy)∼([μAμ+b],[Λ−1Λ−1ATAΛ−1L−1+AΛ−1AT])\begin{pmatrix}x \\ y\end{pmatrix}\sim \left(\begin{bmatrix}\mu \\ A \mu+b\end{bmatrix},\begin{bmatrix}\Lambda^{-1} & \Lambda^{-1}A^{T} \\ A \Lambda^{-1} & L^{-1}+A \Lambda^{-1}A^{T}\end{bmatrix}\right)(xy)∼([μAμ+b],[Λ−1AΛ−1Λ−1ATL−1+AΛ−1AT])
再根据上一节xb∣xa∼N(μb−ΣbaΣaa−1μa+ΣbaΣaa−1xa,Σbb−ΣbaΣaa−1Σab)x_{b}|x_{a} \sim N(\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a},\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab})xb∣xa∼N(μb−ΣbaΣaa−1μa+ΣbaΣaa−1xa,Σbb−ΣbaΣaa−1Σab)，可得
x∣y∼(μ−Λ−1AT(L−1+AΛ−1AT)−1(y−Aμ−b),Λ−1−Λ−1AT(L−1+AΛ−1AT)−1AΛ−1)x|y \sim (\mu-\Lambda^{-1}A^{T}(L^{-1}+A \Lambda^{-1}A^{T})^{-1}(y-A \mu-b),\Lambda^{-1}-\Lambda^{-1}A^{T}(L^{-1}+A \Lambda^{-1}A^{T})^{-1}A \Lambda^{-1}) x∣y∼(μ−Λ−1AT(L−1+AΛ−1AT)−1(y−Aμ−b),Λ−1−Λ−1AT(L−1+AΛ−1AT)−1AΛ−1)

CSDN话题挑战赛第2期
参赛话题：学习笔记

【白板推导系列笔记】数学基础-概率-高斯分布-求联合概率分布相关推荐

【白板推导系列笔记】降维-主成分分析-概率角度（Probabilistic PCA）
教科书对PCA的推导一般是基于最小化重建误差或者最大化可分性的,或者说是通过提取数据集的结构信息来建模一个约束最优化问题来推导的.事实上,PCA还有一种概率形式的推导,那就是概率PCA,PRML里面有 ...
机器学习-白板推导系列笔记（十三）-MCMC
此文章主要是结合哔站shuhuai008大佬的白板推导视频:MCMC_218min 全部笔记的汇总贴:机器学习-白板推导系列笔记一.蒙特卡洛方法蒙特卡洛方法(Monte Carlo Method) ...
机器学习-白板推导系列笔记（二十一）-RBM
此文章主要是结合哔站shuhuai008大佬的白板推导视频:受限玻尔兹曼机_155min 全部笔记的汇总贴:机器学习-白板推导系列笔记玻尔兹曼机介绍:白板推导系列笔记(二十八)-玻尔兹曼机一.背景 ...
机器学习-白板推导系列笔记（二十八）-BM
此文章主要是结合哔站shuhuai008大佬的白板推导视频:玻尔兹曼机_147min 全部笔记的汇总贴:机器学习-白板推导系列笔记参考花书20.1 一.介绍玻尔兹曼机连接的每个节点都是离散的二值分 ...
机器学习-白板推导系列笔记（十二）-变分推断（VI）
此文章主要是结合哔站shuhuai008大佬的白板推导视频: VI变分推断_126min 全部笔记的汇总贴:机器学习-白板推导系列笔记一.背景对于概率模型从频率派角度来看就会是一个优化问题从贝 ...
机器学习-白板推导系列笔记（三十四）-MDP
此文章主要是结合哔站shuhuai008大佬的白板推导视频:马尔科夫决策过程_107min 全部笔记的汇总贴:机器学习-白板推导系列笔记一.背景介绍 Random Variable:XYX⊥YX\; ...
【白板推导系列笔记】降维-PCA-最大投影方差最小重构代价
作者:shuhuai008 链接:[机器学习][白板推导系列][合集 1-33]_哔哩哔哩_bilibili PCA的核心就是对原始特征空间的重构(将一组可能线性相关的变量,通过正交变换变换成一组线性 ...
【白板推导系列笔记】线性回归-最小二乘法及其几何意义最小二乘法-概率视角-高斯噪声-MLE
D={(x1,y1),(x2,y2),⋯,(xN,yN)}xi∈Rp,yi∈R,i=1,2,⋯,NX=(x1x2⋯xN)T=(x1Tx2T⋮xNT)=(x11x12⋯x1px21x22⋯x2p⋮⋮⋮x ...
机器学习-白板推导-系列（九）笔记：概率图模型: 贝叶斯网络/马尔可夫随机场/推断/道德图/因子图
文章目录 0 笔记说明 1 背景介绍 1.1 概率公式 1.2 概率图简介 1.2.1 表示 1.2.2 推断 1.2.3 学习 1.2.4 决策 1.3 图 2 贝叶斯网络 2.1 条件独立性 2. ...

【白板推导系列笔记】数学基础-概率-高斯分布-求联合概率分布

【白板推导系列笔记】数学基础-概率-高斯分布-求联合概率分布相关推荐

最新文章

热门文章