X∼N(μ,Σ)=1(2π)p2∣Σ∣12exp(−12(x−μ)TΣ−1(x−μ))x∈Rp,r.v.\begin{gathered} X \sim N(\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\text{exp}\left(- \frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)\right)\\ x \in \mathbb{R}^{p},r.v.\\ \end{gathered} X∼N(μ,Σ)=(2π)2p​∣Σ∣21​1​exp(−21​(x−μ)TΣ−1(x−μ))x∈Rp,r.v.​
已知
p(x)=N(x∣μ,Λ−1)p(y∣x)=N(y∣Ax+b,L−1)\begin{aligned} p(x)&=N(x|\mu,\Lambda^{-1})\\ p(y|x)&=N(y|Ax+b,L^{-1}) \end{aligned} p(x)p(y∣x)​=N(x∣μ,Λ−1)=N(y∣Ax+b,L−1)​
求p(y),p(x∣y)p(y),p(x|y)p(y),p(x∣y)

对于一元实值变量xxx,高斯分布被定义为
N(x∣μ,σ2)=1(2πσ2)12exp[−12σ2(x−μ)2]N(x|\mu,\sigma^{2})=\frac{1}{(2\pi \sigma^{2})^{\frac{1}{2}}}\text{exp}\left[- \frac{1}{2\sigma^{2}}(x-\mu)^{2}\right]N(x∣μ,σ2)=(2πσ2)21​1​exp[−2σ21​(x−μ)2]
它有两个参数控制:μ\muμ,被叫做均值,以及σ2\sigma^{2}σ2,被叫做方差

来源:《PRML Translation》-P24
作者:马春鹏
原著:《Pattern Recognition and Machine Learning》
作者:Christopher M. Bishop

曲线拟合问题的目标是能够根据NNN个输入X=(x1,⋯,xN)TX=(x_{1},\cdots ,x_{N})^{T}X=(x1​,⋯,xN​)T组成的数据集和它们对应的目标值T=(t1,⋯,tN)TT=(t_{1},\cdots ,t_{N})^{T}T=(t1​,⋯,tN​)T,在给出输入变量xxx的新值的情况下,对目标变量ttt进行预测。我们可以使用概率分布来表达目标变量的值的不确定性。为了达到这个目的,我们要假定,给定xxx的值,对应的ttt值服从高斯分布,分布的均值为y(x,ω)y(x,\omega)y(x,ω),由公式
y(x,ω)=ω0+ω1x+ω2x2+⋯+ωMxM=∑j=0Mωjxjy(x,\omega)=\omega_{0}+\omega_{1}x+\omega_{2}x^{2}+\cdots +\omega_{M}x^{M}=\sum\limits_{j=0}^{M}\omega_{j}x^{j}y(x,ω)=ω0​+ω1​x+ω2​x2+⋯+ωM​xM=j=0∑M​ωj​xj给出,因此,我们有
p(t∣x,ω,β)=N(t∣y(x,ω),β−1)p(t|x,\omega,\beta)=N(t|y(x,\omega),\beta^{-1})p(t∣x,ω,β)=N(t∣y(x,ω),β−1)
其中,为了和后续章节中的记号相同,我们定义了精度参数β\betaβ。它对应与分布方差的倒数,下图给出了图形化表示

用图形说明了公式p(t∣x,ω,β)=N(t∣y(x,ω),β−1)p(t|x,\omega,\beta)=N(t|y(x,\omega),\beta^{-1})p(t∣x,ω,β)=N(t∣y(x,ω),β−1)给出的给定xxx的条件下ttt的高斯条件概率分布,其中均值为多项式函数y(x,ω)y(x,\omega)y(x,ω),精度由参数β\betaβ给出,它与方差的关系为β−1=σ2\beta^{-1}=\sigma^{2}β−1=σ2

来源:《PRML Translation》-P27
作者:马春鹏
原著:《Pattern Recognition and Machine Learning》
作者:Christopher M. Bishop

y=Ax+b+ϵ,ϵ∼N(0,L−1)E(y)=E(Ax+b+ϵ)=E(Ax+b)+E(ϵ)=Aμ+bVar(y)=Var(Ax+b+ϵ)=Var(Ax+b)+Var(ϵ)=A⋅Λ−1A−1+L−1\begin{aligned} y&=Ax+b+\epsilon ,\epsilon \sim N(0,L^{-1})\\ E(y)&=E(Ax+b+\epsilon )\\ &=E(Ax+b)+E(\epsilon )\\ &=A \mu+b\\ \text{Var}(y)&=\text{Var}(Ax+b+\epsilon )\\ &=\text{Var}(Ax+b)+\text{Var}(\epsilon )\\ &=A \cdot \Lambda^{-1}A^{-1}+L^{-1} \end{aligned} yE(y)Var(y)​=Ax+b+ϵ,ϵ∼N(0,L−1)=E(Ax+b+ϵ)=E(Ax+b)+E(ϵ)=Aμ+b=Var(Ax+b+ϵ)=Var(Ax+b)+Var(ϵ)=A⋅Λ−1A−1+L−1​
因此y∼N(Aμ+b,L−1+AΛ−1A−1)y \sim N(A \mu+b,L^{-1}+A \Lambda^{-1}A^{-1})y∼N(Aμ+b,L−1+AΛ−1A−1)
想求p(x∣y)p(x|y)p(x∣y),如果能由已知条件推出p(x,y)p(x,y)p(x,y),则根据上一节xb∣xa∼N(μb−ΣbaΣaa−1μa+ΣbaΣaa−1xa,Σbb−ΣbaΣaa−1Σab)x_{b}|x_{a} \sim N(\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a},\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab})xb​∣xa​∼N(μb​−Σba​Σaa−1​μa​+Σba​Σaa−1​xa​,Σbb​−Σba​Σaa−1​Σab​),就可以得到p(x∣y)p(x|y)p(x∣y)
z=(xy)∼N([μAμ+b],[Λ−1ΔΔL−1+AΛ−1AT])Δ=Cov(x,y)=E{[x−E(x)]⋅[y−E(y)]T}=E[(x−μ)(y−Aμ−b)T]=E[(x−μ)(Ax+b+ϵ−Aμ−b)T]=E[(x−μ)(Ax−Aμ)T+(x−μ)ϵT]=E[(x−μ)(Ax−Aμ)T]+E[(x−μ)ϵT]⏟0(x⊥ϵ)=E[(x−μ)(Ax−Aμ)T]=E[(x−μ)(x−μ)T⋅AT]=E[(x−μ)(x−μ)T]AT=Var(x)AT=Λ−1AT\begin{aligned} z&=\begin{pmatrix} x \\ y \end{pmatrix}\sim N\left(\begin{bmatrix} \mu \\ A \mu+b \end{bmatrix},\begin{bmatrix} \Lambda^{-1} & \Delta \\ \Delta & L^{-1}+A \Lambda^{-1}A^{T} \end{bmatrix}\right)\\ \Delta &=\text{Cov}(x,y)\\ &=E \left\{[x-E(x)]\cdot [y-E(y)]^{T}\right\}\\ &=E [(x-\mu)(y-A \mu-b)^{T}]\\ &=E[(x-\mu)(Ax+b+\epsilon -A \mu-b)^{T}]\\ &=E[(x-\mu)(Ax-A \mu)^{T}+(x-\mu)\epsilon ^{T}]\\ &=E[(x-\mu)(Ax-A \mu)^{T}]+\underbrace{E[(x-\mu)\epsilon ^{T}]}_{0}\quad (x \bot \epsilon )\\ &=E[(x-\mu)(Ax-A \mu)^{T}]\\ &=E[(x-\mu)(x-\mu)^{T}\cdot A^{T}]\\ &=E[(x-\mu)(x-\mu)^{T}]A^{T}\\ &=\text{Var}(x)A^{T}\\ &=\Lambda^{-1}A^{T} \end{aligned} zΔ​=(xy​)∼N([μAμ+b​],[Λ−1Δ​ΔL−1+AΛ−1AT​])=Cov(x,y)=E{[x−E(x)]⋅[y−E(y)]T}=E[(x−μ)(y−Aμ−b)T]=E[(x−μ)(Ax+b+ϵ−Aμ−b)T]=E[(x−μ)(Ax−Aμ)T+(x−μ)ϵT]=E[(x−μ)(Ax−Aμ)T]+0E[(x−μ)ϵT]​​(x⊥ϵ)=E[(x−μ)(Ax−Aμ)T]=E[(x−μ)(x−μ)T⋅AT]=E[(x−μ)(x−μ)T]AT=Var(x)AT=Λ−1AT​
因此(xy)∼([μAμ+b],[Λ−1Λ−1ATAΛ−1L−1+AΛ−1AT])\begin{pmatrix}x \\ y\end{pmatrix}\sim \left(\begin{bmatrix}\mu \\ A \mu+b\end{bmatrix},\begin{bmatrix}\Lambda^{-1} & \Lambda^{-1}A^{T} \\ A \Lambda^{-1} & L^{-1}+A \Lambda^{-1}A^{T}\end{bmatrix}\right)(xy​)∼([μAμ+b​],[Λ−1AΛ−1​Λ−1ATL−1+AΛ−1AT​])
再根据上一节xb∣xa∼N(μb−ΣbaΣaa−1μa+ΣbaΣaa−1xa,Σbb−ΣbaΣaa−1Σab)x_{b}|x_{a} \sim N(\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a},\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab})xb​∣xa​∼N(μb​−Σba​Σaa−1​μa​+Σba​Σaa−1​xa​,Σbb​−Σba​Σaa−1​Σab​),可得
x∣y∼(μ−Λ−1AT(L−1+AΛ−1AT)−1(y−Aμ−b),Λ−1−Λ−1AT(L−1+AΛ−1AT)−1AΛ−1)x|y \sim (\mu-\Lambda^{-1}A^{T}(L^{-1}+A \Lambda^{-1}A^{T})^{-1}(y-A \mu-b),\Lambda^{-1}-\Lambda^{-1}A^{T}(L^{-1}+A \Lambda^{-1}A^{T})^{-1}A \Lambda^{-1}) x∣y∼(μ−Λ−1AT(L−1+AΛ−1AT)−1(y−Aμ−b),Λ−1−Λ−1AT(L−1+AΛ−1AT)−1AΛ−1)

CSDN话题挑战赛第2期
参赛话题:学习笔记

【白板推导系列笔记】数学基础-概率-高斯分布-求联合概率分布相关推荐

  1. 【白板推导系列笔记】降维-主成分分析-概率角度(Probabilistic PCA)

    教科书对PCA的推导一般是基于最小化重建误差或者最大化可分性的,或者说是通过提取数据集的结构信息来建模一个约束最优化问题来推导的.事实上,PCA还有一种概率形式的推导,那就是概率PCA,PRML里面有 ...

  2. 机器学习-白板推导系列笔记(十三)-MCMC

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:MCMC_218min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.蒙特卡洛方法 蒙特卡洛方法(Monte Carlo Method) ...

  3. 机器学习-白板推导系列笔记(二十一)-RBM

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:受限玻尔兹曼机_155min 全部笔记的汇总贴:机器学习-白板推导系列笔记 玻尔兹曼机介绍:白板推导系列笔记(二十八)-玻尔兹曼机 一.背景 ...

  4. 机器学习-白板推导系列笔记(二十八)-BM

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:玻尔兹曼机_147min 全部笔记的汇总贴:机器学习-白板推导系列笔记 参考花书20.1 一.介绍 玻尔兹曼机连接的每个节点都是离散的二值分 ...

  5. 机器学习-白板推导系列笔记(十二)-变分推断(VI)

    此文章主要是结合哔站shuhuai008大佬的白板推导视频: VI变分推断_126min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.背景 对于概率模型 从频率派角度来看就会是一个优化问题 从贝 ...

  6. 机器学习-白板推导系列笔记(三十四)-MDP

    此文章主要是结合哔站shuhuai008大佬的白板推导视频:马尔科夫决策过程_107min 全部笔记的汇总贴:机器学习-白板推导系列笔记 一.背景介绍 Random Variable:XYX⊥YX\; ...

  7. 【白板推导系列笔记】降维-PCA-最大投影方差最小重构代价

    作者:shuhuai008 链接:[机器学习][白板推导系列][合集 1-33]_哔哩哔哩_bilibili PCA的核心就是对原始特征空间的重构(将一组可能线性相关的变量,通过正交变换变换成一组线性 ...

  8. 【白板推导系列笔记】线性回归-最小二乘法及其几何意义最小二乘法-概率视角-高斯噪声-MLE

    D={(x1,y1),(x2,y2),⋯,(xN,yN)}xi∈Rp,yi∈R,i=1,2,⋯,NX=(x1x2⋯xN)T=(x1Tx2T⋮xNT)=(x11x12⋯x1px21x22⋯x2p⋮⋮⋮x ...

  9. 机器学习-白板推导-系列(九)笔记:概率图模型: 贝叶斯网络/马尔可夫随机场/推断/道德图/因子图

    文章目录 0 笔记说明 1 背景介绍 1.1 概率公式 1.2 概率图简介 1.2.1 表示 1.2.2 推断 1.2.3 学习 1.2.4 决策 1.3 图 2 贝叶斯网络 2.1 条件独立性 2. ...

最新文章

  1. 导出txt文件宏_XLM宏反混淆工具:提取和反混淆XLM宏
  2. Spring4新特性——核心容器的其他改进
  3. Tecplot 360 按教程安装完毕后,弹出“Is your Tecplot 360 EX liense valid?”【终极解决办法】
  4. [裴礼文数学分析中的典型问题与方法习题参考解答]4.5.3
  5. 映射技术之储存器映射
  6. 两行Python代码实现电影打分与推荐
  7. PhotoSwipe源码解读系列(二)
  8. leetcode958. Check Completeness of a Binary Tree
  9. vc++之剪贴板通信实例
  10. 斐讯 K2 路由器 无线中继 无线扩展设置教程图文
  11. css实现奥运五环(立体)
  12. Egret引擎的EUI基础使用教程
  13. CSS overflow的几种属性值
  14. LINUX shell 脚本
  15. PaperFree-论文查重
  16. 服务器虚拟化巡检报告,vmvare虚拟化平台巡检周报
  17. 平安好房想灭房产中介靠不靠谱?
  18. Linux入门-基础指令与相关概念
  19. 基于人类视觉系统建模的仿生低层次图像处理
  20. http://www.cnblogs.com/alcc/p/Allc.html

热门文章

  1. 求生之路无限子弹服务器,求生之路2怎么调无限子弹(在单机中)
  2. 粤港澳大湾区新地标,128米高“湾区之光”摩天轮重构深圳天际线
  3. anymie360.exe,anymie360.dll,b770ca2.sys,Beep.sys,msiffei.sys等1
  4. 北京最大耐克体验店开业;HH中国首家旗舰店在上海开业 | 美通社头条
  5. The C Programming Language 读书总结
  6. 员工过失给企业造成损失,赔偿责任分析
  7. Hadoop安装教4程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.0
  8. 2021高考成绩等位线查询四川,泸州医学院的麻醉专业收分请问下四川考生一 – 手机爱问...
  9. 如何查看win 10 无线密码
  10. py3+requests+urllib+bs4+threading,爬取斗图图片