前言

本来是想看模型uncertainty的,也不知怎么就回溯到了这里,建议提前看下极大似然估计,最大后验估计,贝叶斯公式

线性回归

这里以一个多维的特征向量举例:假设输入样本为x\bm{x}x,模型的输出为不同参数在该样本上的线性组合f(x)=wTxf(\bm{x})=w^T\bm{x}f(x)=wTx,样本的标签为y=f(x)+ϵ\bm{y}=f(\bm{x}) + \epsilony=f(x)+ϵ,其中ϵ∼N(0,σ2)\epsilon \sim N(0, \sigma^2)ϵ∼N(0,σ2)。
首先有一种很朴素的方法就是使用最小二乘法来求解,即对真实值和预测值的函数进行求导,找到极值点最小情况下对应的www,这种方法从贝叶斯的角度考虑就是计算
wMLE=argmaxxlog⁡P(D∣w)w_{MLE}=\mathop{argmax} \limits_x\log P(D|w)wMLE​=xargmax​logP(D∣w),相当于极大似然估计。
为了防止过拟合,后面又有人提出了带有正则化的最小二乘估计,这种方式实际上就是最大后验估计:
wMAP=argmaxxlog⁡P(D∣w)P(w)w_{MAP}=\mathop{argmax} \limits_x\log P(D|w)P(w)wMAP​=xargmax​logP(D∣w)P(w),即认为www不是可以无限取值的,而是服从一种先验分布,关于最小二乘估计与贝叶斯的关系会单独写一节。我们知道,贝叶斯学派喜欢从已知数据推导参数,即求解P(w∣D)P(w|D)P(w∣D),并且还不是求解具体的www是多少,而是计算已知数据的情况下模型参数www应该对应什么样的后验分布。

贝叶斯推断

根据贝叶斯公式展开:
P(w∣D)=P(D∣w)P(w)P(D)P(w|D)=\frac{P(D|w)P(w)}{P(D)} P(w∣D)=P(D)P(D∣w)P(w)​
其中P(D)=P(Y∣X)=∫P(Y∣w,X)P(w∣W)dwP(D)=P(Y|X)=\int P(Y|w,X)P(w|W) dwP(D)=P(Y∣X)=∫P(Y∣w,X)P(w∣W)dw,这是一个固定值,所以可以得到下面的计算:
P(w∣D)∝P(D∣w)P(w)P(w|D) \varpropto P(D|w)P(w) P(w∣D)∝P(D∣w)P(w)
我们之前定义的真实值y\bm{y}y和x\bm{x}x是一种线性高斯模型,所以得到P(D∣w)P(D|w)P(D∣w)的表示为:
P(D∣w)=P(Y∣w,X)=∏i=1NP(yi∣w,xi)=∏i=1NP(yi∣wTxi,σ2)P(\bm{D}|w)=P(\bm{Y}|w,\bm{X})=\prod_{i=1}^N P(\bm{y_i}|w, \bm{x_i})=\prod_{i=1}^N P(\bm{y_i}|w^T \bm{x_i},\sigma^2) P(D∣w)=P(Y∣w,X)=i=1∏N​P(yi​∣w,xi​)=i=1∏N​P(yi​∣wTxi​,σ2)
解释一下上面的公式:

- 为什么数据集的后验概率是对应多个样本得到的后验概率的乘积?
贝叶斯线性估计有一个前提:条件独立,即在相同的www下由不同的样本xix_ixi​得到的输出yiy_iyi​的分布是相互独立的。多元高斯分布的联合概率密度在所有变量互相独立的前提下等于各个变量的概率密度函数的乘积。高斯过程建模取消了这种假设,这里不做讨论。
我们要计算P(w∣D)P(w|D)P(w∣D)还需要P(w)P(w)P(w),一般假设其服从高斯分布,所以这样后面两项就都可以计算了,原式变为:
P(w∣D)∝∏i=1NP(yi∣wTxi,ϵ)⋅N(0,σ2)P(w|D) \varpropto \prod_{i=1}^N P(\bm{y_i}|w^T \bm{x_i},\epsilon) \cdot N(0, \sigma^2) P(w∣D)∝i=1∏N​P(yi​∣wTxi​,ϵ)⋅N(0,σ2)
后验概率P(w∣D)P(w|D)P(w∣D)也是一个高斯分布,这个是通过高斯分布的共轭性质推导的,这里不详细展开,只要明确这一点就行,既然已经知道它是高斯分布,那么我们只需要知道它的期望和方差就获得了整个分布的表达式。对上式进行展开:
∏i=1NP(yi∣w,xi)=∏i=1N12πσe−(yi−wTxi)22σ2=1(2π)N2σNe−12σ2∑i=1N(yi−wTxi)2\prod_{i=1}^N P(\bm{y_i}|w, \bm{x_i}) \\ = \prod_{i=1}^N\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}} \\ =\frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^N(y_i-w^Tx_i)^2} i=1∏N​P(yi​∣w,xi​)=i=1∏N​2π​σ1​e−2σ2(yi​−wTxi​)2​=(2π)2N​σN1​e−2σ21​∑i=1N​(yi​−wTxi​)2
将上式进一步整理,可得:
∑i=1N(yi−wTxi)2=(y1−wTx1,y2−wTx2,...,yN−wTxN)(y1−wTx1y2−wTx2...yN−wTxN)=(YT−wTXT)(Y−wTX)=(Y−Xw)T(Y−Xw)\sum_{i=1}^N(y_i-w^Tx_i)^2=(y_1-w^Tx_1, y_2-w^Tx_2, ..., y_N-w^Tx_N)\left( \begin{array}{cc} y_1-w^Tx_1 \\ y_2-w^Tx_2 \\ ... \\ y_N-w^Tx_N \end{array}\right)\\ =(Y^T-w^TX^T)(Y-w^TX)\\=(Y-Xw)^T(Y-Xw) i=1∑N​(yi​−wTxi​)2=(y1​−wTx1​,y2​−wTx2​,...,yN​−wTxN​)⎝⎜⎜⎛​y1​−wTx1​y2​−wTx2​...yN​−wTxN​​⎠⎟⎟⎞​=(YT−wTXT)(Y−wTX)=(Y−Xw)T(Y−Xw)
此时:
∏i=1NP(yi∣w,xi)=1(2π)N2σNe−12σ2∑i=1N(yi−wTxi)2=1(2π)N2σNe−12σ2(Y−Xw)T(Y−Xw)=1(2π)N2σNe−12(Y−Xw)Tσ−2I(Y−Xw)∼N(Xw,σ−2I)\prod_{i=1}^N P(\bm{y_i}|w, \bm{x_i})\\=\frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^N(y_i-w^Tx_i)^2}\\=\frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N}e^{-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)}\\=\frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N}e^-\frac{1}{2}(Y-Xw)^T\sigma^{-2}I(Y-Xw)\\\sim N(Xw,\sigma^{-2}I) i=1∏N​P(yi​∣w,xi​)=(2π)2N​σN1​e−2σ21​∑i=1N​(yi​−wTxi​)2=(2π)2N​σN1​e−2σ21​(Y−Xw)T(Y−Xw)=(2π)2N​σN1​e−21​(Y−Xw)Tσ−2I(Y−Xw)∼N(Xw,σ−2I)
将计算得到的∏i=1NP(yi∣w,xi)\prod_{i=1}^N P(\bm{y_i}|w, \bm{x_i})∏i=1N​P(yi​∣w,xi​)和P(w)P(w)P(w)带入到目标的求解中:
P(w∣D)∝∏i=1NP(yi∣wTxi,ϵ)⋅N(0,σ2)∝e−12(Y−Xw)Tσ−2I(Y−Xw)⋅e−12wTΣpw∝e−12σ2(YTY−2YTXw+wXTXw)−12wTΣpwP(w|D) \varpropto \prod_{i=1}^N P(\bm{y_i}|w^T \bm{x_i},\epsilon) \cdot N(0, \sigma^2)\\ \varpropto e^{-\frac{1}{2}(Y-Xw)^T\sigma^{-2}I(Y-Xw)} \cdot e^{-\frac{1}{2}w^T\Sigma_{p}w}\\ \varpropto e^{-\frac{1}{2\sigma^2}(Y^TY-2Y^TXw+wX^TXw)-\frac{1}{2}w^T\Sigma_{p}w} P(w∣D)∝i=1∏N​P(yi​∣wTxi​,ϵ)⋅N(0,σ2)∝e−21​(Y−Xw)Tσ−2I(Y−Xw)⋅e−21​wTΣp​w∝e−2σ21​(YTY−2YTXw+wXTXw)−21​wTΣp​w
上式中的∑p\sum_{p}∑p​是一个以σ2\sigma^2σ2为主对角线元素的单位矩阵,反映的是噪声在样本集上的表现,对于多元高斯分布来说是一个协方差矩阵。
现在我们得到了P(w∣D)P(w|D)P(w∣D)的表示形式,但是不能立即看出这个分布的均值和方差是多少,所以我们需要进一步求解,首先,用一个多元高斯分布的公式展开,写出均值和方差的通用表示形式。一个多元高斯分布的指数部分展开为:
e−12(X−μ)TΣ−1(X−μ)=−12(XTΣ−1X−2μTΣ−1X+μTΣ−1μ)e^{-\frac{1}{2}(X-\mu)^T\Sigma^{-1}(X-\mu)}\\=-\frac{1}{2}(X^T \Sigma^{-1} X-2\mu^T\Sigma^{-1}X+\mu^T\Sigma^{-1}\mu ) e−21​(X−μ)TΣ−1(X−μ)=−21​(XTΣ−1X−2μTΣ−1X+μTΣ−1μ)
多元高斯分布是一个关于XXX的函数,我们的目标函数是一个关于www的函数,所以我们需要把上式和前面的一次项,二次项分别对应起来,即:
−12σ2wXTXw−12wTΣpw=−12wT(σ−2XTX+Σp−1)w⇔−12(XTΣ−1X)−12σ2(−2YTXw)=σ−2YTXw⇔μTΣ−1X-\frac{1}{2\sigma^2}wX^TXw-\frac{1}{2}w^T\Sigma_{p}w \\=-\frac{1}{2}w^T(\sigma^{-2}X^TX+\Sigma_p^{-1})w \Leftrightarrow -\frac{1}{2}(X^T \Sigma^{-1} X) \\ -\frac{1}{2\sigma^2}(-2Y^TXw)\\ =\sigma^{-2}Y^TXw \Leftrightarrow \mu^T\Sigma^{-1}X −2σ21​wXTXw−21​wTΣp​w=−21​wT(σ−2XTX+Σp−1​)w⇔−21​(XTΣ−1X)−2σ21​(−2YTXw)=σ−2YTXw⇔μTΣ−1X
通过第一个对照可以求解后验分布的协方差为:
Σw−1=σ−2XTX+Σp−1Σw=(σ−2XTX+Σp−1)−1\Sigma_w^{-1}=\sigma^{-2}X^TX+\Sigma_p^{-1}\\ \Sigma_w = (\sigma^{-2}X^TX+\Sigma_p^{-1})^{-1} Σw−1​=σ−2XTX+Σp−1​Σw​=(σ−2XTX+Σp−1​)−1
将计算的协方差带入第二个对照:
σ−2YTX=μTΣw−1\sigma^{-2}Y^TX=\mu^T\Sigma_w^{-1} σ−2YTX=μTΣw−1​
计算可得均值为:
μw=σ−2ΣwYTX\mu_w = \sigma^{-2}\Sigma_wY^TX μw​=σ−2Σw​YTX
这样我们就通过现有的已知量得到了后验概率分布的表达式了。

如何使用模型做预测

我们得到了参数www的分布,如何进一步来预测未知数据x∗x^*x∗的label呢?
首先对于数据x∗x^*x∗,有f(x∗)=wTx∗f(x^*)=w^Tx^*f(x∗)=wTx∗,而www服从后验分布N∼(μw,Σw)N\sim (\mu_w, \Sigma_w)N∼(μw​,Σw​),根据高斯分布的性质,f(x∗)f(x^*)f(x∗)应该服从N∼((x∗)Tμw,(x∗)TΣwx∗)N\sim((x^*)^T\mu_w,(x^*)^T\Sigma_wx^*)N∼((x∗)Tμw​,(x∗)TΣw​x∗),另外,考虑到数据的噪声ϵ\epsilonϵ,相应的y∗y^*y∗应该服从的高斯分布的形式为:
P(y∗∣x∗,D)=N((x∗)Tμw,(x∗)TΣwx∗+σ2)P(y^*|x^*,D) = N((x^*)^T\mu_w,(x^*)^T\Sigma_wx^*+\sigma^2) P(y∗∣x∗,D)=N((x∗)Tμw​,(x∗)TΣw​x∗+σ2)
实际做预测的时候,一般是对上面的分布求期望,也可以理解为求极值对应的横坐标值,因为在高斯分布下极值点对应的横坐标点就是期望值。

另外补充一句

如果上式在预测的时候。后验概率P(y∗∣x∗,D)P(y^*|x^*,D)P(y∗∣x∗,D)的方差比较大的话,我们就可以理解为模型对这个样本的预测把握程度并不大,因为他已经在一定范围内左右摇摆了,这可能是一种模型uncertainty的最初体现形式吧。

贝叶斯线性估计----统计学习基础相关推荐

  1. 贝叶斯思维 统计建模的Python学习法pdf

    下载地址:网盘下载 编辑推荐 贝叶斯方法正在变得越来越常见与重要,但是却没有太多可以借鉴的资料来帮助初学者.基于Allen Downey在大学讲授的本科课程,本书的计算方法能帮助你获得一个良好的开端. ...

  2. 第三十五课.基于贝叶斯的深度学习

    目录 贝叶斯公式 基础问题 贝叶斯深度学习与深度学习的区别 贝叶斯神经网络与贝叶斯网络 贝叶斯神经网络的推理与学习 前向计算 学习 贝叶斯公式 首先回顾贝叶斯公式:p(z∣x)=p(x,z)p(x)= ...

  3. BPR:面向隐偏好数据的贝叶斯个性化排序学习模型

    转自博客:https://blog.csdn.net/qq_20599123/article/details/51315697 BPR面向隐偏好数据的贝叶斯个性化排序学习模型 摘要 引言 相关研究 个 ...

  4. 贝叶斯思维 统计建模的python_贝叶斯思维统计建模的Python学习法

    第1章 贝叶斯定理 1.1 条件概率 1.2 联合概率 1.3 曲奇饼问题 1.4 贝叶斯定理 1.5 历时诠释 1.6 M&M豆问题 1.7 Monty Hall难题 1.8 讨论 第2章 ...

  5. 机器学习算法集锦:从贝叶斯到深度学习及各自优缺点

    公众号关注 "视学算法" 设为 "星标",DLCV消息即可送达! 来自 | 机器之心 链接 | https://static.coggle.it/diagram ...

  6. c语言程序朴素贝叶斯分类器,生成式学习算法(四)之----朴素贝叶斯分类器

    朴素贝叶斯分类器(算法)与朴素贝叶斯假设 在高斯判别分析模型(GDA)中,特征向量$ x$ 是连续实值向量.现在我们来讨论分量$ x_j$ 取离散值的贝叶斯朴素贝叶斯模型. 在文本分类问题中,有一个问 ...

  7. 贝叶斯集锦:贝叶斯统计基础

    转载自:http://site.douban.com/182577/widget/notes/10567181/note/294041203/ 1.从贝叶斯定理到贝叶斯统计推断 (1)贝叶斯统计简史 ...

  8. python(NLP)-朴素贝叶斯(监督型学习)

    分类算法-朴素贝叶斯(监督学习) 贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来.因此,学习贝叶斯方法,是研究自然语言处 ...

  9. 概率论信息论基础(随机变量、常用概率分布、贝叶斯规则、信息论基础、结构化概率模型)

    目录 随机变量及其概率分布 独立性 期望方差协方差 常用概率分布 常用函数 贝叶斯规则 信息论基础 结构化概率模型 如果这篇文章对你有一点小小的帮助,请给个关注喔~我会非常开心的~ 随机变量及其概率分 ...

最新文章

  1. 如何重装Citrix XenServer不丢失SR数据
  2. 成为更优秀的开发人员:第一步-“制造”粉丝
  3. Android:如何使用addJavaScriptInterface
  4. sql怎么读_大白话讲解脏写、脏读、不可重复读和幻读
  5. Failedto load class org.slf4j.impl.StaticLogger...
  6. 《Algorithms》Comparable 实现归并排序
  7. 七彩虹智能主板设置U盘启动教程
  8. 苹果计算机系统是什么,苹果电脑系统和Win电脑系统有什么不同
  9. “华为杯”第十七届中国研究生数学建模竞赛2020 —— B题
  10. 中美线径对照表_线径与线号对照表
  11. 工科数学分析序言及索引(不断更新中)
  12. swotppt模板_swot分析ppt(最好swot模板)20285.ppt
  13. cups支持的打印机列表_使用CUPS打印管理器管理打印机
  14. 网络口碑推广的策略和实施技巧
  15. java word转换pdf(先自定义添加水印 后转换pdf)通过 aspose-words
  16. excel 中vb组合框_在Excel 2010中修复组合框大小调整
  17. [JavaSE基础笔记]Day10 石头迷阵实现
  18. Linux系统的GPIO设置(以UpBoard为例)
  19. Spring Cloud Data Flow流处理入门-5
  20. ps计算机软件专用报告,PS笔记 计算机软件及应用 IT计算机 专业资料.docx

热门文章

  1. elementary os 配置单
  2. 【调剂】新疆师范大学2021年全国硕士研究生招生考试调剂工作通知
  3. 基于 gff 文件构建 TxDb 包
  4. systemd linux_这些年来为什么Linux的systemd仍然存在分歧
  5. element-ui —— 照片墙
  6. 飞桨PaddleTS携手信润富联:共建工业异常检测精准智能化系统
  7. 【Windows】检索 COM 类工厂中的组件时失败
  8. qt中简单七巧板拼图的实现
  9. Mybatis源码学习第六课---核心层源码分析--binding模块
  10. 互动媒体技术——创意编程