有监督参数估计是指已知分类器结构或函数形式,从训练样本中估计参数。

本文主要介绍贝叶斯决策(详见贝叶斯决策的过程)条件概率密度的有监督参数估计过程。方法有最大似然估计和贝叶斯参数估计法。

最大似然估计

假设参数为确定值,根据似然度最大进行最优估计。

给定数据D1,D2...DcD_1,D_2...D_cD1​,D2​...Dc​表示不同类别的样本。假设每类样本独立同分布(i.i.d. 万年不变的假设),用DiD_iDi​来估计θiθ_iθi​,即对每个类求一个判别函数,用该类的样本来估计判别函数的参数。

注意区分特征空间和参数空间。参数估计的任务是得到p(x∣wi)p(x|w_i)p(x∣wi​)的形式,是在参数空间进行的。不妨设特征空间为d维,参数空间p维。
为了估计参数,需要如下几个步骤:

  • 求似然(Likelihood)p(D∣θ)=∏k=1np(xk∣θ)p(D|θ) =\prod_{k=1}^{n}p(x_k|θ)p(D∣θ)=k=1∏n​p(xk​∣θ)
    注意,上面这个式子针对的已经是具体的类别wiw_iwi​了,不要问www参数去哪了。另外,这里的n代表样本数目,要和前面的类别数目c区分开。这个式子很好理解,即出现我们当前观测到的样本概率,求使它最大化的参数即可。
  • 最大化似然max⁡θp(D∣θ)→▽θp(D∣θ)=0\max_θp(D|θ)→▽_θp(D|θ)=0θmax​p(D∣θ)→▽θ​p(D∣θ)=0
    这个梯度是在p维参数空间求解,即▽θp=[∂∂θ1......∂∂θp]▽_θp= \begin{bmatrix} \frac{\partial}{\partialθ_1}\\ ...\\ ...\\ \frac{\partial}{\partialθ_p} \end{bmatrix} ▽θ​p=⎣⎢⎢⎡​∂θ1​∂​......∂θp​∂​​⎦⎥⎥⎤​
  • 求解梯度。可求解析解或梯度下降。(常用Log-Likelihood,易求解)

当先验P(θ)P(\theta)P(θ)都相等时等同于最大后验概率(MAP)决策。

高斯密度最大似然估计

以贝叶斯决策过程里给出的高斯密度假设为例,对它进行最大似然参数估计。首先假设σ\sigmaσ已知,对μ\muμ进行估计。

单点情况:

对于所有样本:

估计值即为观测样本均值。

再来看μ\muμ和σ\sigmaσ都未知的情况。设数据服从一维高斯分布,θ1=μ\theta_1=\muθ1​=μ,θ2=σ2\theta_2=\sigma^2θ2​=σ2:

令梯度等于0可求得:
μ^=1n∑k=1nxk\hat{μ}=\frac{1}{n}\sum_{k=1}^nx_kμ^​=n1​k=1∑n​xk​
σ^2=1n∑k=1n(xk−μ^)2\hat{σ}^2=\frac1{n}\sum_{k=1}^n(x_k-\hat{μ})^2σ^2=n1​k=1∑n​(xk​−μ^​)2
多维情况,θ2=Σ\theta_2=\Sigmaθ2​=Σ:
μ^=1n∑k=1nxk\hat{μ}=\frac{1}{n}\sum_{k=1}^nx_kμ^​=n1​k=1∑n​xk​
Σ^=1n∑k=1n(xk−μ^)(xk−μ^)T\hat{\Sigma}=\frac1{n}\sum_{k=1}^n(x_k-\hat{μ})(x_k-\hat{μ})^TΣ^=n1​k=1∑n​(xk​−μ^​)(xk​−μ^​)T

估计结果类似无偏估计。

贝叶斯参数估计

参数被视为随机变量,估计其后验分布

我们先来简化一下贝叶斯决策的条件概率密度形式。考虑训练样本对分类决策的影响,后验概率可写作:

首先由于先验概率一般可以事先得到,因此通常不考虑样本对它的影响。其次,我们使用的是有监督学习,训练样本自然都会分到各自所属的类中。基于这两点可简化公式,得到公式一:

由此我们需处理的其实是c个独立的问题,那么条件概率密度可简写成c个P(x∣D)P(x|D)P(x∣D),分别对它们进行估计。

下面引出参数分布估计的过程。假定参数形式已知,即已知p(x∣θ)p(x|θ)p(x∣θ),为求p(x∣D)p(x|D)p(x∣D):
p(x∣D)=∫p(x,θ∣D)dθ=∫p(x∣θ,D)p(θ∣D)dθp(x|D)=\int{p(x,θ|D)}dθ \\ \qquad\qquad \qquad=\int{p(x|θ,D)p(θ|D)dθ}p(x∣D)=∫p(x,θ∣D)dθ=∫p(x∣θ,D)p(θ∣D)dθ
由于测试样本x(观测样本)和训练样本D的选取是独立的,因此可写成公式二:
p(x∣D)=∫p(x∣θ)p(θ∣D)dθ\quad p(x|D)=\int{p(x|θ)p(θ|D)dθ}p(x∣D)=∫p(x∣θ)p(θ∣D)dθ样本独立性是《模式分类第二版》里对这步变换做出的解释。对这一部分说一下我的理解。按书里说的x与D相互独立,那p(x|D)其实直接就可以简写成p(x),且p(θ)p(\theta)p(θ)也假定已知(后面会说),直接
p(x)=∫p(x∣θ)p(θ)dθ\quad p(x)=\int{p(x|θ)p(θ)dθ}p(x)=∫p(x∣θ)p(θ)dθ不就能求了,为什么非要对条件概率密度引入D呢?

其实这样做的目的就是为了强行引入p(θ∣D)p(\theta|D)p(θ∣D)。别忘了p(x∣D)p(x|D)p(x∣D)实际上是p(x∣ω,D)p(x|\omega,D)p(x∣ω,D),来自公式一。回顾一下公式一引入D的原因,是尽可能地利用已有的全部信息来估计后验概率p(ω∣x)p(\omega|x)p(ω∣x),对p(x∣D)p(x|D)p(x∣D)也是这样。即便训练样本对观测值x没有影响,但我们希望再引入一个受样本影响的reproducing density p(θ∣D)p(\theta|D)p(θ∣D),让它影响类条件概率的分布。其实相当于重新构造了一个先验,并希望p(θ∣D)p(\theta|D)p(θ∣D)在θ\thetaθ的真实值附近有显著的尖峰(sharp)。通常可以用这个sharp逼近的θ^\hat\thetaθ^来替代真实值,有p(x∣D)≈p(x∣θ^)p(x|D) ≈ p(x|\hat\theta)p(x∣D)≈p(x∣θ^)。如果估计值的置信度不高(用高斯分布来说即方差较大,sharp不明显。后面会说),也可以按p(θ∣D)p(\theta|D)p(θ∣D)对θ\thetaθ进行采样,带入p(x∣θ)p(x|\theta)p(x∣θ)求平均:

总结一下,公式一和公式二是贝叶斯决策和参数估计的两个核心部分。尤其是公式二,我们希望把p(x∣D)p(x|D)p(x∣D)和p(θ∣D)p(θ|D)p(θ∣D)联系起来,那么已有的训练样本就能通过p(θ∣D)p(θ|D)p(θ∣D)对p(x∣D)p(x|D)p(x∣D)施加影响。至此我们已经把有监督学习问题(原始分类问题)转换成了一个无监督的概率密度预测问题(估计p(θ∣D)p(θ|D)p(θ∣D))

高斯密度贝叶斯估计

对高斯密度假设进行贝叶斯参数估计。

考虑一维情况。p(x∣μ)∼N(μ,σ2)p(x|\mu)\sim N(μ,σ^2)p(x∣μ)∼N(μ,σ2),假设σ2σ^2σ2已知,为了预测p(μ∣D)p(μ|D)p(μ∣D),写成:
p(μ∣D)=p(D∣μ)p(μ)∫p(D∣μ)p(μ)dμp(μ|D)=\frac{p(D|μ)p(μ)}{\int{p(D|μ)p(μ)dμ}}p(μ∣D)=∫p(D∣μ)p(μ)dμp(D∣μ)p(μ)​
由于p(D∣μ)=∏k=1np(xk∣μ)p(D|\mu)=\prod_{k=1}^np(x_k|μ)p(D∣μ)=∏k=1n​p(xk​∣μ),则
p(μ∣D)=α∏k=1np(xk∣μ)p(μ)p(μ|D)=\alpha\prod_{k=1}^np(x_k|μ)p(μ)p(μ∣D)=αk=1∏n​p(xk​∣μ)p(μ)
α\alphaα是原式分母,作为常数项。

假设p(μ)∼N(μ0,σ02)p(μ)\sim N(μ_0,σ_0^2)p(μ)∼N(μ0​,σ02​),μ0\mu_0μ0​和σ02\sigma_0^2σ02​已知。可以把μ0\mu_0μ0​看作对μ\muμ的先验估计,σ02\sigma_0^2σ02​看作估计的不确定程度。做正态分布假设只是为了简化后面的数学运算。这一步的重点在于在参数估计过程中我们是已知参数先验概率密度p(μ)p(\mu)p(μ)的。

公式展开:

与μ无关的因子都被归入α\alphaα中。可见p(μ∣D)p(μ|D)p(μ∣D)仍符合高斯分布,对照标准形式p(μ∣D)=12πσnexp(−12(μ−μn)2σn2)p(μ|D)=\frac{1}{\sqrt{2\pi}σ_n}exp(-\frac{1}{2}\frac{(\mu-μ_n)^2}{σ_n^2})p(μ∣D)=2π​σn​1​exp(−21​σn2​(μ−μn​)2​)可得

到目前为止,已经把先验知识p(μ)p(\mu)p(μ)和训练样本信息μ^n\hat\mu_nμ^​n​结合在一起,估计出了后验概率p(μ∣D)p(\mu|D)p(μ∣D)。把结果直观地写在一起:


在这个结果中,μn\mu_nμn​表示在观测到n个样本后,对参数μ\muμ真实值的最好估计,σn2\sigma_n^2σn2​则代表这个估计的不确定性(前面对先验假设也是这么解释的,理解一下高斯分布对参数估计的理论意义)。σn2\sigma_n^2σn2​随着n的增大而减小,即增加训练样本后,对μ\muμ真实估计的置信度将逐渐提高,呈现一个sharp。这样的过程称为贝叶斯学习过程。

将p(μ∣D)p(\mu|D)p(μ∣D)代入
p(x∣D)=∫p(x∣μ)p(μ∣D)dμp(x|D)=\int{p(x|μ)p(μ|D)dμ} p(x∣D)=∫p(x∣μ)p(μ∣D)dμ
得出p(x∣D)∼N(μn,σ2+σn2)p(x|D)\sim{N(μ_n,σ^2+σ_n^2)}p(x∣D)∼N(μn​,σ2+σn2​)。因此,根据已知的p(x∣μ)∼N(μ,σ2)p(x|μ)\sim{N(μ,σ^2)}p(x∣μ)∼N(μ,σ2),只要用μnμ_nμn​替换μ,σ2+σn2σ^2+σ_n^2σ2+σn2​替换σ2σ^2σ2即可完成参数估计。

我们观察到,当n趋于无穷时,贝叶斯参数估计与最大似然效果相同。(当然在实际问题当中样本往往是有限的,这里只是形式化地理解)

总结一下贝叶斯估计的一般过程:

最大似然和贝叶斯估计的比较

在上面的例子中,用贝叶斯参数估计与ML分别对条件概率密度p(x∣ω)p(x|\omega)p(x∣ω)进行估计,得到的虽然都是高斯分布形式,但这个过程中做的假设是完全不同的。 ML直接假定p(x∣ω)p(x|\omega)p(x∣ω)符合高斯分布,根据训练样本选取确定的参数μ^\hat\muμ^​和σ^2\hat\sigma^2σ^2。而贝叶斯估计方法是通过假设已知p(x∣θ)p(x|θ)p(x∣θ)和p(μ)p(\mu)p(μ)符合高斯分布,推出p(μ∣D)p(\mu|D)p(μ∣D)符合高斯分布, 进而根据公式二推出p(x∣D)p(x|D)p(x∣D)符合高斯分布。这个分布的sharp作为估计的均值,随样本数增加而改变,且确信度逐渐升高。

高斯分布的例子相对来说有点抽象,《模式分类》里还给了一个简单的例子,比较好理解,尤其是这幅图:

非常有助于理解。贝叶斯估计在样本最大值之外还有一个拖尾,这就是考虑了先验p(θ)p(\theta)p(θ)的结果,告诉我们在x=10附近,条件概率密度仍可能不为0。(详见书中例1 递归的贝叶斯学习)

总的来说,最大似然估计根据训练样本明确估计出最优参数值,而贝叶斯估计目标是求出参数的分布,类似于“参数为0.5的概率为0.8”。虽然在估计时模糊的结果(即近似正确)往往更有用,但贝叶斯估计计算复杂度较高,可理解性较差,因此最大似然估计应用更广泛。

贝叶斯决策类条件概率密度估计:最大似然和贝叶斯参数估计相关推荐

  1. 模式识别学习笔记(5)——最大似然和贝叶斯参数估计

    最大似然:得到参数确定的值 贝叶斯估计:得到参数的概率分布 最大似然估计 贝叶斯参数估计 例题: 参考资料: 中国科学院大学硕士课<模式识别>ppt

  2. 机器学习 —— 基础整理(一)贝叶斯决策论;二次判别函数;贝叶斯错误率;生成式模型的参数方法...

    本文简单整理了以下内容: (一)贝叶斯决策论:最小错误率决策.最小风险决策:经验风险与结构风险 (二)判别函数:生成式模型:多元高斯密度下的判别函数:线性判别函数LDF.二次判别函数QDF (三)贝叶 ...

  3. 概率论知识回顾(三):事件域,条件概率,全概率,贝叶斯概率

    概率论知识回顾(三) 关键点:事件域,条件概率,全概率,贝叶斯概率 知识回顾用于巩固知识和查漏补缺.知识回顾步骤: 查看知识回顾中的问题,尝试自己解答 自己解答不出来的可以查看下面的知识解答巩固知识. ...

  4. 贝叶斯参数估计的理解及其在电商算法中的应用

    文章目录 极大似然估计 贝叶斯估计(Bayes Estimation) 损失函数 风险函数 贝叶斯风险 如何最小化贝叶斯风险(贝叶斯估计) 结论 三种常用损失函数的贝叶斯估计计算 Square Err ...

  5. 参数估计:贝叶斯思想和贝叶斯参数估计

    http://blog.csdn.net/pipisorry/article/details/51471222 贝叶斯与频率派思想 频率派思想 长久以来,人们对一件事情发生或不发生,只有固定的0和1, ...

  6. 参数估计法——最大似然估计和贝叶斯参数估计

    为什么要用参数估计? 在贝叶斯方法中,要事先估计先验概率和条件密度函数,然后再设计分类器.但是多数情况下训练样本数总是太少,而且当用于表示特征维数较高时,对条件密度函数的估计就会计算复杂度较高. 因此 ...

  7. R语言贝叶斯参数估计、回归与计算

    贝叶斯统计学是一门基本思想与传统基于频率思想的统计学完全不同的统计学方法:它以其灵活性和先进性在现代的统计学中占据着重要的地位.贝叶斯统计学是开展科学研究不可缺少的重要手段,但是,因为其思想.技术和方 ...

  8. 【简述与推导】似然函数,最大似然估计,条件概率,全概率,贝叶斯概率

    目录 1. 似然(likehood)与最大似然估计 2. 条件概率(conditional probability),全概率(total probability),和贝叶斯概率(Bayes proba ...

  9. 参数估计:最大似然、贝叶斯与最大后验

    转:https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/ 中国有句话叫"马后炮", 大体上用在中国象棋和讽刺人两个地方, ...

  10. 概率论基础 —— 2. 条件概率、全概率、贝叶斯概率公式

    文章目录 条件概率 全概率 贝叶斯概率 条件概率 条件概率是一种比较特殊的概率体系,和我们前面提到过的基本概率(交事件)有所不同.它最大的特点在于事件发生时有一定的限制前提,通常一般是说在事件A发生后 ...

最新文章

  1. ICLR 2021 | 基于自监督学习的小样本分类,代码已开源
  2. 微软经典案例系列课程(视频课程讲师:杨丹)
  3. SpringMVC:学习笔记(11)——依赖注入与@Autowired
  4. 【Vegas原创】导出Excel时,如何将数字格式转为文本格式?(07.12.13 Update)
  5. 中国电信:回归根本的SOC发展之道
  6. 【Kaggle-MNIST之路】CNN+改进过的损失函数(三)
  7. VTK:点定位器可视化用法实战
  8. wifi rssi 计算 距离_PPT|交通未来第3期 基于实时WIFI蓝牙检测数据的交通目标定位及出行模式甄别技术...
  9. ubuntu下面使用clion
  10. python waitkey_python中VideoCapture(),read(),waitKey()的使用
  11. springsecurity实现记住我的功能,将用户的登录信息保存到本地浏览器,即使关闭浏览器也不用登录
  12. 定时器 - 延时函数
  13. 组网学习之什么是链路冗余(二)
  14. 目前服务器cpu主流参数,服务器CPU天梯图-包含所有主流设备及服务器处理器
  15. 最基本的计算机度量单位是什么意思,计算机常用的度量单位
  16. 详解package.json文件
  17. UEFI规范驱动模型(二):驱动加载过程
  18. 微信小程序获取当前日期和时间
  19. 机器学习算法(七): 基于LightGBM的分类预测(基于英雄联盟10分钟数据判断红蓝方胜负)
  20. outlook服务器无法搜索邮件,outlook2010无法搜索解决方法

热门文章

  1. 畅购9-Spring Security Oauth2 JWT
  2. 开发人员必备的四象限壁纸
  3. 计算机在运行表格的时候很慢,win7系统打开excel2007表格很慢的解决方法
  4. Linux系统并搭建Sip server平台
  5. 把图标变成圆形的html_css3 图片圆形显示 如何CSS将正方形图片显示为圆形图片布局...
  6. plc中int数据类型范围_AB的PLC中,这些数据类型:INT、DINT、SINT、REAL和BOOL,分别代表什么意思?...
  7. 综合计算增长比例计算机,比如2001-2010这10年GDP年均增长率怎么计算?
  8. 2022软考[嵌入式系统设计师]大纲
  9. git强制拉取最新代码
  10. 2020最新广告法_2020最新广告法全文解读