十四、贝叶斯判别法

1.贝叶斯判别的定义

贝叶斯判别的定义，是找到一个错判平均损失最小的判别准则，这句话虽然简单，但还有一些概念需要解析，接下来我们假设有kkk个总体G1,⋯,GkG_1,\cdots,G_kG1,⋯,Gk。

首先，错判损失指的是将属于某类的实体错判为其他类，在实际生活中会导致的损失。比如考虑今天会不会下雨的判别，这决定了你出门是否带雨伞，如果今天实际上出太阳，但你判断今天会下雨，这将导致你需要多承受一把雨伞的重量，带来了一定的损失；但如果今天实际上下雨，但你判断今天会出太阳，这将导致你承担被雨淋的痛苦或者等伞的无聊，也带来损失。这两种损失给你造成的体验是否一样？显然下雨错判为晴天的损失更大一些。而在实际的问题中，不同情况的错判损失也很可能不同，因此有必要加以区分。

使用判别法DDD将第iii类的样本错判为第jjj类，错判损失记作L(j∣i;D)=L(j∣i)L(j|i;D)=L(j|i)L(j∣i;D)=L(j∣i)，一般错判损失可比较而不可量化，但在应用贝叶斯判别法的情况下必须量化。量化方式可以是经验赋值，对所有错判损失给一个大致的判断；而如果不同类别的错判损失大致相同，则定义L(j∣i)=1−δijL(j|i)=1-\delta_{ij}L(j∣i)=1−δij。

其次，既然是错判平均损失，就存在一种平均准则。使用算术平均是否合适呢？事实上是不合适的。首先，每种错判的发生可能不一样，假设实体来自iii类，在观测前使用某判别准则将其判断到jjj类的概率是固定的，即P(j∣i)P(j|i)P(j∣i)，这样，如果实体来自iii类，则此时的错判损失是
ri(D)=∑j=1kP(j∣i)L(j∣i)r_i(D)=\sum_{j=1}^k P(j|i)L(j|i) ri(D)=j=1∑kP(j∣i)L(j∣i)
但也不能够直接将属于每一类的错判损失求算术平均，因为实体来自每一类的概率本身就不同，这称为先验概率。

先验概率代表了出现类别的概率分布，这是在没有任何样本信息时能做出的关于类的直接判断。假设来自第iii类的先验概率是qiq_iqi，那么此时的错判平均损失，实际上是一种关于先验概率的加权平均。现在，我们可以定义判别法DDD的错判平均损失为
g(D)=∑i=1kqi∑j=1kP(j∣i)L(j∣i)=def∑i=1kqiri(D).g(D)=\sum_{i=1}^kq_i\sum_{j=1}^kP(j|i)L(j|i)\stackrel {\rm def}= \sum_{i=1}^kq_ir_i(D). g(D)=i=1∑kqij=1∑kP(j∣i)L(j∣i)=defi=1∑kqiri(D).
这样，贝叶斯判别准则就可以被视为这样的最优化问题：找到一个D∗D^*D∗，使得g(D∗)=min⁡Dg(D)g(D^*)=\min_Dg(D)g(D∗)=minDg(D)。

2.贝叶斯判别的解

如何找到使得错判平均最小的判别准则，就是贝叶斯判别的求解问题。现在，我们假设kkk个mmm维总体G1,⋯,GkG_1,\cdots,G_kG1,⋯,Gk的先验概率分别为q1,⋯,qkq_1,\cdots,q_kq1,⋯,qk，每个GiG_iGi的联合密度函数为fi(X)f_i(X)fi(X)，错判损失为L(j∣i)L(j|i)L(j∣i)。任何一种判别法DDD，都将样本空间Rm\R^mRm划分成kkk个（连通与否的）区域{D1,⋯,Dk}\{D_1,\cdots,D_k\}{D1,⋯,Dk}，这里DjD_jDj表示样本落在被判别到jjj类的区域。

据此，我们可以先给出错判概率为P(j∣i)P(j|i)P(j∣i)，它表示样品XXX本身来自密度函数fi(X)f_i(X)fi(X)，但落在区域DjD_jDj内：
P(j∣i;D)=∫Djfi(X)dX.P(j|i;D)=\int_{D_j}f_i(X){\rm d}X. P(j∣i;D)=∫Djfi(X)dX.
所以此时的错判平均损失是
g(D)=∑i=1kqi∑j=1kL(j∣i)∫Djfi(X)dX=∑j=1k∫Dj∑i=1kqiL(j∣i)fi(X)dX=d∑j=1k∫Djhj(X)dX.\begin{aligned} g(D)=& \sum_{i=1}^k q_i\sum_{j=1}^k L(j|i)\int_{D_j}f_i(X){\rm d}X \\ =&\sum_{j=1}^k \int_{D_j}\sum_{i=1}^k q_iL(j|i)f_i(X){\rm d}X \\ \stackrel {\rm d}=&\sum_{j=1}^k\int_{D_j} h_j(X){\rm d}X. \end{aligned} g(D)===di=1∑kqij=1∑kL(j∣i)∫Djfi(X)dXj=1∑k∫Dji=1∑kqiL(j∣i)fi(X)dXj=1∑k∫Djhj(X)dX.
这里定义
hj(X)=def∑i=1kqiL(j∣i)fi(X),h_j(X)\stackrel {\rm def}= \sum_{i=1}^k q_iL(j|i)f_i(X), hj(X)=defi=1∑kqiL(j∣i)fi(X),
它表示把样品XXX归到GjG_jGj类的平均损失，注意到hj(X)h_j(X)hj(X)与DDD无关，对hj(X)h_j(X)hj(X)求和，就得到了错判平均损失。对于贝叶斯判别的解D∗D^*D∗，要使得g(D∗)g(D^*)g(D∗)是所有DDD中最小的，所以
g(D∗)−g(D)=∑i=1k∫Di∗hi(X)dX−∑j=1k∫Djhj(X)dX=∑i=1k∑j=1k∫Di∗∩Dj[hi(X)−hj(X)]dX≤0.\begin{aligned} & g(D^*)-g(D) \\ =&\sum_{i=1}^k \int_{D_i^*}h_i(X){\rm d}X-\sum_{j=1}^k \int_{D_j}h_j(X){\rm d}X \\ =&\sum_{i=1}^k \sum_{j=1}^k \int_{D_i^*\cap D_j}[h_i(X)-h_j(X)]{\rm d}X \\ \le&0. \end{aligned} ==≤g(D∗)−g(D)i=1∑k∫Di∗hi(X)dX−j=1∑k∫Djhj(X)dXi=1∑kj=1∑k∫Di∗∩Dj[hi(X)−hj(X)]dX0.
由此，我们能够得到贝叶斯判别的解是：在所有hi(X)h_i(X)hi(X)中，如果hj(X)h_j(X)hj(X)最小，就将XXX判别为第jjj类，在这个判别法的条件下，能够让g(D∗)−g(D)≤0g(D^*)-g(D)\le 0g(D∗)−g(D)≤0恒成立。

特别当我们指定错判损失都相等的情况下，如果hi(X)<hj(X)h_i(X)<h_j(X)hi(X)<hj(X)即hi(X)−hj(X)<0h_i(X)-h_j(X)<0hi(X)−hj(X)<0，那么就有qjfj(X)<qifi(X)q_jf_j(X)<q_if_i(X)qjfj(X)<qifi(X)，所以如果在i,ji,ji,j类中将XXX判定为iii类，就应该让qifi(X)q_if_i(X)qifi(X)更大，所以错判损失都相等的情况下，贝叶斯判别的解是：在所有qifi(X)q_if_i(X)qifi(X)中，如果qjfj(X)q_jf_j(X)qjfj(X)最大，就将XXX判别为第jjj类。在此基础上，如果先验概率都相等，则在所有fi(X)f_i(X)fi(X)中，如果fj(X)f_j(X)fj(X)最大，就将XXX判别为第jjj类。

3.广义马氏距离

对于正态总体，在错判损失都相等的情况下，
qifi(X)=qi(2π)m/2∣Σ∣1/2exp⁡{−12(X−μ(i))′Σ−1(X−μ(i))},ln⁡qifi(X)=C+ln⁡qi−12ln⁡∣Σ∣−12(X−μ(i))′Σ−1(X−μ(i)).q_if_i(X)=\frac{q_i}{(2\pi)^{m/2}|\Sigma|^{1/2}}\exp\left\{-\frac12(X-\mu^{(i)})'\Sigma^{-1}(X-\mu^{(i)}) \right\}, \\ \ln q_if_i(X)=C+\ln q_i-\frac12\ln|\Sigma|-\frac12(X-\mu^{(i)})'\Sigma^{-1}(X-\mu^{(i)}). qifi(X)=(2π)m/2∣Σ∣1/2qiexp{−21(X−μ(i))′Σ−1(X−μ(i))},lnqifi(X)=C+lnqi−21ln∣Σ∣−21(X−μ(i))′Σ−1(X−μ(i)).
因此，我们定义样本XXX到总体GiG_iGi的广义马氏距离为
Di2(X)=di2(X)+ln⁡∣S∣−2ln⁡qi.D_i^2(X)=d^2_i(X)+\ln |S|-2\ln q_i. Di2(X)=di2(X)+ln∣S∣−2lnqi.
可以看到，当样本XXX到总体GiG_iGi的广义马氏距离最小的时候，它会被归类到GiG_iGi。因此，在每一类都是多元正态总体，且错判损失相等的情况下，用广义马氏距离替代马氏距离，贝叶斯判别的解与直接判别法是一样的。

回顾总结

贝叶斯判别法，是在定义了先验概率qiq_iqi与错判损失L(j∣i)L(j|i)L(j∣i)的情况下，使平均错判损失最小的判别准则。
在贝叶斯判别的条件下，决定样本XXX应该判别到某一类的，是某一类的平均错判损失，即
hj(X)=∑i=1kqiL(j∣i)fi(X).h_j(X)=\sum_{i=1}^k q_iL(j|i)f_i(X). hj(X)=i=1∑kqiL(j∣i)fi(X).
样本XXX被判别到平均错判损失最小的一类，即X∈Gj⇔hj(X)≤hi(X),∀iX\in G_j\Leftrightarrow h_j(X)\le h_i(X),\forall iX∈Gj⇔hj(X)≤hi(X),∀i。
如果L(j∣i)=1−δijL(j|i)=1-\delta_{ij}L(j∣i)=1−δij，也就是错判的损失为1，正判的损失为0，那么判别函数可以化简为
qifi(X).q_if_i(X). qifi(X).
样本XXX被判别到qifi(X)q_if_i(X)qifi(X)最大的一类，即X∈Gj⇔qjfj(X)≥qifi(X),∀iX\in G_j\Leftrightarrow q_jf_j(X)\ge q_if_i(X),\forall iX∈Gj⇔qjfj(X)≥qifi(X),∀i。
定义广义马氏距离为
Di2(X)=di2(X)+ln⁡∣S∣−2ln⁡∣qi∣,D_i^2(X)=d_i^2(X)+\ln |S|-2\ln |q_i|, Di2(X)=di2(X)+ln∣S∣−2ln∣qi∣,
对于错判损失为L(j∣i)=1−δijL(j|i)=1-\delta_{ij}L(j∣i)=1−δij的正态总体判别，基于广义马氏距离的直接判别法就是贝叶斯准则下的最优判别法。

【多元统计分析】14.贝叶斯判别法相关推荐

【多元统计分析】13.直接判别法
文章目录十三.直接判别法 1.马氏距离 2.直接判别法的使用回顾总结十三.直接判别法 1.马氏距离判别分析指的是将某个对象归类,即判别某个对象属于哪一类,在实际生活中,判别分析的适用范围十分宽 ...
贝叶斯判别法（SAS实现）
贝叶斯判别法常用于分类问题中代码: data ex; input g x1-x3 @@; cards; 1 76 99 5374 1 79.5 99 5359 1 78 99 5372 1 72.1 ...
R语言用WinBUGS 软件对学术能力测验建立层次（分层）贝叶斯模型
全文下载链接:http://tecdat.cn/?p=11974 R2WinBUGS软件包提供了从R调用WinBUGS的便捷功能.它自动以WinBUGS可读的格式写入数据和脚本,以进行批处理(自1.4 ...
贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据...
原文链接:http://tecdat.cn/?p=22702 贝叶斯回归分位数在最近的文献中受到广泛关注,本文实现了贝叶斯系数估计和回归分位数(RQ)中的变量选择,带有lasso和自适应lasso惩罚 ...
机器学习：贝叶斯分类器
一.贝叶斯网络 1.(补充)先验概率与后验概率先验概率:指根据以往经验和分析. 在实验或采样前就可以得到的概率后验概率:指某件事已经发生,想要计算这件事发生的原因是由某个因素引起的概率. 2.(补 ...
多元统计分析、混合效应模型、结构方程模型、极值统计学、贝叶斯网络、copula
生态环境视角下的多元统计分析 1.多元数据分析:概念.定义.及应用困惑; 2.生态环境数据多元统计方法及应用情景; 3.生态环境多元数据分析预处理; 时长:2小时24分钟结构方程模型(SEM)原理. ...
R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归
在这篇文章中,我将对多元线性回归做同样的事情.我将得出阻塞的Gibbs采样器所需的条件后验分布.然后我将对采样器进行编码并使用模拟数据对其进行测试. 一个贝叶斯模型假设我们有一个样本大小的科目.我 ...
贝叶斯多元Logistics回归理论基础
贝叶斯多元Logistic回归理论基础多元Logistic分布一元Logit模型多元Logistic分布 t分布近似多元分类数据的似然函数(t-近似) 后验计算第一步:用t分布近似的MCMC ...
多元统计分析最短距离法_(完整word版)多元统计分析模拟试题
多元统计分析模拟试题(两套:每套含填空.判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法.贝叶斯判别法.费歇判别法.逐步判别法. 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的 ...

【多元统计分析】14.贝叶斯判别法

文章目录