前言——距离判别不适合的一个例子

一、最大后验概率法

1.含义

2.【例5.3.1】

3.先验概率的赋值方法

4.皆为正态组的情形

（1）先验概率相等，协方差矩阵相等时

（2）仅先验概率相等时

（3）仅协方差矩阵相等时

5.【例5.3.2】

二、最小期望误判代价法

1.例子

2.两组的一般情形

（1）期望误判代价

（2）误判代价之比

（3）【例5.3.3】

（4）（5.3.13）式的一些特殊情形

（5）【例5.3.4】

3.两个正态组的情形

（1）协方差矩阵相等时

（2）协方差矩阵不相等时

（3）如何变换到接近正态性

4.多组的情形

（1）推导

（2）【注】

（3）【例5.3.5】

前言——距离判别不适合的一个例子

研究的指标是英语六级考试成绩（满分710分）。

$\pi_{1}$ （校研究生组）： $N_{1}=2000,\mu_{1}=500$

$\pi_{2}$ （校本科生组）： $N_{2}=8000,\mu_{2}=400$

研究生中 $x\geqslant 500$ 的有1000人，本科生组中 $x\geqslant 500$ 的有2000人。某学生 $x=500$ ，试该判别该生归属哪一组？

该例如采用距离判别法则显然不妥，应考虑利用如下的先验概率：

$p_{1}=\frac{2000}{10000}=0.8,p_{2}=\frac{8000}{10000}=0.2$

距离判别方法简单，结论明确，是很实用的方法，但该方法也有缺点：

该判别与各总体出现的机会大小（先验概率）完全无关
判别方法没有考虑错判造成的损失，这是不合理的

$Bayes$ 判别正是为解决这两方面问题而提出的判别方法。

$Bayes$ 的统计思想总是假定对所研究的对象已有一定的认识，常用先验概率分布来描述这种认识。然后我们抽取一个样本，用样本修正已有的认识（先验概率分布），得到后验概率分布。

各种统计推断都通过后验概率分布来进行，将贝叶斯思想用于判别分析就得到贝叶斯判别法。

一、最大后验概率法

1.含义

设有 $k$ 个组 $\pi_{1},\cdots,\pi_{k}$ ，且组 $\pi_{i}$ 的概率密度为 $f_{i}(x)$ ，样品 $x$ 来自组 $\pi_{i}$ 的先验概率为 $p_{i},i=1,2,\cdots,k$ ，满足 $p_{1}+\cdots+p_{k}=1$ 。则 $x$ 属于 $\pi_{i}$ 的后验概率为

$P(\pi_{i}|x)=\frac{p_{i}f_{i}(x)}{\sum_{j=1}^{k}p_{j}f_{j}(x)},i=1,2,\cdots,k$

最大后验概率法是采用如下的判别规则：

${\color{Red} x\epsilon \pi_{l},P(\pi_{l}|x)=max_{1\leqslant i\leqslant k}P(\pi_{i}|x)(5.3.2)}$

2.【例5.3.1】

3.先验概率的赋值方法

利用历史资料及经验进行估计，例如某地区成年人中得癌症的概率为 $p_{1}=0.001$ ，不患癌的概率为 $p_{2}=0.999$
利用训练样本中各类样品所占的比例，即 $p_{i}=\frac{n_{i}}{n},n=n_{1}+n_{2}+\cdots+n_{k}$ ，这时要求训练样本是随机抽样取得的，各类样品被抽到的机会大小就是先验概率
没有任何先验信息时，取等概率 $p_{1}=\cdots=p_{k}=\frac{1}{k}$

4.皆为正态组的情形

设 $\pi_{i}\sim N_{p}(\mu_{i},\Sigma_{i}),\Sigma_{i}>0,i=1,\cdots,k$ ，这时组 $\pi_{i}$ 的概率密度为 $f_{i}(x)=(2\pi)^{-\frac{p}{2}}\left | \Sigma_{i} \right |^{-\frac{1}{2}}exp\left [ -0.5d^2(x,\pi_{i}) \right ],d^2(x,\pi_{i})=(x-\mu_{i})^{'}\Sigma_{i}^{-1}(x-\mu_{i})$

此时，后验概率为：
${\color{Red} P(\pi_{i}|x)=}\frac{p_{i}f_{i}(x)}{\sum_{j=1}^{k}p_{i}f_{i}(x)}=\frac{p_{i}\left | \Sigma _{i} \right |^{-\frac{1}{2}}exp\left \{ -\frac{1}{2}d_{i}^2 \right \}}{\sum_{j=1}^{k}p_{j}\left | \Sigma _{j} \right |^{-\frac{1}{2}}exp\left \{ -\frac{1}{2}d_{j}^2 \right \}}=\frac{exp\left \{ -\frac{1}{2}\left [ d_{i}^2+ln\left | \Sigma _{i}\right |-2lnp_{i} \right ] \right \}}{\sum_{j=1}^{k} exp\left \{ -\frac{1}{2}\left [ d_{j}^2+ln\left | \Sigma _{j}\right | -2lnp_{j} \right ] \right \}}={\color{Red} \frac{exp\left [ -\frac{1}{2}D^2(x,\pi_{i}) \right ]}{\sum_{j=1}^{k}\left [ -\frac{1}{2}D^2(x,\pi_{j}) \right ]}},i=1,2,\cdots,k;D^2(x,\pi_{i})=d^2(x,\pi_{i})+g_{i}+h_{i}$

称 $D^2(x,\pi_{i})$ 为 $x$ 到 $\pi_{i}$ 的广义平方马氏距离，在正态性假定下，上述判别规则也可以等价地表达为：

${\color{Red} x\epsilon \pi_{l},D^2(x,\pi_{l})=min_{1\leqslant i\leqslant k}D^2(x,\pi_{i})}$

（1）先验概率相等，协方差矩阵相等时

当 $p_{1}=p_{2}=\cdots=p_{k},\Sigma_{1}=\cdots=\Sigma_{k}=\Sigma$ 时，

$P(\pi_{i}|x)=\frac{exp\left [ -\frac{1}{2}d_{i}^2 \right ]}{\sum_{j=1}^{k}exp\left [ -\frac{1}{2}d_{j}^2\right ]}$

（2）仅先验概率相等时

当 $p_{1}=\cdots=p_{k}=\frac{1}{k}$ 时，

$P(\pi_{i}|x)=\frac{exp\left \{ -\frac{1}{2}\left [ d_{i}^2 +ln\left | \Sigma_{i} \right |\right ] \right \}}{\sum_{j=1}^{k}exp\left \{ -\frac{1}{2}\left [ d_{j}^2 +ln\left | \Sigma_{j} \right |\right ] \right \}}$

（3）仅协方差矩阵相等时

当 $\Sigma_{1}=\cdots=\Sigma_{k}=\Sigma$ 时，

$P(\pi_{i}|x)=\frac{exp\left \{ -\frac{1}{2} \left [ d_{i}^2-2lnp_{i} \right ]\right \}}{\sum_{j=1}^{k}exp\left \{ -\frac{1}{2} \left [ d_{j}^2-2lnp_{j} \right ]\right \}}=\frac{exp\left \{ I_{i}^{'}x+c_{i}+lnp_{i} \right \}}{\sum_{j=1}^{k}exp\left \{ I_{j}^{'}x+c_{j}+lnp_{j} \right \}},I_{i}=\Sigma^{-1}\mu_{i},c_{i}=-\frac{1}{2}\mu_{i}^{'}\Sigma^{-1}\mu_{i},i=1,2,\cdots,k$

此时，判别规则等价于：

${\color{Red} x\epsilon \pi_{l},I_{l}^{'}x+c_{l}+lnp_{l}=max_{1\leqslant i\leqslant k}(I_{i}^{'}x+c_{i}+lnp_{i})}$

如果我们对 $x$ 来自哪一组的先验信息一无所知，则一般可取 $p_{1}=\cdots=p_{k}=\frac{1}{k}$ ，这时判别规则简化为（距离判别）：

${\color{Red} x\epsilon \pi_{l},I_{l}^{'}x+c_{l}=max_{1\leqslant i\leqslant k}(I_{i}^{'}x+c_{i})}$

实际应用中，以上各式中的 $\mu_{i},\Sigma_{i}$ 一般都是未知的，需要相应的样本估计值代替。

5.【例5.3.2】

二、最小期望误判代价法

1.例子

$\pi_{1}$ ：合格的药； $\pi_{2}$ ：不合格的药。

对于新样品， $P(\pi_{1}|x)=0.6,P(\pi_{2}|x)=0.4$ 。

该问题中，两种误判造成的损失一般是明显不同的，只是根据后验概率的大小进行判别是不太合适的。

2.两组的一般情形

（1）期望误判代价

设组 $\pi_{1}$ 和 $\pi_{2}$ 的概率密度函数分别为 $f_{1}(x),f_{2}(x)$ ，组 $\pi_{1}$ 和 $\pi_{2}$ 的先验概率分别为 $p_{1},p_{2}$ ， $p_{1}+p_{2}=1$ .。又设将来自 $\pi_{i}$ 的 $x$ 判为 $\pi_{l}$ 的代价为 $c(l|i),l,i=1,2$ 。代价矩阵表示为：

对于给定的判别规则，令 $R_{1}$ ={x:判别归属 $\pi_{1}$ } ， $R_{2}$ ={x:判别归属 $\pi_{2}$ }，显然

$R_{1}\cup R_{2}=\Omega ,R_{1}\cap R_{2}=\Phi$
$x\epsilon R_{1}\Leftrightarrow$ 判 $x\epsilon R_{1}$
$x\epsilon R_{2}\Leftrightarrow$ 判 $x\epsilon R_{2}$

将 $\pi_{1}$ 中的样品 $x$ 误判到 $\pi_{2}$ 的条件概率为

$P(2|1)=P(x\epsilon R_{2}|x\epsilon \pi_{1})=\int _{R_{2}}f_{1}(x)dx$

类似地，将 $\pi_{2}$ 中的样品 $x$ 误判到 $\pi_{1}$ 地条件概率为

$P(1|2)=P(x\epsilon R_{1}|x\epsilon \pi_{2})=\int _{R_{1}}f_{2}(x)dx$

期望误判代价（ $expected$ $cost$ $of$ $misclassification$ ，记为 $ECM$ ），可计算为：

最小期望误判代价法采用的是使 $ECM$ 达到最小的判别规则，即为：

（2）误判代价之比

最小 $ECM$ 规则需要三个比值：密度函数比、误判代价比和先验概率比。在这些比值中，误判代价比最富有实际意义，因为在许多应用中，直接确定误判代价有一定困难，但是确定误判代价比却相对容易地多。

【例1】 $\pi_{1}$ ：应该做手术； $\pi_{2}$ ：你应该做手术

【例2】 $\pi_{1}$ ：硕士毕业后应继续攻读博士； $\pi_{2}$ ：硕士毕业后直接找工作

（3）【例5.3.3】

（4）（5.3.13）式的一些特殊情形

$p_{1}=p_{2}=0.5$ ，式子简化如下。

实际应用中，如果先验概率难以给出，则它们通常被取成相等

$c(1|2)=c(2|1)$ 时，式子简化如下。

该式等价于（5.3.2）中k=2式，即为最大后验概率法。实践中，若误判代价比无法确定，则通常取比值为1。记

$c(1|2)=c(2|1)=c\Rightarrow ECM=c\left [ p_{1}P(2|1)+p_{2}P(1|2) \right ]$

总的误判概率=P（误判发生在组 $\pi_{1}$ 中）+P（误判发生在组 $\pi_{2}$ 中）= $p_{1}P(2|1)+p_{2}P(1|2)$

可见，此时的判别规则(5.3.15)将使总的误判概率（ $=\frac{ECM}{c}$ ）达到最小，从而此时的最小期望误判代价判别规则即为最小总误判概率判别规则。

$\frac{p_{1}}{p_{2}}=\frac{c(1|2)}{c(2|1)}$ （通常情况下是： $p_{1}=p_{2}=0.5;c(1|2)=c(2|1)$ ），式子简化如下。

这时，判别新样品 $x_{0}$ 的归属，只需比较在 $x_{0}$ 处的两个概率密度值 $f_{1}(x_{0}),f_{2}(x_{0})$ 的大小。作为特例，此时他自然也使总的误判概率达到最小。（极大似然法）

规则(5.3.17)可看成是 $c(2|1)p_{1}=c(1|2)p_{2}=b$ 时的判别规则(5.3.13)，从而它可使 $ECM=b\left [ P(2|1)+P(1|2) \right ]$ 达到最小，其中 $b$ 是一个不依赖于判别规则的常数，故判别规则(5.3.17)可使两个误判概率之和 $p(1|2)+P(2|1)$ 达到最小，或者说可使平均误判概率 $0.5p(1|2)+0.5P(2|1)$ 达到最小，这个平均误判概率也是当 $p_{1}=p_{2}=0.5$ 时的总误判概率。

（5）【例5.3.4】

3.两个正态组的情形

假定 $\pi_{i}\sim N_{p}(\mu_{i},\Sigma_{i}),\Sigma_{i}>0,i=1,2$ 。

（1）协方差矩阵相等时

当 $\Sigma_{1}=\Sigma_{2}=\Sigma$ 时，(5.3.13)式可具体写成

在 $p_{1}=p_{2},c(1|2)=c(2|1)$ 的条件下上式将退化为(5.2.3)式。

重要结论：在两组皆为正态组且协方差矩阵相等的情形下，距离判别(5.2.3)等价于不考虑先验概率和误判代价（ $p_{1}=p_{2},c(1|2)=c(2|1)$ ）时的贝叶斯判别（作为(5.3.17)的一个特例），此时它是最优的，即能使总的误判概率达到最小。

实践中，因未知参数需要用样本值替代，故实际所使用的判别规则(5.2.5)只是渐进最优的。

（2）协方差矩阵不相等时

$\Sigma _{1}\neq \Sigma _{2}$ 时，(5.3.13)式可写为：

$p_{1}=p_{2},c(1|2)=c(2|1)$ 条件下上式可化简为：

在两组均为正态组的情形下，判别规则(5.3.20)在使两个误判概率之和（或平均误判概率）达到最小的意义上是最优的。此时，它当然也就优于(5.2.10)式的距离判别。若进一步假定 $\left | \Sigma _{1} \right |=\left | \Sigma _{2} \right |$ ，则判别规则(5.3.20)将与(5.2.10)式一致。

基于二次函数的判别规则相比线性判别规则，其判别效果更依赖于多元正态性的假定。

实践中，为了达到较理想的判别效果，需要时可以考虑先将各组的非正态型数据变换成接近正态性的数据，然后再作判别分析。

（3）如何变换到接近正态性

计数 $y\rightarrow \sqrt{y}$

比例 $\hat{p}\rightarrow logit(\hat{p})=\frac{1}{2}log(\frac{\hat{p}}{1-\hat{p}})$

相关系数(费希尔) $r\rightarrow z(r)=\frac{1}{2}log(\frac{1+r}{1-r})$

一元Box-Cox变换： $x^{(\lambda)}=\left\{\begin{matrix} \frac{x^{\lambda}-1}{\lambda},\lambda\neq 0\\ lnx,\lambda=0 \end{matrix}\right.$ 。最大化

$l(\lambda)=-\frac{n}{2}ln\left [ \frac{1}{n}\sum_{j=1}^{n}(x_{j}^{(\lambda)}-\bar{x^{(\lambda)}}) ^2\right ]+(\lambda -1)\sum_{j=1}^{n}lnx_{j}$

得到适当的 $\lambda$ 。

多元Box-Cox变换：

（1）对每一个分量按上述一元方法进行变换：等价于使每个边缘分布接近正态，虽不能保证联合分布是正太的，但实际应用中往往可以达到足够好的效果

（2）令 $x_{j}^{(\lambda)}=(\frac{x_{j1}^{\lambda _{1}}-1}{\lambda_{1}},\cdots,\frac{x_{jp}^{\lambda _{p}}-1}{\lambda_{p}})^{'},j=1,\cdots,n$ ，求 $\lambda=(\lambda_{1},\cdots,\lambda_{p})^{'}$ 使得 $l(\lambda_{1},\cdots,\lambda_{p})=-\frac{n}{2}ln\left | S(\lambda) \right |+(\lambda_{1}-1)\sum_{j=1}^{n}lnx_{j1}+(\lambda_{2}-1)lnx_{j2}+\cdots+(\lambda_{p}-1)\sum_{j=1}^{n}lnx_{jp}$

最大，其中 $S(\lambda)$ 是由 $x_{j}^{\lambda}$ 得到的样本协方差矩阵：计算更困难，不一定能够得到比方法一明显好的结果。

4.多组的情形

（1）推导

已知 $f_{i}(x),p_{i},c(l|i),R_{l}$ ， $P(l|i)=P(x\epsilon R_{l}|x\epsilon \pi_{i})=\int _{R_{l}}f_{i}(x)dx$ 。

期望误判代价为：

使ECM达到最小的判别规则是

$x\epsilon \pi_{l},\sum_{j=1,j\neq l}^{k}p_{j}f_{j}(x)c(l|j)=min_{1\leqslant i\leqslant k}\sum_{j=1,j\neq i}^{k}p_{j}f_{j}(x)c(i|j)$

假定所有的误判代价都是相同的，不失一般性，可令

$c(l|i)=1,l\neq i;l,i=1,\cdots,k$

则此时 $ECM=\sum_{i=1}^{k}p_{i}\sum_{l=1}^{k}P(l|i)=1-\sum_{i=1}^{k}p_{i}P(i|i)$ 称为总的误判概率，故此时得最小期望误判代价也可称为最小总误判概率法，并且上式可简化为：

$x\epsilon \pi_{l},\sum_{j=1,j\neq l}^{k}p_{j}f_{j}(x)=min_{1\leqslant i\leqslant k}\sum_{j=1,j\neq i}^{k}p_{j}f_{j}(x)$

用 $\sum_{j=1}^{k}p_{j}f_{j}(x)$ 减去上面等式的两边，即有更简洁的形式：

$x\epsilon \pi_{l},p_{l}f_{l}(x)=max_{1\leqslant i\leqslant k}p_{i}f_{i}(x)$

它与(5.3.2)式是等价的。因此，此时的最小误判概率法等同于最大后验概率法，或者说，最大后验概率法可看成是所有误判代价均相同的最小期望误判代价法。

当 $p_{1}=\cdots=p_{k}=\frac{1}{k}$ 时，上式可进一步化简为：

$x\epsilon \pi_{l},f_{l}(x)=max_{1\leqslant i\leqslant k}f_{i}(x)$

该判别规则实际上也是一种极大似然法。

（2）【注】

令B={误判}， $A_{i}$ ={样品来自 $\pi_{i},i=1,\cdots,k$ }，则利用全概率公式得总的误判概率为：

$P(B)=\sum_{i=1}^{k}P(A_{i})P(B|A_{i})=\sum_{i=1}^{k}p_{i}\sum_{l=1.l\neq i}^{k}P(l|i)$

此外，总的正确判别概率为：

（3）【例5.3.5】

【应用多元统计分析】CH5 判别分析3——贝叶斯判别相关推荐

matlab最小错误率决策,利用MATLAB实现最小错误率贝叶斯判别
利用MATLAB实现最小错误率贝叶斯判别摘要:matlab软件平台为用户提供了强大的科学计算与可视化功能,具有简单.易用的用户环境,尤其适合矩阵数据的计算处理.根据matlab的特点,将其与模式识别 ...
浅谈贝叶斯判别（Bayes）
在现实世界中,由许多客观现象的发生,就每一次观察和测量来说,即使在基本条件保持不变的情况下也具有不确定性.只有在大量重复的观察下,其结果才能呈现出某种规律性,即对它们观察到的特征具有统计特性.特征值不 ...
贝叶斯判别matlab,Bayes判别matlab源程序
Bayes判别matlab源程序在分类判别中,bayes判别的确具有明显的统计优势,在我所做的应用中,与模糊,灰色,物元可拓相比,判别准确率一般都会高些,而BP神经网络由于调试麻烦,在调试过程中需要 ...
机器学习（3）高斯判别分析朴素贝叶斯分类器
判别模型与生成模型判别模型判别模型是对观测数据进行直接分类,常见的判别模型有逻辑回归和感知机算法等.此模型仅对数据进行分类,并不能具象化或者量化数据本身的分布状态,因此也无法根据分类生成可观测的图 ...
贝叶斯判别python_SPSS分析技术:判别分析
在数据处理中,有这样一种情况:现在已经有若干样本被正确地分类了,但不清楚分类的依据是什么.同时,未来还会有大量的未被分类的样本,需要按照上述规则判定这些样本的所属类别.为此,需要根据已被正确分类的样本 ...
从贝叶斯公式到贝叶斯判别准则
原来线性判别分析.平方判别分析.朴素贝叶斯这么简单直白. 前方将出现大量数学公式推导证明,为防止烦躁不适,先复习一下几个重要概念. 1.1一维高斯变量X~N(μ,),则概率密度函数 1.2多维高斯变量 ...
matlab贝叶斯判别后验概率,统计学习方法——朴素贝叶斯法、先验概率、后验概率(示例代码)...
朴素贝叶斯法,就是使用贝叶斯公式的学习方法,朴素就是它假设输入变量(向量)的各个分量之间是相互独立的.所以对于分量之间不独立的分布,如果使用它学习和预测效果就不会很好. 简化策略它是目标是通过训练数 ...
matlab贝叶斯判别后验概率,贝叶斯公式的直观理解(先验概率/后验概率)
博客转自:https://www.cnblogs.com/yemanxiaozu/p/7680761.html 前言以前在许学习贝叶斯方法的时候一直不得要领,什么先验概率,什么后验概率,完全是跟想象 ...
matlab贝叶斯判别后验概率,贝叶斯公式、先验概率、后验概率
先验概率: 在缺少某个前提下的变量概率,在机器学习中就是没有训练样本,在训练之前的初始概率:P(w) 后验概率: 在有了样本数据以后,对变量进行概率的修正,得到的概率就是后验概率,,例如g是样本,则后 ...
【多元统计分析】14.贝叶斯判别法
文章目录十四.贝叶斯判别法 1.贝叶斯判别的定义 2.贝叶斯判别的解 3.广义马氏距离回顾总结十四.贝叶斯判别法 1.贝叶斯判别的定义贝叶斯判别的定义,是找到一个错判平均损失最小的判别准则,这 ...

【应用多元统计分析】CH5 判别分析3——贝叶斯判别

前言——距离判别不适合的一个例子

一、最大后验概率法

1.含义

2.【例5.3.1】

3.先验概率的赋值方法

4.皆为正态组的情形

（1）先验概率相等，协方差矩阵相等时

（2）仅先验概率相等时

（3）仅协方差矩阵相等时

5.【例5.3.2】

二、最小期望误判代价法

1.例子

2.两组的一般情形

（1）期望误判代价

（2）误判代价之比

（3）【例5.3.3】

（4）（5.3.13）式的一些特殊情形

（5）【例5.3.4】

3.两个正态组的情形

（1）协方差矩阵相等时

（2）协方差矩阵不相等时

（3）如何变换到接近正态性

4.多组的情形

（1）推导

（2）【注】

（3）【例5.3.5】

【应用多元统计分析】CH5 判别分析3——贝叶斯判别相关推荐

最新文章

热门文章