摘要

与聚类不同的是，判别分析中，已知样本分类的前提（历史分组信息），利用历史数据，将给定的新样品按照某种准则判给某类。在机器学习中，可以理解为有监督学习。

文章目录

摘要
目标
- 样品到总体的马氏距离
距离判别法
- 基本思想
Fisher判别法
- 主要思想
- 两总体Fisher判别
Bayes判别法
- 主要思想
- - 最大后验判别准则
  - 最小平均误判代价准则
练习

目标

寻找一种“分类规则”即判别函数，来描述或区别多个群体的差异。

样品到总体的马氏距离

设有一总体G，其均值为μ\muμ，其协方差为Σ=(δij)p×p\Sigma=(\delta_{ij})_{p\times p}Σ=(δij)p×p,样品x=(x1,x2,..,xp)Tx=(x_1,x_2,..,x_p)^Tx=(x1,x2,..,xp)T与G的马氏距离定义为
d2(x,G)=(x−μ)TΣ−1(x−μ)d^2(x,G)=(x-\mu)^T\Sigma^{-1}(x-\mu)d2(x,G)=(x−μ)TΣ−1(x−μ)

距离判别法

基本思想

新样品和哪个总体距离（通常使用马氏距离）近，就判给哪个总体。

假设有两个总体G1、G2,均值为μ1、μ2G_1、G_2,均值为\mu_1、\mu_2G1、G2,均值为μ1、μ2,新样品为x=(x1,x2,..,xp)Tx=(x_1,x_2,..,x_p)^Tx=(x1,x2,..,xp)T
{x∈G1,ifd(x,μ1)<d(x,μ2)x∈G2,ifd(x,μ1)≥d(x,μ2)\begin{cases} x\in G_1 &,if~~d(x,\mu_1)<d(x,\mu_2)\\ x \in G_2 &,if~~ d(x,\mu_1)\ge d(x,\mu_2) \end{cases}{x∈G1x∈G2,if d(x,μ1)<d(x,μ2),if d(x,μ1)≥d(x,μ2)

假设两个总体的协方差矩阵不同，分别为Σ1、Σ2\Sigma_1、\Sigma_2Σ1、Σ2
根据基本思想，我们来比较新样品距离那个总体更近
d2(x,μ2)−d2(x,μ1)=(x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ1−1(x−μ1)d^2(x,\mu_2)-d^2(x,\mu_1)\\=(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1) d2(x,μ2)−d2(x,μ1)=(x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ1−1(x−μ1)
W(x)=(x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ1−1(x−μ1)\\W(x)=(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1) W(x)=(x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ1−1(x−μ1)
假设两个总体具有相同的协方差矩阵
d2(x,μ2)−d2(x,μ1)=(x−μ2)TΣ−1(x−μ2)−(x−μ1)TΣ−1(x−μ1)=2(x−μ1+μ22)TΣ−1(μ1−μ2)d^2(x,\mu_2)-d^2(x,\mu_1) \\ \\ =(x-\mu_2)^T\Sigma^{-1}(x-\mu_2)-(x-\mu_1)^T\Sigma^{-1}(x-\mu_1) \\ \\ =2(x-\frac{\mu_1+\mu_2}{2})^T\Sigma^{-1}(\mu_1-\mu_2)\\ d2(x,μ2)−d2(x,μ1)=(x−μ2)TΣ−1(x−μ2)−(x−μ1)TΣ−1(x−μ1)=2(x−2μ1+μ2)TΣ−1(μ1−μ2)
令μˉ=μ1+μ22，a=Σ−1(μ1−μ2)，记\bar{\mu}=\frac{\mu_1+\mu_2}{2}，a=\Sigma^{-1}(\mu_1-\mu_2) ，记μˉ=2μ1+μ2，a=Σ−1(μ1−μ2)，记
W(x)=2(x−μ1+μ22)TΣ−1(μ1−μ2)\\W(x)=2(x-\frac{\mu_1+\mu_2}{2})^T\Sigma^{-1}(\mu_1-\mu_2) W(x)=2(x−2μ1+μ2)TΣ−1(μ1−μ2)

则，线性判别的判别准则为
{x∈G1,ifW(x)≥0x∈G2,ifW(x)<0\begin{cases} x\in G_1 &,if~~W(x)\ge 0\\ x \in G_2 &,if~~ W(x)< 0 \end{cases}{x∈G1x∈G2,if W(x)≥0,if W(x)<0

Fisher判别法

主要思想

将多维数据投影在一维直线上，是得同一类别中的数据在该直线上尽量靠拢，不同类别的数据尽可能分开。投影后，再利用上述得距离判别法来建立判别准则。下面介绍Fisher判别法的线性判别法。

两总体Fisher判别

如图所示，将两总体的点投影到该一维直线上。该一维直线表示为x1、x2x_1、x_2x1、x2的线性组合。即y=c1x1+c2x2=aTxvar(y)=var(aTx)=aTΣay=c_1x_1+c_2x_2=a^Tx\\var(y)=var(a^Tx)=a^T\Sigma ay=c1x1+c2x2=aTxvar(y)=var(aTx)=aTΣa

设总体G1、G2G_1、G_2G1、G2的均值分别为μ1、μ2\mu_1、\mu_2μ1、μ2,直线上总体一中心μ1y=aTμ1;μ2y=aTμ2μy=μ1y+μ2y2\mu_{1y}=a^T\mu_1;\\\mu_{2y}=a^T\mu_2 \\\mu_y=\frac{\mu_{1y}+\mu_{2y}}{2}μ1y=aTμ1;μ2y=aTμ2μy=2μ1y+μ2y

Q：μ1y、μ2y、μy\mu_{1y}、\mu_{2y}、\mu_yμ1y、μ2y、μy的关系
通过计算得到μ1y−μy<0\mu_{1y}-\mu_y<0μ1y−μy<0,μ2y−μy>0\mu_{2y}-\mu_y>0μ2y−μy>0可知，在直线上，μ1y在μy左侧，μ2y在μy右侧\mu_{1y}在\mu_y左侧，\mu_{2y}在\mu_y右侧μ1y在μy左侧，μ2y在μy右侧。

投影直线的选取会影响数据点的分类效果，我们需要寻找分类效果最好的投影直线，使得同类别的点尽量靠拢，不同类别点尽量分开。数学上表示为使如下比值越大越好(μ1y−μ2y)2var(y)=aT(μ1−μ2)2aTΣa\frac{(\mu_{1y}-\mu_{2y})^2}{var(y)}=\frac{a^T(\mu_1-\mu_2)^2}{a^T\Sigma a}var(y)(μ1y−μ2y)2=aTΣaaT(μ1−μ2)2
高等代数中存在定理，当a=cΣ−1(μ1−μ2)a=c\Sigma^{-1}(\mu_1-\mu_2)a=cΣ−1(μ1−μ2)时，aT(μ1−μ2)2aTΣa\frac{a^T(\mu_1-\mu_2)^2}{a^T\Sigma a}aTΣaaT(μ1−μ2)2达到最大，且最大值为(μ1−μ2)TΣ1−1(μ1−μ2)(\mu_1-\mu_2)^T\Sigma_1^{-1}(\mu_1-\mu_2)(μ1−μ2)TΣ1−1(μ1−μ2)。
c=1c=1c=1时，y=aTx=(μ1−μ2)TΣ−1xy=a^Tx=(\mu_1-\mu_2)^T\Sigma^{-1}xy=aTx=(μ1−μ2)TΣ−1x称为Fisher线性判别函数。

在投影直线上判断新样品属于哪个总体。如果新样品在该直线上的投影y位置在两总体均值的左侧，则判给总体1，在均值点右侧，则判给总体2。
数学上，表示为
{x∈G1,ify<μyx∈G2,ify≥μy\begin{cases} x\in G_1 &,if~~y <\mu_y\\ x \in G_2 &,if~~ y\ge \mu_y \end{cases}{x∈G1x∈G2,if y<μy,if y≥μy
其中，μy=(μ1−μ2)TΣ1−1(μ1−μ2)/2\mu_y=(\mu_1-\mu_2)^T\Sigma_1^{-1}(\mu_1-\mu_2)/2μy=(μ1−μ2)TΣ1−1(μ1−μ2)/2
W(x)=y−μy=(x−μ1+μ22)TΣ−1(μ1−μ2)W(x)=y-\mu_y=(x-\frac{\mu_1+\mu_2}{2})^T\Sigma^{-1}(\mu_1-\mu_2)W(x)=y−μy=(x−2μ1+μ2)TΣ−1(μ1−μ2)
{x∈G1,ifW(x)<0x∈G2,ifW(x)≥0\begin{cases} x\in G_1 &,if~~W(x)< 0\\ x \in G_2 &,if~~ W(x)\ge 0 \end{cases}{x∈G1x∈G2,if W(x)<0,if W(x)≥0

Bayes判别法

主要思想

是一种基于贝叶斯定理的概率判别法。Bayes判别首先假定对研究对象有一定的认识（先验概率，一般是处于某种经验，事先给出的概率），取得样本后，利用样本修正已有的先验概率分布，得到后验概率进行统计推断。判别准则分为两种：

最大后验判别准则

设有k个组，G1、G2、...、GkG_1、G_2、...、G_kG1、G2、...、Gk，且各总体的概率密度函数为fi(x)f_i(x)fi(x)，样品来自总体GiG_iGi的先验概率为Pi，∑i=0kPi=1P_i，\sum_{i=0}^kP_i=1Pi，∑i=0kPi=1，则x属于GiG_iGi的后验概率为：
P(Gi∣x)=Pifi(x)∑i=0kPifi(x)P(G_i|x)=\frac{P_if_i(x)}{\sum^k_{i=0}P_if_i(x)}P(Gi∣x)=∑i=0kPifi(x)Pifi(x)
判别规则为：
x∈Gi,whenP(Gi∣x)=maxPifi(x)∑i=0kPifi(x),1≤i≤kx\in G_i,~when~~P(G_i|x)=max{\frac{P_if_i(x)}{\sum^k_{i=0}P_if_i(x)}},1\le i\le kx∈Gi, when P(Gi∣x)=max∑i=0kPifi(x)Pifi(x),1≤i≤k

最小平均误判代价准则

现在规定Ω（x∈Ω）\Omega（x\in \Omega）Ω（x∈Ω）为样本空间,总体G1、G2G_1、G_2G1、G2的概率密度函数为f1(x),f2(x)f_1(x),f_2(x)f1(x),f2(x).
R1为样品x判入G1时x的所有可能取值，R2为样品x判入G2时x的所有可能取值R_1为样品x判入G_1时x的所有可能取值，R_2为样品x判入G_2时x的所有可能取值R1为样品x判入G1时x的所有可能取值，R2为样品x判入G2时x的所有可能取值，R1、R2是对Ω的分割R_1、R_2是对\Omega的分割R1、R2是对Ω的分割。
定义总错分率（TPM）：
P(x错分到G1)=P(x∈R1∣x∈G2)P(G2)=P2∫R1f2(x)dxP(x错分到G2)=P(x∈R2∣x∈G1)P(G1)=P1∫R2f1(x)dxP(x错分到G_1)=P(x\in R_1|x\in G_2)P(G_2)=P_2\int_{R_1}f_2(x)dx\\ \\ P(x错分到G_2)=P(x\in R_2|x\in G_1)P(G_1)=P_1\int_{R_2}f_1(x)dx P(x错分到G1)=P(x∈R1∣x∈G2)P(G2)=P2∫R1f2(x)dxP(x错分到G2)=P(x∈R2∣x∈G1)P(G1)=P1∫R2f1(x)dx
代价/损失：x错分到G1损失为l(1∣2)，x错分到G2损失为l(2∣1)x错分到G_1损失为l(1|2)，x错分到G_2损失为l(2|1)x错分到G1损失为l(1∣2)，x错分到G2损失为l(2∣1)
定义误判损失（ECM）
ECM(R1,R2)=l(1∣2)⋅P2⋅∫R1f2(x)dx+l(2∣1)⋅P1⋅∫R2f1(x)dx=P1⋅l(2∣1)+∫R1[l(1∣2)⋅P2⋅f2(x)−l(2∣1)⋅P1⋅f1(x)]dxECM(R_1,R_2)=l(1|2)·P_2·\int_{R_1}f_2(x)dx+l(2|1)·P_1·\int_{R_2}f_1(x)dx\\ =P_1·l(2|1)+\int_{R_1}[l(1|2)·P_2·f_2(x)-l(2|1)·P_1·f_1(x)]dxECM(R1,R2)=l(1∣2)⋅P2⋅∫R1f2(x)dx+l(2∣1)⋅P1⋅∫R2f1(x)dx=P1⋅l(2∣1)+∫R1[l(1∣2)⋅P2⋅f2(x)−l(2∣1)⋅P1⋅f1(x)]dx
要是ECM最小，则被积函数为负的区域为R1R_1R1,即
R1:{l(1∣2)⋅P2⋅f2(x)≤l(2∣1)⋅P1⋅f1(x)}R_1:\{l(1|2)·P_2·f_2(x)\le l(2|1)·P_1·f_1(x)\}R1:{l(1∣2)⋅P2⋅f2(x)≤l(2∣1)⋅P1⋅f1(x)}
判别准则为：
{x∈R1,iff1(x)f2(x)≥l(1∣2)⋅P2l(2∣1)⋅P1x∈R2,iff1(x)f2(x)<l(1∣2)⋅P2l(2∣1)⋅P1\begin{cases} x\in R_1 &,if~~\frac{f_1(x)}{f_2(x)}\ge\frac{l(1|2)·P_2}{ l(2|1)·P_1}\\ \\ x \in R_2 &,if~~ \frac{f_1(x)}{f_2(x)}\lt\frac{l(1|2)·P_2}{ l(2|1)·P_1} \end{cases}⎩⎪⎨⎪⎧x∈R1x∈R2,if f2(x)f1(x)≥l(2∣1)⋅P1l(1∣2)⋅P2,if f2(x)f1(x)<l(2∣1)⋅P1l(1∣2)⋅P2
实际应用中，

先验概率未知,一般假设先验概率都为0.5。
损失比值未知，一般令其等于1。
损失相等时，等价于k=2时的最大后验概率准则。
Bayes判别，需要分布已知，不要求具有相同的协方差矩阵。

练习

练习1：

练习2：

多元统计分析--判别（距离判别、Fisher判别、Bayes判别）相关推荐

多元统计分析——欧式距离和马氏距离
在一元的情形中,定义两个点和之间的距离: 两者作差的绝对值,我们称为欧式距离. 经过标准化的作差绝对值,我们称为统计距离,或者标准化过后的距离.其中,代表样本的标准差. 在多元的情形中,假设我们有两个 ...
贝叶斯判别matlab,Bayes判别matlab源程序
Bayes判别matlab源程序在分类判别中,bayes判别的确具有明显的统计优势,在我所做的应用中,与模糊,灰色,物元可拓相比,判别准确率一般都会高些,而BP神经网络由于调试麻烦,在调试过程中需要 ...
多元统计分析及R语言建模（第五版）——第6章判别分析课后习题
第6章判别分析文章会用到的数据请在这个网址下下载多元统计分析及R语言建模(第五版)数据练习题 1)考虑两个数据集x1 = [3 7 2 4 4 7],x2 = [6 9 5 7 4 8] (1) ...
数学建模笔记（十五）：多元统计分析及R语言建模（判别分析、聚类分析、主成分分析、因子分析，含数据代码注释，均可供运行）
文章目录一.多元数据的数学表达 1.多元分析资料的一般格式与矩阵化表示 2.数据特征(一元数据与多元数据的均值和方差) 二.R软件基本使用 1.向量创建(c函数) 2.行列合并(rbind,cbin ...
多元统计分析何晓群_多元统计分析第四章作业
关注公众号,更多资源分享回复关键词:多元统计分析即可获取更多详细其他章节答案 <多元统计分析>课后答案||何晓群版(第二章) <多元统计分析>第一章课后答案(何晓群编第五版 ...
多元统计分析最短距离法_(完整word版)多元统计分析模拟试题
多元统计分析模拟试题(两套:每套含填空.判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法.贝叶斯判别法.费歇判别法.逐步判别法. 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的 ...
【多元统计分析】13.直接判别法
文章目录十三.直接判别法 1.马氏距离 2.直接判别法的使用回顾总结十三.直接判别法 1.马氏距离判别分析指的是将某个对象归类,即判别某个对象属于哪一类,在实际生活中,判别分析的适用范围十分宽 ...
【多元统计分析】一、多元统计分析概述
〇.前情提要 b站看[厦门大学MOOC]多元统计分析,因为老师很好看. 参考: [厦门大学MOOC]多元统计分析 https://www.bilibili.com/video/BV1v7411E7PB ...
【多元统计分析】14.贝叶斯判别法
文章目录十四.贝叶斯判别法 1.贝叶斯判别的定义 2.贝叶斯判别的解 3.广义马氏距离回顾总结十四.贝叶斯判别法 1.贝叶斯判别的定义贝叶斯判别的定义,是找到一个错判平均损失最小的判别准则,这 ...
【应用多元统计分析】期末简答题高频考题
一.判别分析 1.判别分析的基本思想:设有n个样本,对每个样本的p项指标,已知每个样本属于k个类别中的某一类,找到一个最优性质判别函数,能把不同类别的样本点尽可能区别开,以最优的性质对p维空间构造一个 ...

多元统计分析--判别（距离判别、Fisher判别、Bayes判别）

摘要

文章目录

目标

样品到总体的马氏距离

距离判别法

基本思想

Fisher判别法

主要思想

两总体Fisher判别

Bayes判别法

主要思想

最大后验判别准则

最小平均误判代价准则

练习

多元统计分析--判别（距离判别、Fisher判别、Bayes判别）相关推荐

最新文章

热门文章