文章目录

  • 十三、直接判别法
    • 1.马氏距离
    • 2.直接判别法的使用
    • 回顾总结

十三、直接判别法

1.马氏距离

判别分析指的是将某个对象归类,即判别某个对象属于哪一类,在实际生活中,判别分析的适用范围十分宽广,它不仅能够用于给某个对象归类,还能够用于预测未来的某一些情况。在多元统计分析中,可以将判别抽象为如下的模型:已知有kkk个mmm维总体G1,⋯,GkG_1,\cdots,G_kG1​,⋯,Gk​以及从每个类中抽取出若干样本,现有一个新的未归类或不知道来源于哪一类的样本x0=(x01,⋯,x0m)x_0=(x_{01},\cdots,x_{0m})x0​=(x01​,⋯,x0m​),需要将其归到某一个总体。有许多方法可以用来完成判别分析,本篇文章介绍直接判别法

直接判别法也叫距离判别法,其特点是直观,就是用某种度量来刻画样本与已知总体的“距离”,距离哪个总体最近就把样本归于哪一个类。但是要如何度量这种“距离”呢,最简单的是欧氏距离,即对比这个样本点和各个总体均值的欧氏距离,但这种方法忽略了总体的离散程度,因此,我们使用马(Mahalanobis)氏距离来定义样本与总体之间的距离。

马氏距离:设GGG为mmm元总体,其均值向量为μ=(μ1,⋯,μm)′\mu=(\mu_1,\cdots,\mu_m)'μ=(μ1​,⋯,μm​)′,协方差阵为Σ=(σij)m×m\Sigma=(\sigma_{ij})_{m\times m}Σ=(σij​)m×m​,则样本X=(x1,⋯,xm)′X=(x_1,\cdots ,x_m)'X=(x1​,⋯,xm​)′与总体GGG的马氏距离定义为
d2(X,G)=(X−μ)′Σ−1(X−μ).d^2(X,G)=(X-\mu)'\Sigma^{-1}(X-\mu). d2(X,G)=(X−μ)′Σ−1(X−μ).
当m=1m=1m=1时d2(X,G)=(x−μ)2/σ2d^2(X,G)=(x-\mu)^2/\sigma^2d2(X,G)=(x−μ)2/σ2,即样本与均值欧氏距离标准化后的平方。

不过,我们往往不知道GGG的总体均值、总体协方差等信息,所以一般会用样本均值、样本自协方差矩阵来替代。

定义了马氏距离后,我们就可以测量样本距离不同总体之间的距离,从而将样本归到距离最近的类上。假设有kkk个类Gi(i=1,⋯,k)G_i(i=1,\cdots,k)Gi​(i=1,⋯,k),从GiG_iGi​类中抽取的样本为X(t)(i)=(xt1(i),⋯,xtm(i))(t=1,⋯,ni)X_{(t)}^{(i)}=(x_{t1}^{(i)},\cdots,x_{tm}^{(i)})(t=1,\cdots,n_i)X(t)(i)​=(xt1(i)​,⋯,xtm(i)​)(t=1,⋯,ni​),第iii类的样本均值为Xˉ(i)\bar X^{(i)}Xˉ(i),组内离差阵为AiA_iAi​,组内协方差阵为Si=1ni−1AiS_i=\frac{1}{n_i-1}A_iSi​=ni​−11​Ai​;如果假设总体协方差阵是相等的,则定义合并样本协方差阵为
S=1n−k∑i=1kAi.S=\frac{1}{n-k}\sum_{i=1}^k A_i. S=n−k1​i=1∑k​Ai​.
接下来对几种具体的情况进行讨论。

2.直接判别法的使用

对于两总体的情况,我们一般会先对样本协方差阵进行假设检验H0:Σ1=Σ2H_0:\Sigma_1=\Sigma_2H0​:Σ1​=Σ2​,当H0H_0H0​成立和H0H_0H0​不成立时,处理的方式略有不同。

先讨论H0H_0H0​成立,Σ1=Σ2\Sigma_1=\Sigma_2Σ1​=Σ2​的情况,此时应当使用合并样本协方差阵替代总体协方差阵,即
S=1n−2(A1+A2).S=\frac1{n-2}(A_1+A_2). S=n−21​(A1​+A2​).
计算样本到每一组的马氏距离d2(X,Gi)=(X−Xˉ(i))′S−1(X−Xˉ(i))d^2(X,G_i)=(X-\bar X^{(i)})'S^{-1}(X-\bar X^{(i)})d2(X,Gi​)=(X−Xˉ(i))′S−1(X−Xˉ(i))。由于协方差阵相等,所以可以对马氏距离的计算公式进行化简:
d2(X,Gi)=(X−Xˉ(i))′S−1(X−Xˉ(i))=X′S−1X−(Xˉ(i))′S−1X−X′S−1Xˉ(i)+(Xˉ(i))′S−1Xˉ(i)=X′S−1X−2[(S−1Xˉ(i))′X−12(Xˉ(i))′S−1(Xˉ(i))]=X′S−1X−2Yi(X).\begin{aligned} d^2(X,G_i)=&(X-\bar X^{(i)})'S^{-1}(X-\bar X^{(i)}) \\ =&X'S^{-1}X-(\bar X^{(i)})'S^{-1}X-X'S^{-1}\bar X^{(i)}+(\bar X^{(i)})'S^{-1}\bar X^{(i)} \\ =& X'S^{-1}X-2\left[(S^{-1}\bar X^{(i)})'X-\frac12(\bar X^{(i)})'S^{-1}(\bar X^{(i)}) \right] \\ =& X'S^{-1}X-2Y_i(X). \end{aligned} d2(X,Gi​)====​(X−Xˉ(i))′S−1(X−Xˉ(i))X′S−1X−(Xˉ(i))′S−1X−X′S−1Xˉ(i)+(Xˉ(i))′S−1Xˉ(i)X′S−1X−2[(S−1Xˉ(i))′X−21​(Xˉ(i))′S−1(Xˉ(i))]X′S−1X−2Yi​(X).​
最终,样本对两组的马氏距离差异将只有Yi(X)Y_i(X)Yi​(X),且Yi(X)Y_i(X)Yi​(X)越大di2(X)d^2_i(X)di2​(X)越小,所以将Yi(X)Y_i(X)Yi​(X)称为线性判别函数,它是XXX的线性函数,称ai=S−1Xˉ(i)a_i=S^{-1}\bar X^{(i)}ai​=S−1Xˉ(i)为判别系数向量,ci=−12(Xˉ(i))′S−1Xˉ(i)c_i=-\frac12(\bar X^{(i)})'S^{-1}\bar X^{(i)}ci​=−21​(Xˉ(i))′S−1Xˉ(i)称为常数项,这样就有
Yi(X)=ai′X+ci.Y_i(X)=a_i'X+c_i. Yi​(X)=ai′​X+ci​.
如果Y1(X)>Y2(X)Y_1(X)> Y_2(X)Y1​(X)>Y2​(X),则XXX应当被归到G1G_1G1​,否则XXX应当被归到G2G_2G2​,这样,Y1(X)=Y2(X)Y_1(X)=Y_2(X)Y1​(X)=Y2​(X)就成为分离G1,G2G_1,G_2G1​,G2​的一个超面,记W(X)=Y1(X)−Y2(X)W(X)=Y_1(X)-Y_2(X)W(X)=Y1​(X)−Y2​(X),则
W(X)=Y1(X)−Y2(X)=[(S−1(Xˉ(1)−Xˉ(2))]′X−12(Xˉ(1))′S−1Xˉ(1)+12(Xˉ(2))′S−1Xˉ(2)=X′S−1(Xˉ(1)−Xˉ(2))−12(Xˉ(1))′S−1Xˉ(1)+12(Xˉ(1))′S−1Xˉ(2)−12(Xˉ(2))′S−1Xˉ(1)+12(Xˉ(2))′S−1Xˉ(2)=(X−12(Xˉ(1)+Xˉ(2)))′S−1(Xˉ(1)−Xˉ(2))=d(X−X∗)′S−1(Xˉ(1)−Xˉ(2)).\begin{aligned} W(X)=&Y_1(X)-Y_2(X) \\ =& [(S^{-1}(\bar X^{(1)}-\bar X^{(2)})]'X-\frac12(\bar X^{(1)})'S^{-1}\bar X^{(1)}+\frac12(\bar X^{(2)})'S^{-1}\bar X^{(2)} \\ =&X'S^{-1}(\bar X^{(1)}-\bar X^{(2)})-\frac12(\bar X^{(1)})'S^{-1}\bar X^{(1)}+\frac12(\bar X^{(1)})'S^{-1}\bar X^{(2)}\\&-\frac12(\bar X^{(2)})'S^{-1}\bar X^{(1)}+\frac12(\bar X^{(2)})'S^{-1}\bar X^{(2)} \\ =&\left(X-\frac12(\bar X^{(1)}+\bar X^{(2)}) \right)'S^{-1}(\bar X^{(1)}-\bar X^{(2)}) \\ \stackrel {\rm d}=&(X-X^*)'S^{-1}(\bar X^{(1)}-\bar X^{(2)}). \end{aligned} W(X)=====d​Y1​(X)−Y2​(X)[(S−1(Xˉ(1)−Xˉ(2))]′X−21​(Xˉ(1))′S−1Xˉ(1)+21​(Xˉ(2))′S−1Xˉ(2)X′S−1(Xˉ(1)−Xˉ(2))−21​(Xˉ(1))′S−1Xˉ(1)+21​(Xˉ(1))′S−1Xˉ(2)−21​(Xˉ(2))′S−1Xˉ(1)+21​(Xˉ(2))′S−1Xˉ(2)(X−21​(Xˉ(1)+Xˉ(2)))′S−1(Xˉ(1)−Xˉ(2))(X−X∗)′S−1(Xˉ(1)−Xˉ(2)).​
这里X∗=12(Xˉ(1)+Xˉ(2))X^*=\frac12(\bar X^{(1)}+\bar X^{(2)})X∗=21​(Xˉ(1)+Xˉ(2)),这样,由于W(X)W(X)W(X)关于XXX是一个线性函数,所以超面也是一个超平面,将Rm\R^mRm划分为两个部分。记a=S−1(Xˉ(1)−Xˉ(2))a=S^{-1}(\bar X^{(1)}-\bar X^{(2)})a=S−1(Xˉ(1)−Xˉ(2))为判别系数,W(X)W(X)W(X)也称为线性判别函数,则W(X)=a′(X−X∗)W(X)=a'(X-X^*)W(X)=a′(X−X∗),当W(X)>0W(X)>0W(X)>0时XXX被归到G1G_1G1​,W(X)≤0W(X)\le 0W(X)≤0时XXX被归到G2G_2G2​。

如果Σ1≠Σ2\Sigma_1\ne \Sigma_2Σ1​​=Σ2​,则以S1,S2S_1,S_2S1​,S2​分别替代Σ1,Σ2\Sigma_1,\Sigma_2Σ1​,Σ2​计算马氏距离,以马氏距离短的那个类作为XXX的类,方法和Σ1=Σ2\Sigma_1=\Sigma_2Σ1​=Σ2​时的一致。不过,此时的W(X)=d2(X,G1)−d2(X,G2)W(X)=d^2(X,G_1)-d^2(X,G_2)W(X)=d2(X,G1​)−d2(X,G2​)是一个关于XXX的二次函数,不再是超平面了。

需要注意的是,从判别系数a=S−1(Xˉ(1)−Xˉ(2))a=S^{-1}(\bar X^{(1)}-\bar X^{(2)})a=S−1(Xˉ(1)−Xˉ(2))的形式上看,当Xˉ(1)\bar X^{(1)}Xˉ(1)与Xˉ(2)\bar X^{(2)}Xˉ(2)相差不大时,距离判别法的效果不会很好。所以,在使用距离判别法时,我们可以先对H0:μ(1)=μ(2)H_0:\mu^{(1)}=\mu^{(2)}H0​:μ(1)=μ(2)作一次假设检验,如果ppp值很小,就可以认为μ(1)\mu^{(1)}μ(1)和μ(2)\mu^{(2)}μ(2)有显著差异,使用距离判别法。

对于多总体情况,同样是先根据总体之间的自协方差矩阵是否相同做一次假设检验,类似地用样本统计量作为总体参数的估计,计算马氏距离,选择马氏距离最短的那个作为样本的归类。

回顾总结

  1. 直接判别法是以样本离哪个类最近作为分类依据的判别方法,这里对距离的衡量是马氏距离,即
    d2(X,Gi)=(X−μ(i))′Σ−1(X−μ(i)).d^2(X,G_i)=(X-\mu^{(i)})'\Sigma^{-1}(X-\mu^{(i)}). d2(X,Gi​)=(X−μ(i))′Σ−1(X−μ(i)).
    当总体均值、方差未知时,使用样本均值、样本方差替代。

  2. 双总体直接判别法使用前,先检验Σ1=Σ2\Sigma_1=\Sigma_2Σ1​=Σ2​是否成立,然后检验μ(1)=μ(2)\mu^{(1)}=\mu^{(2)}μ(1)=μ(2)是否成立,如果μ(1)≠μ(2)\mu^{(1)}\ne \mu^{(2)}μ(1)​=μ(2)显著不成立才适合使用直接判别法。对于Σ1=Σ2\Sigma_1=\Sigma_2Σ1​=Σ2​的情形,使用合并样本协方差阵替代总体方差,否则使用二者各自的协方差阵替代。最终,将XXX归入马氏距离小的那个总体。

  3. 对于Σ1=Σ2\Sigma_1=\Sigma_2Σ1​=Σ2​的情况,引入线性判别函数为Yi(X)=ai′X+ciY_i(X)=a_i'X+c_iYi​(X)=ai′​X+ci​,这里
    ai=S−1Xˉ(i),ci=−12(Xˉ(i))′S−1Xˉ(i).a_i=S^{-1}\bar X_{(i)},\quad c_i=-\frac12(\bar X^{(i)})'S^{-1}\bar X^{(i)}. ai​=S−1Xˉ(i)​,ci​=−21​(Xˉ(i))′S−1Xˉ(i).
    将样本归入Yi(X)Y_i(X)Yi​(X)大的那个类。也可以用另一种形式的线性判别函数W(X)=a′(X−X∗)W(X)=a'(X-X^*)W(X)=a′(X−X∗),这里
    a=S−1(Xˉ(1)−Xˉ(2)),X∗=12(Xˉ(1)+Xˉ(2)).a=S^{-1}(\bar X^{(1)}-\bar X^{(2)}),\quad X^*=\frac12(\bar X^{(1)}+\bar X^{(2)}). a=S−1(Xˉ(1)−Xˉ(2)),X∗=21​(Xˉ(1)+Xˉ(2)).
    如果W(X)>0W(X)>0W(X)>0则归入1类,否则归入2类,这里W(X)=0W(X)=0W(X)=0是一个分割两类的超平面。

  4. 多总体直接判别法在使用前,也应检测H0:Σ1=Σ2=⋯=ΣkH_0:\Sigma_1=\Sigma_2=\cdots =\Sigma_kH0​:Σ1​=Σ2​=⋯=Σk​是否成立,如果成立,则使用合并协方差阵替代每个总体的方差。

【多元统计分析】13.直接判别法相关推荐

  1. 【多元统计分析】14.贝叶斯判别法

    文章目录 十四.贝叶斯判别法 1.贝叶斯判别的定义 2.贝叶斯判别的解 3.广义马氏距离 回顾总结 十四.贝叶斯判别法 1.贝叶斯判别的定义 贝叶斯判别的定义,是找到一个错判平均损失最小的判别准则,这 ...

  2. 多元统计分析最短距离法_(完整word版)多元统计分析模拟试题

    多元统计分析模拟试题(两套:每套含填空.判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法.贝叶斯判别法.费歇判别法.逐步 判别法. 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的 ...

  3. python 多元线性回归_多元统计分析之多元线性回归的R语言实现

    多元统计分析之多元线性回归的R语言实现 多元统计分析--multivariate statistical analysis 研究客观事物中多个变量之间相互依赖的统计规律性.或从数学上说, 如果个体的观 ...

  4. 判别分析(1)——距离判别法

    判别分析是多元统计分析的内容,其作用在分类确定的条件下,根据某一研究对象的各种特征的值来判断其归属于哪一类(即总体).实际上,这一类问题就是根据已有的样本数据与对应的类别,判断未知类别的数据属于哪一类 ...

  5. 多元统计分析-判别分析

    判别分析是用一种统计的方法根据已有的数据集去分析新的数据属于那一类的方法 适用于数据集较小的情况,因为数据量够大的话神经网络的准确率会比传统的判别分析高得多 距离判别法: 欧氏距离 简单的计算数据集中 ...

  6. R语言应用实战-基于R语言的判别分析:fisher判别法,距离判别法以及Bayers判别法(附源代码)

    前言 判别分析(Discriminat Analysis)是多变量统计分析中用于判别样本所属类型的一种统计分析法.它所要解决的问题是在一些已知研究对象用某种方法已经分成若干类的情况下确定新的样本属于已 ...

  7. 多元统计分析朱建平pdf_应用多元统计分析课后答案朱建平版[精心整理].doc

    应用多元统计分析课后答案朱建平版[精心整理] 第二章 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,的联合分布密度函数是一个p维的函数,而 ...

  8. 关于聚类分析、判别分析、主成分分析、因子分析等多元统计分析方法

    转载自:http://blog.csdn.net/nieson2012/article/details/25408421 主成分分析与因子分析的区别 1. 目的不同: 因子分析把诸多变量看成由对每一个 ...

  9. 【应用多元统计分析】-王学民Python主成分分析例题,特征值处理和可视化(2)

    title: "应用多元统计分析" subtitle: "书上题目" author: | OLSRR 由于字数限制,本文省去部分数据预览. 7.6 下表中给出的 ...

最新文章

  1. Spring Boot + Vue 如此强大?
  2. 从构建分布式秒杀系统聊聊限流特技
  3. windows如何卸载Oracle
  4. TP5 封装多业务的发送短信功能(包括国际短信)
  5. 2019年第十届蓝桥杯 C / C ++省赛 B 组真题题解
  6. synchronized 异常_由浅入深,Java 并发编程中的 Synchronized
  7. Taro+react开发(10)--多行选择
  8. 计算机专业毕业论文指导记录详细,毕业论文指导记录怎么写 了解一下
  9. python数字排序 循环_【python-leetcode448-循环排序】找到所有数组中消失的数字
  10. 树莓派智能小车python论文_基于树莓派循迹小车设计概述
  11. 页面上通过地址栏传值时出现乱码的两种解决方法
  12. 微博是一种倒退,而非革命
  13. SVM中对偶、凸优化与KTT条件问题
  14. 05.看板方法——在制品
  15. 点在多边形内算法,JS判断一个点是否在一个复杂多边形的内部
  16. python格式化输出(二)--字符串的格式化输出
  17. 【附源码】25个Python实战项目,超适合零基础练手,建议码住
  18. 移植opencv到嵌入式arm详细过程
  19. 基音周期估计-Yin
  20. mysql按月统计最近一年,半年数量,本月每一天

热门文章

  1. 闪验联通定制版SDK iOS集成文档
  2. qt实现汽车仪表盘设计linux,基于Qt汽车车速仪表盘设计.doc
  3. 第九章:小程序表单与医疗急救卡(上)
  4. Arcgis for android 加载谷歌、高德和天地图
  5. winserver2003服务器系统怎么连接存储器,怎样在Win 2003下使用USB便携存储器
  6. Science评论:深度学习助力高通量结构生物信息学
  7. 诺基亚6更新android8,新增人脸识别:诺基亚6 二代获 Android 8.1 更新推送
  8. PHP设计BBS,基于mysql的bbs设计二_PHP教程
  9. 在Linux(ubuntu10.10)系统中使用摄像头之USB摄像头
  10. Tabbar组件封装