关于判别分析的学习-距离判别法

距离判别法

距离判别法的基本思想是依据样品x和总体G的距离来判断样品所属的总体。 所以很显然的是我们需要首先定义一个距离函数，来表示样本和总体的距离。

其实很容易首先去想到利用欧式距离来表示d2(x,G)=(x−μ)′(x−μ)d^2(x,G)=(x-\mu)'(x-\mu)d2(x,G)=(x−μ)′(x−μ)
μ\muμ是G的均值向量。

但其实利用欧式距离存在一定的缺点，它将样品的不同属性之间的区别同等看待，存在着量纲问题，如果样品的变量测量值相差悬殊时（例如对汽车进行分类时，单个样品最高速度和安全指数），就需要首先标准化，来消除计量单位对结果的影响。

所以我们这里可以考虑使用马氏（Mahalanobis）距离。d2(x,G)=(x−μ)′∑−1(x−μ)d^2(x,G)=(x-\mu)'\sum\nolimits^{-1}(x-\mu)d2(x,G)=(x−μ)′∑−1(x−μ)∑\sum∑是协方差矩阵，∑=(σij)m∗m\sum=(\sigma_{ij})_{m*m}∑=(σij)m∗m

它是一种有效计算未知样本集相似度的一种方法。马氏距离的结果是将数据投影到N(0,1)区间并求其欧式距离，与标准化欧氏距离有区别的是它认为各个维度之间不是独立分布的，所以马氏距离考虑到各种属性之间的联系。

两个总体的距离判别

假设有两个总体G₁和G₂，有一个新的样本X，判断它究竟属于哪个总体。判别原则是按照就近原则进行归类。判别规则如下
{X∈G1,如果d2(X,G1)<d2(X,G2)X∈G2,如果d2(X,G1)>d2(X,G2)待判，如果d2(X,G1)=d2(X,G2)\left \{\begin{array}{cc} X\in G_1, &如果d^2(X,G_1)<d^2(X,G_2)\\ X\in G_2, & 如果d^2(X,G_1)>d^2(X,G_2)\\ 待判，&如果d^2(X,G_1)=d^2(X,G_2) \end{array}\right.⎩⎨⎧X∈G1,X∈G2,待判，如果d2(X,G1)<d2(X,G2)如果d2(X,G1)>d2(X,G2)如果d2(X,G1)=d2(X,G2)
计算中两个总体的μ\muμ和∑\sum∑真实值均未知，要根据训练样本集计算它们的极大似然估计。
特别的，假设出现两个总体的协方差矩阵相等，记∑1=∑2=∑\sum\nolimits_1=\sum\nolimits_2=\sum∑1=∑2=∑,对于马氏距离可以简化（注：协方差矩阵为对称矩阵）
d2(X,G)=(X−μ)′∑−1(X−μ)=X′∑−1X−2[(∑−1μ)′X−12μ′∑−1μ]d^2(X,G)=(X-\mu)'\sum\nolimits^{-1}(X-\mu) =X'\sum\nolimits^{-1}X-2[(\sum\nolimits^{-1}\mu)'X-\frac{1}{2}\mu'\sum\nolimits^{-1}\mu]d2(X,G)=(X−μ)′∑−1(X−μ)=X′∑−1X−2[(∑−1μ)′X−21μ′∑−1μ]
所以
d2(X,G1)−d2(X,G2)=2(X−μ1+μ22)′∑−1(μ1−μ2)d^2(X,G_1)-d^2(X,G_2)=2(X-\frac{\mu_1+\mu_2}{2})'\sum\nolimits^{-1}(\mu_1-\mu_2)d2(X,G1)−d2(X,G2)=2(X−2μ1+μ2)′∑−1(μ1−μ2)
令μˉ=μ1+μ22，α=∑−1(μ1−μ2)\bar{\mu}=\frac{\mu_1+\mu_2}{2}，\alpha=\sum\nolimits^{-1}(\mu_1-\mu_2)μˉ=2μ1+μ2，α=∑−1(μ1−μ2)称为判别系数，从而线性判别函数简化为
W(X)=α′(X−μˉ)W(X)=\alpha'(X-\bar{\mu})W(X)=α′(X−μˉ)
所以前面的判别规则可以改为
{X∈G1,如果W(X)>0X∈G2,如果W(X)<0待判，如果W(X)=0\left \{\begin{array}{cc} X\in G_1, &如果W(X)>0\\ X\in G_2, & 如果W(X)<0\\ 待判，&如果W(X)=0 \end{array}\right.⎩⎨⎧X∈G1,X∈G2,待判，如果W(X)>0如果W(X)<0如果W(X)=0

多个总体的距离判别

多个总体任然遵循就近原则。设有k个总体，X是一个待判样本，它与总体的距离即为判别函数，
d2(X,Gi)=(X−μi)′∑−1(X−μi)=X′∑−1X−2X′∑−1μi+μi′∑−1μid^2(X,G_i)=(X-\mu_i)'\sum\nolimits^{-1}(X-\mu_i)=X'\sum\nolimits^{-1}X-2X'\sum\nolimits^{-1}\mu_i+\mu_i'\sum\nolimits^{-1}\mu_id2(X,Gi)=(X−μi)′∑−1(X−μi)=X′∑−1X−2X′∑−1μi+μi′∑−1μi
对应的判别规则为
Di={X:d2(X,Gi)=min⁡1≤j≤kd2(X,Gj)},i=1,2......,kD_i= \{ X:d^2(X,G_i)=\min_{1\leq j \leq k}d^2(X,G_j)\},i=1,2......,k Di={X:d2(X,Gi)=1≤j≤kmind2(X,Gj)},i=1,2......,k
若X落在区域D_i内，那么可以判断X∈GiX\in G_iX∈Gi。
与两类总体类似一样可以去考虑∑1=∑2=....∑k\sum_1=\sum_2=....\sum_k∑1=∑2=....∑k和∑i\sum_i∑i各不相同的情况。

R的实现

了解相关函数
mahalanobis(x,center,cov,inverted=FALSE,…)：计算马氏距离
x是样本数据的向量或者矩阵；
center是分布的均值
cov是分布的协方差矩阵，常使用样本值作为估计
inverted是逻辑值，若为FALSE，则cov应该包含协方差阵的逆。

WMDB包内wmd(TranX,TranG,Tweigh=NULL,TstX=NULL，var.equal=F)
可以实现加权马氏距离判别分析。
TranX是训练样品的矩阵或者数据框
TranG用于表示已知训练样本的分类（注：必须是一个因子向量）
Tweigh制定权重，是一个矩阵或者数据框,如果没有定义权重，将在主成分分析的基础上计算相应贡献度的百分比作为代替，当把所有的权重定义为等值时，就是传统的判别分析方法
TstX，待测数据的矩阵或者数据框，默认NULL为没有指定，可直接对训练样本进行判别分析
var.equal，指定总体是否用相等的协方差矩阵

例（随便编的数据）

因为数据是乱编的，结果比较迷，所以用来大概理解下过程就好

X1	X2	X3	类别
5	51	582	1
4	43	169	1
1	32	170	1
6	20	132	1
3	44	527	2
7	76	682	2
4	44	430	2
7	35	764	2
3	22	622	待测

>test <- read.csv("C:/Users/LENOVO/Desktop/test.csv", header=FALSE)
> mu<-colMeans(test)#对列求均值
> Sx=cov(test)#计算训练样本
> distance=mahalanobis(test,mu,Sx)
> options(digits = 2)#设置小数点格式
> library(WMDB)
> G=c(rep(1,4),rep(2,4))
> G=as.factor(G)
> wmd(test,G)1 2 3 4 5 6 7 8
blong 2 2 2 2 1 2 2 1
[1] "num of wrong judgement"
[1] 1 2 3 4 5 8
[1] "samples divided to"
[1] 2 2 2 2 1 1
[1] "samples actually belongs to"
[1] 1 1 1 1 2 2
Levels: 1 2
[1] "percent of right judgement"
[1] 0.25
> newdata<-c(3,22,622)
> wmd(test,G,TstX = newdata)