正态分布下贝叶斯决策的特例（一）

前导知识：【正态分布下贝叶斯决策的引入】
现讨论如下情况：Σi=σ2I\Sigma_i=\sigma^2 IΣi=σ2I，即：各类协方差矩阵相等且为对角阵（类内各特征间相互独立）。

1. 先验概率P(wi)P(w_i)P(wi)与P(wj)P(w_j)P(wj)不相等

此时各类的协方差矩阵为：
Σi=[σ2...0.........0...σ2]d×d(1)\Sigma_i = \left[ \begin{array}{cc} \sigma^2 & ... & 0 \\ ... & ... & ... \\ 0 & ... & \sigma^2 \end{array} \right ]_{d \times d} \tag 1 Σi=⎣⎡σ2...0.........0...σ2⎦⎤d×d(1)
从几何上来看，相当于各类样本落入以μi\mu_iμi为中心的同样大小的一些超球体内。由于：
∣Σi∣=σ2d(2)|\Sigma_i|=\sigma^{2d} \tag 2 ∣Σi∣=σ2d(2)
Σi−1=1σ2I(3)\Sigma_i^{-1}=\frac{1}{\sigma^2} I \tag 3 Σi−1=σ21I(3)
将式(2)(2)(2)，(3)(3)(3)代入判别函数中：
gi(x)=−12σ2(x−μi)TΣi−1(x−μi)+ln⁡P(wi)+−d2ln⁡2π−12ln⁡σ2d(4)g_i(x)=-\frac{1}{2\sigma^2}(x-\mu_i)^T\Sigma_i^{-1}(x-\mu_i)+\ln P(w_i) + -\frac{d}{2}\ln 2\pi-\frac{1}{2} \ln\sigma^{2d} \tag 4 gi(x)=−2σ21(x−μi)TΣi−1(x−μi)+lnP(wi)+−2dln2π−21lnσ2d(4)
由于(4)(4)(4)中，第3，4项与iii无关联，故可简化为：
gi(x)=−12σ2(x−μi)TΣi−1(x−μi)+ln⁡P(wi)(5)g_i(x)=-\frac{1}{2\sigma^2}(x-\mu_i)^T\Sigma_i^{-1}(x-\mu_i)+\ln P(w_i) \tag 5 gi(x)=−2σ21(x−μi)TΣi−1(x−μi)+lnP(wi)(5)
(5)(5)(5)中：
(x−μi)T(x−μi)=∣∣x−μi∣∣2=∑j=1d(xj−μij)2,i=1,...,c(6)(x-\mu_i)^T(x-\mu_i)=||x-\mu_i||^2=\sum_{j=1}^{d} (x_j-\mu_{ij})^2,i=1,...,c \tag 6 (x−μi)T(x−μi)=∣∣x−μi∣∣2=j=1∑d(xj−μij)2,i=1,...,c(6)
为由xxx到类wiw_iwi的均值向量μi\mu_iμi的欧氏距离的平方。

2. P(wi)=P(wj)P(w_i)=P(w_j)P(wi)=P(wj)时的情况（最小距离分类器）

如ccc类的先验概率P(wi),i=1,...,cP(w_i),i=1,...,cP(wi),i=1,...,c都相等，则可以忽略式(5)(5)(5)中的ln⁡(P(wi)\ln(P(w_i)ln(P(wi)项。
在此背景下，若要对样本xxx进行分类，只要计算xxx到各类的均值向量μi\mu_iμi的欧式距离平方∣∣x−μi∣∣2||x-\mu_i||^2∣∣x−μi∣∣2，然后把xxx归于具有mini=1,...,c∣∣x−μi∣∣2min_{i=1,...,c} \ ||x-\mu_i||^2mini=1,...,c ∣∣x−μi∣∣2的类。这种分类即称为最小距离分类器。
(5)(5)(5)是xxx的二次函数，但是xTxx^TxxTx与iii无关，故可以忽略，则判别函数为：
gi(x)=−12σ2(−2μiTx+μiTμi)+ln⁡P(wi)=wiTx+wi0(7)g_i(x)=-\frac{1}{2\sigma^2} (-2\mu_i^Tx+\mu_i^T\mu_i)+\ln P(w_i) = w_i^Tx + w_{i0} \tag 7 gi(x)=−2σ21(−2μiTx+μiTμi)+lnP(wi)=wiTx+wi0(7)
其中：
wi=1σ2μi(8)w_i = \frac{1}{\sigma^2} \mu_i \tag 8 wi=σ21μi(8)
wi0=−12σ2μiTμi+ln⁡P(wi)(9)w_{i0}=-\frac{1}{2\sigma^2} \mu_i^T\mu_i + \ln P(w_i) \tag 9 wi0=−2σ21μiTμi+lnP(wi)(9)
决策规则：
对某个待分类的xxx，分别计算gi(x),i=1,...,cg_i(x),i=1,...,cgi(x),i=1,...,c。若：
gk(x)=maxigi(x)(10)g_k(x)=max_{i} \ g_i(x) \tag {10} gk(x)=maxi gi(x)(10)
则决策x∈wkx \in w_kx∈wk。
由(7)(7)(7)式可以看出，判别函数gi(x)g_i(x)gi(x)是xxx的线性函数。线性分类器的决策面是由线性方程：
gi(x)−gj(x)=0g_i(x)-g_j(x)=0 gi(x)−gj(x)=0
所确定的一个超平面（如果决策域R1R_1R1与R2R_2R2相毗邻）。
在Σi=σ2I\Sigma_i=\sigma^2 IΣi=σ2I的特殊情况下，这个方程可改写为：
wT(x−x0)=0(11)w^T(x-x_0)=0 \tag {11} wT(x−x0)=0(11)
其中：
w=μi−μjx0=12(μi+μj)−σ2∣∣μi−μj∣∣2ln⁡P(wi)P(wj)(μi−μj)(12)w=\mu_i-\mu_j \\ x_0=\frac{1}{2}(\mu_i+\mu_j)-\frac{\sigma^2}{||\mu_i-\mu_j||^2} \ln \frac{P(w_i)}{P(w_j)}(\mu_i-\mu_j) \tag {12} w=μi−μjx0=21(μi+μj)−∣∣μi−μj∣∣2σ2lnP(wj)P(wi)(μi−μj)(12)
满足(11)(11)(11)式的xxx轨迹构成了wiw_iwi与wjw_jwj类间的决策面，它是一个超平面。当P(wi)=P(wj)P(w_i)=P(w_j)P(wi)=P(wj)时，超平面通过μi\mu_iμi与μj\mu_jμj连线中点并与连线正交。

所以，决策面与先验概率相等时的决策面平行，只是向先验概率偏小的方向偏移，即先验概率大的一类要占据更大的决策空间。