支持向量机（二）——松弛变量处理异常点

支持向量机（一）——线性可分支持向量机
支持向量机（二）——松弛变量处理异常点
支持向量机（三）——利用核函数得到非线性分类器

2 松弛变量处理异常点

2.1 原始问题

在博文支持向量机（一）——线性可分支持向量机一文中，我们介绍了训练数据集线性可分的情况下，应用硬间隔最大化策略得到最优超平面。但是在实际情况中，训练集有很大可能存在噪声，使得某些样本偏离正常范围，称这些样本为异常点，如下图所示

这时如果应用硬间隔最大化，得到的最优超平面是图中的黑色实线；而如果不迁就左上角的异常点，得到的最优分类超平面为黑色虚线。可以看出实线是对训练集过拟合的结果，而虚线的泛化能力更好。所以完全正确分类的超平面不一定是最好的。

另外，当训练集本身线性不可分的时候，是不存在能将数据集完全正确分离的超平面的。

线性不可分数据集：
不存在超平面能将数据集完全正确划分，但是去除掉一小部异常点之后，剩下的大部分数据是线性可分数据。

对于以上两种情况，硬间隔最大策略不再受欢迎或者有效。此时，我们需要考虑软间隔最大化。软间隔最大化允许样本点落在间隔边界内部甚至允许误分类样本点存在（我们称这些点为超平面的异常点）。这是通过为每个样本点引入一个松弛变量 ξi≥0 \xi_i \geq 0实现的，只要样本点的函数间隔加上 ξi \xi_i之后大于等于1即可。由于 ξi \xi_i代表了样本点的偏离距离，需要对总偏移距离进行限制。于是引入了松弛变量的原优化问题现在为

minω,bs.t.12||ω||2+C∑i=1mξiyi(ωTxi+b)+ξi≥1ξi≥0(26)

\begin{align} \min_{\boldsymbol \omega, b} & \qquad \frac{1}{2}||\boldsymbol \omega||^2 +C \sum_{i=1}^m \xi_i \\\\ s.t. & \qquad {y_i(\boldsymbol \omega^T \boldsymbol x_i+b)} + \xi_i \geq {1} \\\\ & \qquad \xi_i \geq 0 \end{align} \tag {26}

C>0 C\gt 0是惩罚因子，C值大时，对超平面的异常点惩罚较重，也就是说不希望有异常点存在；C值小时，对超平面异常点的惩罚较小。当训练数据线性可分时，如果令 C=+∞ C=+\infty，那么优化问题(1)等价于线性可分支持向量机的优化问题。

优化问题(1)可以这样理解：从训练集中选择部分样本，称为剩余训练集，剩余训练集是线性可分的，其余样本点作为异常点。对剩余训练集进行硬间隔最大化，也就是说从函数间隔为1的超平面中选择几何间隔最大的，但同时还要考虑异常点对超平面的偏移程度最小。遍历所有可能的剩余训练集，得到最优的超平面。

2.2 对偶问题

通过极大极小拉格朗日函数，可以得到原始问题(26)的对偶问题。

引入拉格朗日乘子 αi≥0,μi≥0 \alpha_i \geq 0, \mu_i \geq 0，构建拉格朗日函数

L(ω,b,ξ,α,μ)=12||ω||2+C∑i=1mξi+∑i=1mαi(1−yi(ωTxi+b)−ξi)−∑i=1mμiξi(27)

L(\boldsymbol \omega, b, \boldsymbol \xi, \boldsymbol \alpha, \boldsymbol \mu)=\frac{1}{2}||\boldsymbol \omega||^2 + C \sum_{i=1}^m \xi_i + \sum_{i=1}^{m}\alpha_i (1-y_i(\boldsymbol \omega^T \boldsymbol x_i+b) - \xi_i ) - \sum_{i=1}^m \mu_i \xi_i \tag {27}

原始问题的对偶问题为：

maxα,μminω,b,ξL(ω,b,ξ,α,μ)

\max_{ \boldsymbol \alpha, \boldsymbol \mu}\min_{\boldsymbol \omega, b, \boldsymbol \xi} L(\boldsymbol \omega, b, \boldsymbol \xi, \boldsymbol \alpha, \boldsymbol \mu)

为了求对偶问题，首先需要求极小化问题 minω,b,ξL(ω,b,ξ,α,μ) \min_{\boldsymbol \omega, b, \boldsymbol \xi} L(\boldsymbol \omega, b, \boldsymbol \xi, \boldsymbol \alpha, \boldsymbol \mu)。令

∇ωL=ω−∑i=1mαiyixi=0(28)

\nabla_\boldsymbol \omega L = \boldsymbol \omega - \sum_{i=1}^m\alpha_i y_i \boldsymbol x_i=0 \tag {28}

∇bL=−∑i=1mαiyi=0(29)

\nabla_b L = -\sum_{i=1}^m\alpha_i y_i =0 \tag{29}

∇ξiL=C−αi−μi=0(30)

\nabla_{\xi_i}L = C-\alpha_i-\mu_i=0 \tag{30}

得到：

ω=∑i=1mαiyixi(31)

\boldsymbol \omega =\sum_{i=1}^m\alpha_i y_i \boldsymbol x_i \tag{31}

∑i=1mαiyi=0(32)

\sum_{i=1}^m\alpha_i y_i =0 \tag{32}

C−αi−μi=0(33)

C-\alpha_i-\mu_i=0 \tag{33}

代入到L中，得到

minω,b,ξL(ω,b,ξ,α,μ)=12⎛⎝∑i=1mαiyixTi∑j=1mαjyjxj⎞⎠+∑i=1mαi−∑i=1mαiyi⎛⎝∑j=1mαjyjxTj⎞⎠xi−∑i=1mαiyib=12⎛⎝∑i=1m∑j=1mαiαjyiyjxTixj⎞⎠+∑i=1mαi−∑i=1m∑j=1mαiαjyiyjxTixj=−12∑i=1m∑j=1mαiαjyiyjxTixj+∑i=1mαi(34)

\begin{align} \min_{\boldsymbol \omega, b, \boldsymbol \xi} L(\boldsymbol \omega, b, \boldsymbol \xi, \boldsymbol \alpha, \boldsymbol \mu)&=\frac{1}{2}\left( \sum_{i=1}^m\alpha_i y_i \boldsymbol x_i^T \sum_{j=1}^m\alpha_j y_j \boldsymbol x_j \right) + \sum_{i=1}^{m}\alpha_i - \sum_{i=1}^m \alpha_i y_i \left( \sum_{j=1}^m\alpha_j y_j \boldsymbol x_j ^T \right ) \boldsymbol x_i - \sum_{i=1}^m \alpha_i y_i b \\\\ &=\frac{1}{2}\left( \sum_{i=1}^m\sum_{j=1}^m\alpha_i \alpha_j y_i y_j \boldsymbol x_i^T \boldsymbol x_j \right) + \sum_{i=1}^{m}\alpha_i - \sum_{i=1}^m\sum_{j=1}^m \alpha_i\alpha_j y_i y_j \boldsymbol x_i ^T \boldsymbol x_j \\\\ &= - \frac{1}{2} \sum_{i=1}^m\sum_{j=1}^m\alpha_i \alpha_j y_i y_j \boldsymbol x_i^T \boldsymbol x_j + \sum_{i=1}^{m}\alpha_i \end{align} \tag{34}

然后再对 minω,b,ξL(ω,b,ξ,α,μ) \min_{\boldsymbol \omega, b, \boldsymbol \xi} L(\boldsymbol \omega, b, \boldsymbol \xi, \boldsymbol \alpha, \boldsymbol \mu) 求极大：

maxα,μs.t.−12∑i=1m∑j=1mαiαjyiyjxTixj+∑i=1mαi∑i=1mαiyi=0C−αi−μi=0αi≥0μi≥0(35)(36)(37)

\begin{align} \max_{ \boldsymbol \alpha, \boldsymbol \mu} &\qquad - \frac{1}{2} \sum_{i=1}^m\sum_{j=1}^m\alpha_i \alpha_j y_i y_j \boldsymbol x_i^T \boldsymbol x_j + \sum_{i=1}^{m}\alpha_i \\\\ s.t. & \qquad \sum_{i=1}^m\alpha_i y_i =0 \\\\ & \qquad C-\alpha_i-\mu_i=0 \tag{35}\\\\ & \qquad \alpha_i \geq 0 \tag{36} \\\\ & \qquad \mu_i \geq 0 \tag{37} \\\\ \end{align}

约束条件(35)(36)(37)等价于

0≤αi≤C

0 \leq \alpha_i \leq C

μi≥0

\mu_i \geq 0

重写上面的优化问题：

minαs.t.12∑i=1m∑j=1mαiαjyiyjxTixj−∑i=1mαi∑i=1mαiyi=00≤αi≤C(38)

\begin{align} \min_{ \boldsymbol \alpha} &\qquad \frac{1}{2} \sum_{i=1}^m\sum_{j=1}^m\alpha_i \alpha_j y_i y_j \boldsymbol x_i^T \boldsymbol x_j - \sum_{i=1}^{m}\alpha_i \\\\ s.t. & \qquad \sum_{i=1}^m\alpha_i y_i =0 \\\\ & \qquad 0 \leq \alpha_i \leq C\\\\ \\\\ \end{align} \tag{38}

优化问题(38)是原始问题(26)的对偶问题，两个优化问题的最优解存在，并且满足KKT条件：

∇ωL(ω∗,b∗,ξ∗,α∗,μ∗)=ω∗−∑i=1mα∗iyixi=0(39)

{\nabla_\boldsymbol \omega L(\boldsymbol \omega^*, b^*, \boldsymbol \xi^*, \boldsymbol \alpha^*, \boldsymbol \mu^*)}=\boldsymbol \omega^* -\sum_{i=1}^m\alpha_i^* y_i \boldsymbol x_i=0 \tag{39}

∇bL(ω∗,b∗,ξ∗,α∗,μ∗)=−∑i=1mα∗iyi=0(40)

{\nabla_b L(\boldsymbol \omega^*, b^*, \boldsymbol \xi^*, \boldsymbol \alpha^*, \boldsymbol \mu^*)}=-\sum_{i=1}^m\alpha_i^* y_i =0 \tag{40}

∇ξiL(ω∗,b∗,ξ∗,α∗,μ∗)=C−α∗i−μ∗i=0(41)

{\nabla_{\xi_i} L(\boldsymbol \omega^*, b^*, \boldsymbol \xi^*, \boldsymbol \alpha^*, \boldsymbol \mu^*)}= C-\alpha_i^*-\mu_i^*=0 \tag{41}

α∗i(1−yi(ω∗Txi+b∗)−ξ∗i)=0(42)

\alpha_i^* (1-y_i({\boldsymbol \omega^*}^T \boldsymbol x_i+b^*) - \xi_i^*) = 0 \tag{42}

1−yi(ω∗Txi+b∗)−ξ∗i≤0(43)

1-y_i({\boldsymbol \omega^*}^T \boldsymbol x_i+b^*) - \xi_i^*\leq 0 \tag{43}

α∗i≥0,i=1,2,⋯,m(44)

\alpha_i ^*\geq 0, i=1, 2, \cdots, m \tag{44}

μ∗iξ∗i=0(45)

\mu_i^*\xi_i^* = 0 \tag{45}

μ∗i≥0(46)

\mu_i^* \geq 0 \tag{46}

ξ∗i≥0(47)

\xi_i^* \geq 0 \tag{47}

求出对偶问题(38)的最优解 α∗,μ∗ \boldsymbol \alpha^*, \boldsymbol \mu^*后，由公式(39)可以得出原始问题的最优解 ω∗ \boldsymbol \omega^*：

ω∗=∑i=1mα∗iyixi(48)

\boldsymbol \omega^* = \sum_{i=1}^m\alpha_i^* y_i \boldsymbol x_i \tag{48}

至于 b∗ b^*，当 0<α∗j<C 0 \lt \alpha_j^* \lt C时，由公式(41)知道 μ∗j>0 \mu_j^* \gt 0，于是根据(45)知道

ξ∗j=0

\xi_j^*=0，而由公式(42)可知

1−yj(ω∗Txj+b∗)−ξ∗j=0

1-y_j({\boldsymbol \omega^*}^T \boldsymbol x_j+b^*) - \xi_j^* = 0

于是

1−yj(ω∗Txj+b∗)=0

1-y_j({\boldsymbol \omega^*}^T \boldsymbol x_j+b^*) = 0

于是

b∗=y∗j−ω∗Txj=y∗j−∑i=1mα∗iyi(xTixj)(49)

b^* = y_j^* - {\boldsymbol \omega^*}^T \boldsymbol x_j=y_j^* - \sum_{i=1}^m\alpha_i^* y_i ( \boldsymbol x_i^T \boldsymbol x_j) \tag {49}

于是得到最优超平面

ω∗x+b∗=0

\boldsymbol \omega^* \boldsymbol x + b^* = 0

2.3 支持向量

由公式(48)可知， ω∗ \boldsymbol \omega^* 和所有 α∗i>0 \alpha_i^* > 0 有关，对应的实例称为支持向量。软间隔最大化的支持向量包含间隔边界上的实例、间隔边界内部的实例以及误分类实例。

支持向量包含：

当 0<α∗i<C 0 时，由公式(41)知道 μ∗I>0 \mu_I^* \gt 0，再由公式(45)知道 ξ∗i=0 \xi_i^* = 0，于是由(42)知道

1−yj(ω∗Txj+b∗)=0.

1-y_j({\boldsymbol \omega^*}^T \boldsymbol x_j+b^*) = 0.

所以当 0<α∗i<C 0 时，对应的支持向量位于间隔边界上。

当 α∗i=C \alpha_i^* =C时，有 μ∗i=0 \mu_i^*=0，对应的 ξ∗i \xi_i^*可取的值就比较多了：
- ξ∗i=0 \xi_i^* = 0时，有
  
  yj(ω∗Txj+b∗)=1，
  
  y_j({\boldsymbol \omega^*}^T \boldsymbol x_j+b^*) =1，
  意味着分类正确，对应的支持向量位于间隔边界上；
- 0<ξ∗i<1 0 \lt \xi_i^* \lt 1时，有
  
  0<yj(ω∗Txj+b∗)<1，
  
  0
  意味着分类正确，对应的支持向量位于间隔边界内部；
- ξ∗i=1 \xi_i^* =1时，有
  
  yj(ω∗Txj+b∗)=0，
  
  y_j({\boldsymbol \omega^*}^T \boldsymbol x_j+b^*) =0，
  意味着对应的支持向量位于超平面上；
- ξ∗i>1 \xi_i^* >1时，有
  
  yj(ω∗Txj+b∗)<0，
  
  y_j({\boldsymbol \omega^*}^T \boldsymbol x_j+b^*)
  意味着对应的支持向量被误分类。