＜机器学习＞支持向量机(SVM)理论

1、概念

支持向量机（support vector machines，SVM）是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器；同时，支持向量机包括的核技巧使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划（convex quadratic programming）的问题，也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。

假设给定一个特征空间上的训练数据集
T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}T={(x1,y1),(x2,y2),...,(xN,yN)}
其中， xi∈χ=Rnx_i\in\chi=R^nxi∈χ=Rn，yi∈Υ={+1,−1}y_i\in\Upsilon=\{+1,-1\}yi∈Υ={+1,−1}，i=1,2,...Ni=1,2,...Ni=1,2,...N，xix_ixi为第 iii个特征向量，也称为实例，yiy_iyi为xix_ixi的类标记，当 yi=+1y_i=+1yi=+1时，称xix_ixi为正例；当 yi＝−1y_i＝-1yi＝−1时，称xix_ixi为负例，(xi，yi)(x_i，y_i)(xi，yi)称为样本点。

2、线性可分支持向量机

给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为
ω∗⋅x+b∗=0\omega^*\cdot x+b^*=0ω∗⋅x+b∗=0
以及相应的分类决策函数
f(x)=sign(ω∗⋅x+b∗)f(x)=sign(\omega^*\cdot x+b^*)f(x)=sign(ω∗⋅x+b∗)
称为线性可分支持向量机。

2.1、函数间隔和几何间隔
（1）（函数间隔） 对于给定的训练数据集 TTT 和超平面 (w,b)(w,b)(w,b) ，定义超平面 (w,b)(w,b)(w,b) 关于样本点 (xi,yi)(x_i,y_i)(xi,yi) 的函数间隔为
γi^=yi(w⋅xi+b)\hat{\gamma_i}=y_i(w\cdot x_i+b)γi^=yi(w⋅xi+b)
定义超平面 (w,b)(w,b)(w,b) 关于训练数据集 TTT 的函数间隔为超平面(w,b)(w,b)(w,b)关于TTT中所有样本点(xi，yi)(x_i，y_i)(xi，yi)的函数间隔之最小值，即
γ^=mini=1,...Nγi^\hat{\gamma}=\underset{i=1,...N}{min} \hat{\gamma_i}γ^=i=1,...Nminγi^
函数间隔可以表示分类预测的正确性及确信度。但是选择分离超平面时，只有函数间隔还不够。因为只要成比例地改变 www和bbb，例如将它们改为 2w2w2w和2b2b2b，超平面并没有改变，但函数间隔却成为原来的2倍。这一事实启示我们，可以对分离超平面的法向量 www加某些约束，如规范化，∣∣ω∣∣＝1||\omega||＝ 1∣∣ω∣∣＝1，使得间隔是确定的。这时函数间隔成为几何间隔。

（2）（几何间隔） 对于给定的训练数据集TTT和超平面 (w,b)(w,b)(w,b)，定义超平面 (w,b)(w,b)(w,b)关于样本点(xi,yi)(x_i,y_i)(xi,yi)的几何间隔为
γi=yi(ω∣∣ω∣∣⋅xi+b∣∣ω∣∣)\gamma_i=y_i(\frac{\omega}{||\omega||}\cdot x_i + \frac{b}{||\omega||})γi=yi(∣∣ω∣∣ω⋅xi+∣∣ω∣∣b)
定义超平面(w,b)(w,b)(w,b)关于训练数据集TTT的几何间隔为超平面(w,b)(w,b)(w,b)关于TTT中所有样本点(xi,yi)(x_i,y_i)(xi,yi)的几何间隔之最小值，即
γ=mini=1,...Nγi{\gamma}=\underset{i=1,...N}{min} {\gamma_i}γ=i=1,...Nminγi
2.2、间隔最大化
下面考虑如何求得一个几何间隔最大的分离超平面，即最大间隔分离超平面。具体地，这个问题可以表示为下面的约束最优化问题：
maxω,bγ\underset{\omega,b}{max}\ \gammaω,bmax γ
s.t.yi(ω∣∣ω∣∣⋅xi+b∣∣ω∣∣)≥γ,i=1,2,...,Ns.t.\qquad y_i(\frac{\omega}{||\omega||}\cdot x_i + \frac{b}{||\omega||})\geq\gamma,\quad i=1,2,...,Ns.t.yi(∣∣ω∣∣ω⋅xi+∣∣ω∣∣b)≥γ,i=1,2,...,N
考虑几何间隔和函数间隔的关系，可将这个问题改写为
maxω,bγ^∣∣ω∣∣\underset{\omega,b}{max} \quad \frac{\hat{\gamma}}{||\omega||}ω,bmax∣∣ω∣∣γ^
s.t.yi(w⋅xi+b)≥γ^,i=1,2,...,Ns.t. \qquad y_i(w\cdot x_i+b)\geq\hat{\gamma}, \quad i=1,2,...,Ns.t.yi(w⋅xi+b)≥γ^,i=1,2,...,N
函数间隔γ^\hat{\gamma}γ^的取值并不影响最优化问题的解。事实上，假设将www和 bbb按比例改变为λw\lambda wλw和 λb\lambda bλb，这时函数间隔成为 λγ^\lambda \hat{\gamma}λγ^。函数间隔的这一改变对上面最优化问题的不等式约束没有影响，对目标函数的优化也没有影响，这样，就取γ^=1\hat{\gamma}=1γ^=1，将 γ^=1\hat{\gamma}=1γ^=1代入上面的最优化问题，注意到最大化1∣∣ω∣∣\frac{1}{||\omega||}∣∣ω∣∣1和最小化 12∣∣ω∣∣2\frac{1}{2}{||\omega||}^221∣∣ω∣∣2是等价的，于是引出线性可分支持向量机学习算法。

2.3、线性可分支持向量机学习算法——最大间隔法
输入：线性可分训练数据集分类决策函数T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}T={(x1,y1),(x2,y2),...,(xN,yN)}，其中，xi∈χ=Rnx_i\in\chi=R^nxi∈χ=Rn，yi∈Υ={+1,−1}y_i\in\Upsilon=\{+1,-1\}yi∈Υ={+1,−1}，i=1,2,...Ni=1,2,...Ni=1,2,...N
输出：最大间隔分离超平面和分类决策函数。
（1）构造并求解约束最优化问题：
maxω,b12∣∣ω∣∣2\underset{\omega,b}{max} \quad \frac{1}{2}{||\omega||}^2ω,bmax21∣∣ω∣∣2
s.t.yi(w⋅xi+b)−1≥0，i=1,2,...,Ns.t. \qquad y_i(w\cdot x_i+b)-1\geq 0 ，\quad i=1,2,...,Ns.t.yi(w⋅xi+b)−1≥0，i=1,2,...,N
求得最优解：w∗w^*w∗, b∗b^*b∗。
（2）由此得到分离超平面：
ω∗⋅x+b∗=0\omega^*\cdot x+b^*=0ω∗⋅x+b∗=0
分类决策函数
f(x)=sign(ω∗⋅x+b∗)f(x)=sign(\omega^*\cdot x+b^*)f(x)=sign(ω∗⋅x+b∗)

3、学习的对偶算法

为了求解上述线性可分支持向量机的最优化问题，将它作为原始最优化问题，应用拉格朗日对偶性，通过求解对偶问题得到原始问题的最优解，这就是线性可分支持向量机的对偶算法（dual algorithm）。
这样做的优点，一是对偶问题往往更容易求解；二是自然引入核函数，进而推广到非线性分类问题。

3.1、拉格朗日函数
假设f(x)f(x)f(x), ci(x)c_i(x)ci(x), hj(x)h_j(x)hj(x)是定义在RnR^nRn上的连续可微函数。考虑约束最优化问题
minx∈Rnf(x)\underset{x\in R^n}{min} \quad f(x)x∈Rnminf(x)
s.t.ci(x)≤0，i=1,2,...,ks.t. \qquad c_i(x)\leq 0， \quad i=1,2,...,ks.t.ci(x)≤0，i=1,2,...,k
hj(x)=0，j=1,2,...,l\qquad h_j(x)=0 ，j=1,2,...,lhj(x)=0，j=1,2,...,l
称此约束最优化问题为原始最优化问题或原始问题。引进广义拉格朗日函数：
L(x,α,β)=f(x)+∑i=1kαici(x)+∑j=1lβjhj(x)L(x,\alpha,\beta)=f(x)+\sum_{i=1}^{k} \alpha_i c_i(x)+\sum_{j=1}^{l}\beta_j h_j(x)L(x,α,β)=f(x)+i=1∑kαici(x)+j=1∑lβjhj(x)
这里，x＝(x(1),x(2),…,x(n))T∈Rnx＝(x^{(1)},x^{(2)},…,x^{(n)})^T\in R^nx＝(x(1),x(2),…,x(n))T∈Rn, αi\alpha_iαi,βj\beta_jβj是拉格朗日乘子，αi≥0\alpha_i≥0αi≥0。

3.2、求解线性可分支持向量机的最优化问题（对偶算法）
对每一个不等式约束yi(w⋅xi+b)−1≥0y_i(w\cdot x_i+b)-1\geq 0yi(w⋅xi+b)−1≥0引进拉格朗日乘子αi≥0\alpha_i\geq 0αi≥0，i=1,2,...,Ni=1,2,...,Ni=1,2,...,N,定义拉格朗日函数：
L(ω,b,α)=12∣∣ω∣∣2+∑i=1Nαi(1−yi(w⋅xi+b))L(\omega,b,\alpha)=\frac{1}{2}{||\omega||}^2+\sum_{i=1}^{N}\alpha_i (1-y_i(w\cdot x_i+b))L(ω,b,α)=21∣∣ω∣∣2+i=1∑Nαi(1−yi(w⋅xi+b))
其中，α=(α1,α2,...,αN)T\alpha=(\alpha_1,\alpha_2,...,\alpha_N)^Tα=(α1,α2,...,αN)T为拉格朗日乘子向量。

根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：
所以，为了得到对偶问题的解，需要先求 L(ω,b,α)L(\omega,b,\alpha)L(ω,b,α)对ω,b\omega,bω,b的极小，再求对α\alphaα的极大。
（1）求minω,bL(ω,b,α)\underset{\omega,b}{min} L(\omega,b,\alpha)ω,bminL(ω,b,α)
将拉格朗日函数L(ω,b,α)L(\omega,b,\alpha)L(ω,b,α)分别对ω,b\omega,bω,b求偏导数并令其等于0。
∇ωL(ω,b,α)=ω−∑i=1Nαiyixi=0\nabla_{\omega}{L(\omega,b,\alpha)}=\omega-\sum_{i=1}^{N} \alpha_i y_i x_i=0∇ωL(ω,b,α)=ω−i=1∑Nαiyixi=0
∇bL(ω,b,α)=∑i=1Nαiyi=0\nabla_{b}{L(\omega,b,\alpha)}=\sum_{i=1}^{N} \alpha_iy_i=0∇bL(ω,b,α)=i=1∑Nαiyi=0
得
ω=∑i=1Nαiyixi\omega=\sum_{i=1}^{N}\alpha_i y_i x_iω=i=1∑Nαiyixi
∑i=1Nαiyi=0\sum_{i=1}^{N}\alpha_i y_i=0i=1∑Nαiyi=0
代入拉格朗日函数，即得
minω,bL(ω,b,α)=−12∑i=1N∑j=1Nαiαjyiyj(xi⋅xj)+∑i=1Nαi\underset{\omega,b}{min} L(\omega,b,\alpha)=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N}\alpha_i\alpha_j y_i y_j (x_i\cdot x_j) +\sum_{i=1}^{N}\alpha_iω,bminL(ω,b,α)=−21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)+i=1∑Nαi
（2）求minω,bL(ω,b,α)\underset{\omega,b}{min} L(\omega,b,\alpha)ω,bminL(ω,b,α)对α\alphaα的极大值，即是对偶问题
maxα−12∑i=1N∑j=1Nαiαjyiyj(xi⋅xj)+∑i=1Nαi\underset{\alpha}{max} \ -\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N}\alpha_i\alpha_j y_i y_j (x_i\cdot x_j) +\sum_{i=1}^{N}\alpha_iαmax −21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)+i=1∑Nαi
s.t.∑i=1Nαiyi=0s.t. \qquad \sum_{i=1}^{N}\alpha_i y_i=0s.t.i=1∑Nαiyi=0
αi≥0，i=1,2,...,N\qquad \alpha_i\geq0，i=1,2,...,Nαi≥0，i=1,2,...,N
将上述目标函数由求极大转换成求极小，就得到下面与之等价的对偶最优化问题：
minα12∑i=1N∑j=1Nαiαjyiyj(xi⋅xj)−∑i=1Nαi\underset{\alpha}{min} \quad \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N}\alpha_i\alpha_j y_i y_j (x_i\cdot x_j) -\sum_{i=1}^{N}\alpha_iαmin21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)−i=1∑Nαi
s.t.∑i=1Nαiyi=0s.t. \qquad \sum_{i=1}^{N}\alpha_i y_i=0s.t.i=1∑Nαiyi=0
αi≥0，i=1,2,...,N\qquad \alpha_i\geq0，i=1,2,...,Nαi≥0，i=1,2,...,N
3.3、优化问题满足KKT条件
对线性可分训练数据集，假设对偶最优化问题对α\alphaα的解为α∗=(α1∗,α2∗,...,αN∗)T\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^Tα∗=(α1∗,α2∗,...,αN∗)T,可以由α∗\alpha^*α∗求得原始最优化问题对(ω∗,b∗)(\omega^*,b^*)(ω∗,b∗)的解ω∗\omega^*ω∗ , b∗b^*b∗ 。
KKT条件如下：
∇ωL(ω∗,b∗,α∗)=ω∗−∑i=1Nαi∗yixi=0\nabla_{\omega}{L(\omega^*,b^*,\alpha^*)}=\omega^*-\sum_{i=1}^{N} \alpha_i^* y_i x_i=0∇ωL(ω∗,b∗,α∗)=ω∗−i=1∑Nαi∗yixi=0
∇bL(ω∗,b∗,α∗)=∑i=1Nαi∗yi=0\nabla_{b}{L(\omega^*,b^*,\alpha^*)}=\sum_{i=1}^{N} \alpha_i^* y_i=0∇bL(ω∗,b∗,α∗)=i=1∑Nαi∗yi=0
αi∗(yi(ω∗⋅xi+b∗)−1)=0，i=1,2,...,N\alpha_i^*(y_i(\omega^*\cdot x_i+b^*)-1)=0，i=1,2,...,Nαi∗(yi(ω∗⋅xi+b∗)−1)=0，i=1,2,...,N
yi(ω∗⋅xi+b∗)−1≥0，i=1,2,...,Ny_i(\omega^*\cdot x_i+b^*)-1\geq 0，i=1,2,...,Nyi(ω∗⋅xi+b∗)−1≥0，i=1,2,...,N
αi∗≥0\alpha_i^*\geq 0αi∗≥0
由此得
ω∗=∑i=1Nαi∗yixi\omega^*=\sum_{i=1}^{N}\alpha_i^* y_i x_iω∗=i=1∑Nαi∗yixi
其中至少有一个α∗>0\alpha^*>0α∗>0，对此jjj有
yj(ω∗⋅xj+b∗)−1=0y_j(\omega^*\cdot x_j+b^*)-1=0yj(ω∗⋅xj+b∗)−1=0
又yj2=1y_j^2=1yj2=1，即得
b∗=yj−∑i=1Nαi∗yi(xi⋅xj)b^*=y_j-\sum_{i=1}^{N}\alpha_i^* y_i(x_i\cdot x_j)b∗=yj−i=1∑Nαi∗yi(xi⋅xj)
3.4、线性可分支持向量机学习算法
输入：线性可分训练数据集分类决策函数T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}T={(x1,y1),(x2,y2),...,(xN,yN)}，其中，xi∈χ=Rnx_i\in\chi=R^nxi∈χ=Rn，yi∈Υ={+1,−1}y_i\in\Upsilon=\{+1,-1\}yi∈Υ={+1,−1}，i=1,2,...Ni=1,2,...Ni=1,2,...N
输出：最大间隔分离超平面和分类决策函数。
（1）构造并求解约束最优化问题：
minα12∑i=1N∑j=1Nαiαjyiyj(xi⋅xj)−∑i=1Nαi\underset{\alpha}{min} \quad \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N}\alpha_i\alpha_j y_i y_j (x_i\cdot x_j) -\sum_{i=1}^{N}\alpha_iαmin21i=1∑Nj=1∑Nαiαjyiyj(xi⋅xj)−i=1∑Nαi
s.t.∑i=1Nαiyi=0s.t. \quad \sum_{i=1}^{N}\alpha_i y_i=0s.t.i=1∑Nαiyi=0
αi≥0，i=1,2,...,N\alpha_i\geq0，i=1,2,...,Nαi≥0，i=1,2,...,N
求得最优解α∗=(α1∗,α2∗,...,αN∗)T\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^Tα∗=(α1∗,α2∗,...,αN∗)T
（2）计算
ω∗=∑i=1Nαi∗yixi\omega^*=\sum_{i=1}^{N}\alpha_i^* y_i x_iω∗=i=1∑Nαi∗yixi
并选择α∗\alpha^*α∗的一个正分量 αj∗>0\alpha_j^*>0αj∗>0，计算
b∗=yj−∑i=1Nαi∗yi(xi⋅xj)b^*=y_j-\sum_{i=1}^{N}\alpha_i^* y_i(x_i\cdot x_j)b∗=yj−i=1∑Nαi∗yi(xi⋅xj)
（3）求得分离超平面
ω∗⋅x+b∗=0\omega^*\cdot x+b^*=0ω∗⋅x+b∗=0
分类决策函数：
f(x)=sign(ω∗⋅x+b∗)f(x)=sign(\omega^*\cdot x+b^*)f(x)=sign(ω∗⋅x+b∗)