SVM(二):对偶算法、SMO算法

拉格朗日乘子法
在学习对偶算法之前，首先我们需要了解一点数学知识——拉格朗日乘子法。它和高数中的拉格朗日乘数法很类似，都用于最优化的求解。不同的点是乘数法用于限制条件为等式的情况，而乘子法用于限制条件为不等式的情况。下面我们介绍一下两种方法，侧重点放在乘子法上面。

1、拉格朗日乘数法——等式约束

下面简单介绍下拉格朗日乘数法。
设给定二元函数z=ƒ(x,y)和附加条件φ(x,y)=0，为寻找z=ƒ(x,y)在附加条件下的极值点。

1. 先做拉格朗日函数F(x,y,λ)=f(x,y)+λφ(x,y) ，其中λ为参数。
2. 令F(x,y,λ)对x和y和λ的一阶偏导数等于零,得到
       Fx′=ƒx′(x,y)+λφx′(x,y)=0F'_x=ƒ'_x(x,y)+λφ'_x(x,y)=0Fx′=ƒx′(x,y)+λφx′(x,y)=0
     Fy′=ƒy′(x,y)+λφy′(x,y)=0F'_y=ƒ'_y(x,y)+λφ'_y(x,y)=0Fy′=ƒy′(x,y)+λφy′(x,y)=0
     Fλ′=φ(x,y)=0F'_λ=φ(x,y)=0Fλ′=φ(x,y)=0
3. 由上述方程组解出x,y及λ，如此求得的(x,y)，就是函数z=ƒ(x,y)在附加条件φ(x,y)=0下的可能极值点。若这样的点只有一个，由实际问题可直接确定此即所求的点。

2、拉格朗日乘子法——不等式约束

目标函数f(x)，不等式约束g(x)，有的教程会添加上等式约束条件h(x)=0。
此时最优化问题描述如下：
minf(x)s.t.gi(x)⩽0;hi(x)=0(2.1)\tag{2.1}min\ \ f(x) \\ s.t. \ \ \ g_i(x)\leqslant0 \ ; \ h_i(x)=0min f(x)s.t. gi(x)⩽0 ; hi(x)=0(2.1)

定义不等式约束下的拉格朗日函数L：
L(x,λ,μ)=f(x)+∑1pλigi(x)+∑1qμjhj(x)(2.2)L(x,λ,μ)=f(x)+\sum\limits_{1}\limits^{p}λ_ig_i(x)+\sum\limits_{1}\limits^{q}μ_jh_j(x) \tag{2.2}L(x,λ,μ)=f(x)+1∑pλigi(x)+1∑qμjhj(x)(2.2)

其中λ和μ叫做乘子，也是分别是g(x)和h(x)的约束系数。

学习的对偶算法
为了求解线性可分支持向量机的最优化问题，将它作为原始的最优化问题，应用拉格朗日对偶性，通过求解对偶问题(dual problem)得到原始问题的最优解,这就是线性可分支持向量机的对偶算法(dual algorithm)。
网页链接：拉格朗日对偶性
首先，我们来回顾一下原始的最优化问题，即原始问题：
min⁡w,b12∣∣w∣∣2s.t.yi(wTxi+b)⩾1,i=1,2,……,m(2.3)\min\limits_{w,b} \frac{1}{2}||w||^2 \\s.t. \ \ \ y_i(w^Tx_i+b) \geqslant 1,i=1,2,……,m \tag{2.3}w,bmin21∣∣w∣∣2s.t. yi(wTxi+b)⩾1,i=1,2,……,m(2.3)

根据上面的拉格朗日乘子法介绍来看，我们需要的约束函数是g(x)⩽0g(x)\leqslant0g(x)⩽0，因此我们将原始问题的约束条件改为s.t.1−yi(wTxi+b)⩽0s.t. \ \ \ 1-y_i(w^Tx_i+b)\leqslant0s.t. 1−yi(wTxi+b)⩽0。然后，对上式中的约束添加拉格朗日乘子αi⩾0α_i\geqslant0αi⩾0我们可以得到不等式约束条件下的拉格朗日函数L：
L(w,b,α)=12∣∣w∣∣2+∑i=1mαi[1−yi(wTxi+b)](2.4)L(w,b,α) = \frac{1}{2}||w||^2 + \sum\limits_{i=1}^{m}α_i[1-y_i(w^Tx_i+b)] \tag{2.4} L(w,b,α)=21∣∣w∣∣2+i=1∑mαi[1−yi(wTxi+b)](2.4)

因为αi⩾0α_i\geqslant0αi⩾0,且1−yi(wTxi+b)⩽01-y_i(w^Tx_i+b)\leqslant01−yi(wTxi+b)⩽0。显然有:
max⁡αL(w,b,α)=12∣∣w∣∣2(2.5)\max\limits_{α} \ \ L(w,b,α) = \frac{1}{2}||w||^2 \tag{2.5}αmax L(w,b,α)=21∣∣w∣∣2(2.5)

因此原始问题min⁡w,b12∣∣w∣∣2\min\limits_{w,b}\frac{1}{2}||w||^2w,bmin21∣∣w∣∣2可以写成：
min⁡w,bmax⁡αL(w,b,α)==>max⁡αmin⁡w,bL(w,b,α)(2.6)\min\limits_{w,b} \ \max\limits_{α} \ L(w,b,α) ==> \max\limits_{α} \min\limits_{w,b} \ L(w,b,α) \tag{2.6}w,bmin αmax L(w,b,α)==>αmaxw,bmin L(w,b,α)(2.6)此时我们就得到了原始问题的对偶问题 max⁡αmin⁡w,bL(w,b,α)\max\limits_{α} \min\limits_{w,b} \ L(w,b,α)αmaxw,bmin L(w,b,α)。

对偶问题的求解
首先，我们先看内层的最优化问题，即min⁡w,bL(w,b,α)\min\limits_{w,b} \ L(w,b,α)w,bmin L(w,b,α)。
用L(w,b,α)分别对w,b进行求导，令=0，得到下面两个式子:
        w=∑i=1mαiyixiw = \sum\limits_{i=1}^{m}α_iy_ix_iw=i=1∑mαiyixi
        0=∑i=1mαiyi0 = \sum\limits_{i=1}^{m}α_iy_i0=i=1∑mαiyi
将上面两个公式带入max⁡αmin⁡w,bL(w,b,α)\max\limits_{α} \min\limits_{w,b} \ L(w,b,α)αmaxw,bmin L(w,b,α)中，可以消去w和b(具体过程省略，可自行推导，较简单)，得到下面的公式：
max⁡α∑i=1mαi−12∑i=1m∑j=1mαiαjyiyjxiTxjs.t.∑i=1mαiyi=0;i⩾0,i=1,2,…,m(2.7)\max\limits_{α}\ \ \sum\limits_ {i=1}^{m}α_i - \frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}α_iα_jy_iy_jx_i^Tx_j \tag{2.7} s.t. \ \ \ \sum\limits_{i=1}^{m}α_iy_i = 0;\ \ \ _i\geqslant 0,i = 1,2,…,m αmax  i=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxiTxjs.t.   i=1∑mαiyi=0;   i⩾0,i=1,2,…,m(2.7)
通过上面的式子可以解出α，然后求出w和b，然后就能得到最终的模型f(x)=wTxi+bf(x) = w^Tx_i + bf(x)=wTxi+b。
具体的求解方法SMO看下一小节。

SMO
SMO(Sequential Minimal Optimization)，顺序最小优化算法。其基本思想是先固定αiα_iαi之外的所有参数，然后求αiα_iαi上的极值。因为存在∑i=1mαiyi=0\sum\limits_{i=1}^{m}α_iy_i = 0i=1∑mαiyi=0的限制，所以固定αiα_iαi之外的其他变量，则αiα_iαi可以由其他变量表示。

具体过程：

SMO每次选择两个变量αiα_iαi和αjα_jαj，并固定其他的参数。这样在参数初始化后，SMO不断执行以下的两个步骤直至收敛：

选取一对需更新的变量αiα_iαi和αjα_jαj
固定αiα_iαi和αjα_jαj之外的参数，求解max⁡α∑i=1mαi−12∑i=1m∑j=1mαiαjyiyjxiTxj\max\limits_{α}\ \ \sum\limits_ {i=1}^{m}α_i - \frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}α_iα_jy_iy_jx_i^Tx_jαmax i=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxiTxj获取更新后的αiα_iαi和αjα_jαj

SMO算法之所以很高效，恰恰在于在固定其他参数后，仅优化剩下两个参数的过程能非常高效。因为αiα_iαi和αjα_jαj之间的约束可重写为：
αiyi+αjyj=c,αi⩾0,αj⩾0(2.8)α_iy_i + α_jy_j = c,α_i\geqslant0 ,α_j\geqslant0 \tag{2.8}αiyi+αjyj=c,αi⩾0,αj⩾0(2.8)

将αiyi+αjyj=cα_iy_i + α_jy_j = cαiyi+αjyj=c进行变形，变为
αj=c−αiyiyj(2.9)α_j = \frac{c-α_iy_i}{y_j} \tag{2.9}αj=yjc−αiyi(2.9)

将(2.9)带入到(2.7)，可以消去式中的αjα_jαj。然后(2.7)就变成了有关单变量αiα_iαi的二次规划问题，很简单就可以求解出αiα_iαi的最优解。随后用同样的方法求解出αjα_jαj。

那么参数b怎么确定呢？我们注意到任意的支持向量(xs,ys)(x_s,y_s)(xs,ys)都有ys⋅f(xs)=1y_s·f(x_s)=1ys⋅f(xs)=1即：
ys(∑i∈sαiyixiTxs+b)=1(2.10)y_s(\sum\limits_{i∈s}α_iy_ix_i^Tx_s+b)=1 \tag{2.10}ys(i∈s∑αiyixiTxs+b)=1(2.10)

即可获取参数b。虽然任何的支持向量都可以(2.10)获取b，但是现实中通常采用一种更鲁棒的做法，使用所有支持向量求解的平均值：
b=1∣s∣∑s∈S(1ys−∑i∈SαiyixiTxs)b = \frac{1}{|s|}\sum\limits_{s∈S} (\frac{1}{y_s}-\sum\limits_{i∈S}α_iy_ix_i^Tx_s)b=∣s∣1s∈S∑(ys1−i∈S∑αiyixiTxs)

最后w和b都求解出来后，结束。机器学习，学习的就是w和b这两个参数。

函数间隔到几何间隔的推导过程