有任何的书写错误、排版错误、概念错误等,希望大家包含指正。

在阅读本篇之前建议先学习:
【机器学习】支持向量机【上】硬间隔
【机器学习】支持向量机【下】软间隔与核函数

支持向量回归

支持向量回归(support vector regression,SVR)是指,将支持向量机的思想推广到回归问题中。与传统回归模型类似,支持向量回归以 www 和 bbb 为待确定的模型参数,希望模型输出 f(x)f(x)f(x) 与真实输出 yyy 之间的差值对应的损失尽可能小;不过,在传统回归模型中,当且仅当 f(x)f(x)f(x) 与 yyy 完全相同时,损失才为零,与此不同,支持向量回归假设我们容忍 f(x)f(x)f(x) 与 yyy 之间最多有 ϵ\epsilonϵ 的偏差,即仅当 f(x)f(x)f(x) 与 yyy 之间的差别绝对值大于 ϵ\epsilonϵ 时才计算损失。如图 111 所示,这相当于以 f(x)f(x)f(x) 为中心,构建了一个上边界和下边界分别为 f(x)+ϵf(x) +\epsilonf(x)+ϵ 和 f(x)−ϵf(x)-\epsilonf(x)−ϵ 的“管道”,ϵ\epsilonϵ 为人为固定值且 ϵ>0\epsilon>0ϵ>0,若训练样本落入此管道内,则认为被预测正确。

图 1    支持向量回归示意图

注意观察和理解图 111 与参考 [3] 中图 111 的区别。

  1. 本图中样本用同样的圆形表示,而它图中分别用 +++ 和 −-− 表示正、负两种样本,这体现了回归问题与分类问题的本质区别;
  2. 本图中横轴表示样本特征,纵轴表示样本对应的预测值,描述的样本是一维的,而它图中横、纵坐标分别表示不同的特征,描述的样本是二维的。

支持向量回归也大致可以分为,硬间隔 SVR、软间隔 SVR 和核函数 SVR。

硬间隔 SVR 适合样本全部落在管道内;软间隔 SVR 适合少量样本落在管道外;核函数 SVR 适合非线性分布的样本。

重点讲解软间隔 SVR,另外两个相对简单。

软间隔支持向量回归

对于软间隔支持向量回归而言,我们不要求样本分布得非常贴近一条线,允许少量样本出现偏差,即噪声,而大部分点可以落在管道内。与软间隔支持向量机类似,软间隔支持向量回归也引入松弛变量。每个样本 (xi,yi)(x_i,y_i)(xi​,yi​) 对应两个松弛变量 ξ^i\hat\xi_iξ^​i​ 和 ξi\xi_iξi​,分别表示向上松弛量和向下松弛量。当样本 (xi,yi)(x_i,y_i)(xi​,yi​) 位于上边界上方(above),那么该样本将贡献损失,即 yi−(f(xi)+ϵ)y_i - \big(f(x_i)+\epsilon\big)yi​−(f(xi​)+ϵ),超出上边界的(纵轴方向)距离也就是 ξ^i\hat \xi_iξ^​i​,故对于落在上边界上方的样本有 yi−(f(xi)+ϵ)=ξ^iy_i - \big( f(x_i) + \epsilon \big)=\hat \xi_iyi​−(f(xi​)+ϵ)=ξ^​i​,而且直观上,此时不可能存在向下的松弛,所以 ξi=0\xi_i=0ξi​=0;类似地,对于落在下边界下方的样本有 (f(xi)+ϵ)−yi=ξi\big( f(x_i) + \epsilon \big) - y_i=\xi_i(f(xi​)+ϵ)−yi​=ξi​ 且 ξ^i=0\hat \xi_i = 0ξ^​i​=0;对于落在管道内的样本,显然不存在向上或向下的松弛,所以 ξ^i=ξi=0\hat \xi_i = \xi_i = 0ξ^​i​=ξi​=0,同时这些样本不贡献损失。不难总结,每个样本带来的损失可以统一表示为 ξ^i+ξi\hat \xi_i + \xi_iξ^​i​+ξi​,因此全部样本贡献的损失为 ∑i=1nξ^i+ξi\sum_{i=1}^n \hat \xi_i + \xi_i∑i=1n​ξ^​i​+ξi​。

观察图 111 发现,上、下边界的欧式距离可以表示为 2ϵ/∥w∥2+12\epsilon/\sqrt{\Vert w \Vert^2 + 1}2ϵ/∥w∥2+1​,当 ∥w∥\Vert w\Vert∥w∥ 越小时,划分超平面倾斜程度越小,上下边界的欧式距离越大,当 ∣∣w∣∣=0||w||=0∣∣w∣∣=0 时距离取到最大值 2ϵ2\epsilon2ϵ。直观上,距离越大,划分超平面越倾斜程度越小,管道覆盖面越大,所能容纳的样本越多,管道外的样本越少,带来的损失也可能减少。这与支持向量机中“最大间隔”的思想一致。

当然,严谨来说,“划分超平面越倾斜程度越小容纳的样本越多”的说法是不准确的,比如图 222 所示情况。对于同样的六个样本点,倾斜程度大的管道(左)反而损失值为零。

图 2    大倾斜程度管道(左)和小倾斜程度管道(右)

基于上面的松弛思想和最大间隔思想,目标函数为
12∥w∥2+C∑i=1n(ξ^i+ξi)\frac{1}{2} \Vert w\Vert^2 + C\sum_{i=1}^n (\hat \xi_i + \xi_i) 21​∥w∥2+Ci=1∑n​(ξ^​i​+ξi​)
其中,C>0C>0C>0 称为惩罚(超)参数,一般根据应用问题人为决定,CCC 值越大对管道外样本的惩罚越大。

定义原始问题
min⁡w,b,ξ^i,ξi12∥w∥2+C∑i=1n(ξ^i+ξi)\min_{w,b,\hat \xi_i,\xi_i}\frac{1}{2} \Vert w\Vert^2 + C\sum_{i=1}^n (\hat \xi_i + \xi_i) \\ w,b,ξ^​i​,ξi​min​21​∥w∥2+Ci=1∑n​(ξ^​i​+ξi​)

s.t.yi−f(xi)≤ϵ+ξ^if(xi)−yi≤ϵ+ξiξ^i≥0,ξi≥0,i=1,2,…,n\begin{matrix} s.t. & y_i - f(x_i)\le \epsilon + \hat \xi_i\\ & f(x_i) - y_i \le \epsilon + \xi_i \\ & \hat \xi_i\ge 0,\space\space\space\space\xi_i\ge 0,\space\space\space\space i = 1,2,\dots,n \end{matrix} s.t.​yi​−f(xi​)≤ϵ+ξ^​i​f(xi​)−yi​≤ϵ+ξi​ξ^​i​≥0,    ξi​≥0,    i=1,2,…,n​

构建广义拉格朗日函数
L(w,b,α^,α,ξ^i,ξi,μ^i,μi)=12∣∣w∣∣2+C∑i=1n(ξ^i+ξi)−∑i=1nμ^iξ^i−∑i=1nμiξi+∑i=1nα^i(yi−f(xi)−ϵ−ξ^i)+∑i=1nαi(f(xi)−yi−ϵ−ξi)\begin{aligned} &L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i) \\ &= \frac{1}{2} ||w||^2 + C\sum_{i=1}^n (\hat \xi_i + \xi_i) - \sum_{i=1}^n\hat \mu_i\hat \xi_i - \sum_{i=1}^n\mu_i\xi_i +\sum_{i=1}^n\hat \alpha_i (y_i - f(x_i)-\epsilon-\hat \xi_i) + \sum_{i=1}^n \alpha_i(f(x_i)-y_i-\epsilon - \xi_i) \end{aligned} ​L(w,b,α^,α,ξ^​i​,ξi​,μ^​i​,μi​)=21​∣∣w∣∣2+Ci=1∑n​(ξ^​i​+ξi​)−i=1∑n​μ^​i​ξ^​i​−i=1∑n​μi​ξi​+i=1∑n​α^i​(yi​−f(xi​)−ϵ−ξ^​i​)+i=1∑n​αi​(f(xi​)−yi​−ϵ−ξi​)​
将 f(xi)=wTxi+bf(x_i) = w^Tx_i+bf(xi​)=wTxi​+b 代入,再令 L(w,b,α^,α,ξ^i,ξi,μ^i,μi)L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i)L(w,b,α^,α,ξ^​i​,ξi​,μ^​i​,μi​) 对 www,bbb,ξ^i\hat \xi_iξ^​i​ 和 ξi\xi_iξi​ 的偏导为零可得
w=∑i=1n(α^i−αi)xi(1-1)w = \sum_{i=1}^n(\hat \alpha_i - \alpha_i)x_i \tag{1-1} w=i=1∑n​(α^i​−αi​)xi​(1-1)

0=∑i=1n(α^i−αi)(1-2)0 = \sum_{i=1}^n (\hat \alpha_i - \alpha_i) \tag{1-2} 0=i=1∑n​(α^i​−αi​)(1-2)

C=α^i+μ^i(1-3)C = \hat \alpha_i + \hat \mu_i\tag{1-3} C=α^i​+μ^​i​(1-3)

C=αi+μi(1-4)C = \alpha_i + \mu_i\tag{1-4} C=αi​+μi​(1-4)

将式 (1~1)∼(1~4)(1\text{\textasciitilde}1)\sim (1\text{\textasciitilde}4)(1~1)∼(1~4) 代入拉格朗日函数
L(w,b,α^,α,ξ^i,ξi,μ^i,μi)=(12∣∣w∣∣2+∑i=1nα^i(yi−f(xi)−ϵ)+∑i=1nαi(f(xi)−yi−ϵ))+(C∑i=1n(ξ^i+ξi)−∑i=1nμ^iξ^i−∑i=1nμiξi−∑i=1α^iξ^i−∑i=1αiξi)=(12∣∣w∣∣2+∑i=1nα^i(yi−f(xi))+∑i=1nαi(f(xi)−yi)−ϵ∑i=1n(α^i+αi))+(C∑i=1n(ξ^i+ξi)−(∑i=1nμ^iξ^i+∑i=1α^iξ^i)−(∑i=1nμiξi+∑i=1αiξi))=(12∣∣w∣∣2+∑i=1nyi(α^i−αi)−∑i=1n(α^i−αi)(wTxi+b)−ϵ∑i=1n(α^i+αi))+(C∑i=1n(ξ^i+ξi)−C∑i=1ξ^i−C∑i=1nξi)=(12∣∣w∣∣2+∑i=1nyi(α^i−αi)−(wT∑i=1n(α^i−αi)xi+b∑i=1m(α^i−αi))−ϵ∑i=1n(α^i+αi))+0=12wTw+∑i=1nyi(α^i−αi)−(wTw+0)−ϵ∑i=1n(α^i+αi)=∑i=1nyi(α^i−αi)−ϵ∑i=1n(α^i+αi)−12wTw=∑i=1nyi(α^i−αi)−ϵ∑i=1n(α^i+αi)−12∑i=1n∑i=1n(α^i−αi)(α^j−αj)(xiTxj)\begin{aligned} &L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i) \\ &= \Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n\hat \alpha_i (y_i - f(x_i)-\epsilon) + \sum_{i=1}^n \alpha_i(f(x_i)-y_i-\epsilon) \Big) + \Big( C\sum_{i=1}^n (\hat \xi_i + \xi_i) - \sum_{i=1}^n\hat \mu_i\hat \xi_i - \sum_{i=1}^n\mu_i\xi_i -\sum_{i=1}\hat \alpha_i\hat\xi_i-\sum_{i=1} \alpha_i\xi_i \Big) \\ %%%% &=\Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n\hat \alpha_i (y_i - f(x_i)) + \sum_{i=1}^n \alpha_i(f(x_i)-y_i) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \Big) + \Big( C\sum_{i=1}^n (\hat \xi_i + \xi_i) - \big(\sum_{i=1}^n\hat \mu_i\hat \xi_i +\sum_{i=1}\hat \alpha_i\hat\xi_i\big) - \big(\sum_{i=1}^n\mu_i\xi_i +\sum_{i=1} \alpha_i\xi_i\big) \Big) \\ %%%% &=\Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i) - \sum_{i=1}^n (\hat \alpha_i-\alpha_i)(w^Tx_i+b) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \Big) + \Big( C\sum_{i=1}^n (\hat \xi_i + \xi_i) - C\sum_{i=1}\hat\xi_i - C\sum_{i=1}^n\xi_i \Big) \\ %%%% &=\Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i) -\big(w^T\sum_{i=1}^n (\hat \alpha_i-\alpha_i)x_i +b\sum_{i=1}^m (\hat \alpha_i - \alpha_i)\big) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \Big) + 0 \\ %%%% &=\frac{1}{2} w^Tw +\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i) - \big(w^Tw +0\big) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \\ %%%% &=\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} w^Tw \\ %%%% &=\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} \sum_{i=1}^n \sum_{i=1}^n (\hat \alpha_i- \alpha_i)(\hat \alpha_j - \alpha_j)(x_i^Tx_j) \\ \end{aligned} ​L(w,b,α^,α,ξ^​i​,ξi​,μ^​i​,μi​)=(21​∣∣w∣∣2+i=1∑n​α^i​(yi​−f(xi​)−ϵ)+i=1∑n​αi​(f(xi​)−yi​−ϵ))+(Ci=1∑n​(ξ^​i​+ξi​)−i=1∑n​μ^​i​ξ^​i​−i=1∑n​μi​ξi​−i=1∑​α^i​ξ^​i​−i=1∑​αi​ξi​)=(21​∣∣w∣∣2+i=1∑n​α^i​(yi​−f(xi​))+i=1∑n​αi​(f(xi​)−yi​)−ϵi=1∑n​(α^i​+αi​))+(Ci=1∑n​(ξ^​i​+ξi​)−(i=1∑n​μ^​i​ξ^​i​+i=1∑​α^i​ξ^​i​)−(i=1∑n​μi​ξi​+i=1∑​αi​ξi​))=(21​∣∣w∣∣2+i=1∑n​yi​(α^i​−αi​)−i=1∑n​(α^i​−αi​)(wTxi​+b)−ϵi=1∑n​(α^i​+αi​))+(Ci=1∑n​(ξ^​i​+ξi​)−Ci=1∑​ξ^​i​−Ci=1∑n​ξi​)=(21​∣∣w∣∣2+i=1∑n​yi​(α^i​−αi​)−(wTi=1∑n​(α^i​−αi​)xi​+bi=1∑m​(α^i​−αi​))−ϵi=1∑n​(α^i​+αi​))+0=21​wTw+i=1∑n​yi​(α^i​−αi​)−(wTw+0)−ϵi=1∑n​(α^i​+αi​)=i=1∑n​yi​(α^i​−αi​)−ϵi=1∑n​(α^i​+αi​)−21​wTw=i=1∑n​yi​(α^i​−αi​)−ϵi=1∑n​(α^i​+αi​)−21​i=1∑n​i=1∑n​(α^i​−αi​)(α^j​−αj​)(xiT​xj​)​
拉格朗日函数为
L(w,b,α^,α,ξ^i,ξi,μ^i,μi)=∑i=1nyi(α^i−αi)−ϵ∑i=1n(α^i+αi)−12∑i=1n∑i=1n(α^i−αi)(α^j−αj)(xiTxj)L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i)=\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} \sum_{i=1}^n \sum_{i=1}^n (\hat \alpha_i- \alpha_i)(\hat \alpha_j - \alpha_j)(x_i^Tx_j) \\ L(w,b,α^,α,ξ^​i​,ξi​,μ^​i​,μi​)=i=1∑n​yi​(α^i​−αi​)−ϵi=1∑n​(α^i​+αi​)−21​i=1∑n​i=1∑n​(α^i​−αi​)(α^j​−αj​)(xiT​xj​)
可得到 SVR 的对偶问题
max⁡α^,α∑i=1nyi(α^i−αi)−ϵ∑i=1n(α^i+αi)−12∑i=1n∑i=1n(α^i−αi)(α^j−αj)(xiTxj)\max_{\hat \alpha,\alpha} \sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} \sum_{i=1}^n \sum_{i=1}^n (\hat \alpha_i- \alpha_i)(\hat \alpha_j - \alpha_j)(x_i^Tx_j) α^,αmax​i=1∑n​yi​(α^i​−αi​)−ϵi=1∑n​(α^i​+αi​)−21​i=1∑n​i=1∑n​(α^i​−αi​)(α^j​−αj​)(xiT​xj​)

s.t.∑i=1n(α^i−αi)=00≤α^i,αi≤C\begin{matrix} s.t. &\sum_{i=1}^n (\hat \alpha_i - \alpha_i) = 0\\ & 0\le \hat \alpha_i,\alpha_i \le C \end{matrix} s.t.​∑i=1n​(α^i​−αi​)=00≤α^i​,αi​≤C​

满足的部分 KKT 条件为
α^i(yi−f(xi)−ϵ−ξ^i)=0(2-1)\hat \alpha_i (y_i - f(x_i) - \epsilon - \hat \xi_i)=0\tag{2-1} α^i​(yi​−f(xi​)−ϵ−ξ^​i​)=0(2-1)

αi(f(xi)−yi−ϵ−ξi)=0(2-2)\alpha_i (f(x_i) - y_i - \epsilon - \xi_i)=0\tag{2-2} αi​(f(xi​)−yi​−ϵ−ξi​)=0(2-2)

(C−α^i)ξ^i=0(2-3)(C-\hat\alpha_i)\hat\xi_i = 0 \tag{2-3} (C−α^i​)ξ^​i​=0(2-3)

(C−αi)ξi=0(2-4)(C-\alpha_i)\xi_i = 0\tag{2-4} (C−αi​)ξi​=0(2-4)

式 (2~1)∼(2~4)(2\text{\textasciitilde}1)\sim(2\text{\textasciitilde}4)(2~1)∼(2~4) 为互补松弛条件。其中,(2~3)(2\text{\textasciitilde}3)(2~3) 和 (2~4)(2\text{\textasciitilde}4)(2~4) 分别运用了式 (1~3)(1\text{\textasciitilde}3)(1~3) 和 (1~4)(1\text{\textasciitilde}4)(1~4)。

这里四个等式带来的信息量非常大。根据式 (2~1)(2\text{\textasciitilde}1)(2~1) 可知,当 α^i≠0\hat \alpha_i\ne0α^i​​=0 时,yi−f(xi)−ϵ−ξ^i=0y_i - f(x_i) - \epsilon - \hat \xi_i=0yi​−f(xi​)−ϵ−ξ^​i​=0,样本 (xi,yi)(x_i,y_i)(xi​,yi​) 要么在管道的上边界上(lie on),对应 ξ^i=0\hat \xi_i=0ξ^​i​=0,要么在管道的上边界上方(above),对应 ξ^i>0\hat \xi_i>0ξ^​i​>0;当 αi≠0\alpha_i\ne 0αi​​=0 时,根据式 (2~2)(2\text{\textasciitilde}2)(2~2) 可以推出类似的结果。但是 α^i\hat\alpha_iα^i​ 和 αi\alpha_iαi​ 不能同时非零,即满足 α^iαi=0\hat \alpha_i\alpha_i =0α^i​αi​=0,这是因为两个限制 yi−f(xi)−ϵ−ξ^i=0y_i - f(x_i) - \epsilon - \hat \xi_i = 0yi​−f(xi​)−ϵ−ξ^​i​=0 和 f(xi)−yi−ϵ−ξi=0f(x_i) - y_i - \epsilon - \xi_i=0f(xi​)−yi​−ϵ−ξi​=0 是不兼容的。可以这样证明:将两个式子相加得到等式 2ϵ+ξi+ξ^i=02\epsilon+\xi_i+\hat\xi_i=02ϵ+ξi​+ξ^​i​=0,由于 ϵ>0\epsilon>0ϵ>0,ξi≥0\xi_i\ge 0ξi​≥0,ξ^i≥0\hat \xi_i\ge0ξ^​i​≥0,所以等式不成立,究其原因为两个限制不兼容。

⽀持向量是对于目标函数有贡献的样本,换句话说,就是那些使得 α^i≠0\hat\alpha_i\ne0α^i​​=0 或 αi≠0\alpha_i\ne0αi​​=0 成立的样本,也就是 (α^i−αi)≠0(\hat \alpha_i - \alpha_i) \ne 0(α^i​−αi​)​=0 的样本。根据上面的讨论,我们可以知道 SVR 中的支持向量是位于管道上或者管道外的样本。

另外,可以根据式 (2~3)(2\text{\textasciitilde}3)(2~3) 和 (2~4)(2\text{\textasciitilde}4)(2~4) 可以讨论三种情况:① 当 αi=0\alpha_i=0αi​=0 且 α^i≠0\hat \alpha_i\ne 0α^i​​=0 时,由 αi=0\alpha_i=0αi​=0 可得 ξi=0\xi_i=0ξi​=0,由 α^i≠0\hat \alpha_i\ne0α^i​​=0 可得 ξ^i≥0\hat \xi_i\ge0ξ^​i​≥0;② 当 αi≠0\alpha_i\ne0αi​​=0 且 α^i=0\hat \alpha_i= 0α^i​=0 时,由 αi≠0\alpha_i\ne0αi​​=0 可得 ξi≥0\xi_i\ge0ξi​≥0,由 α^i=0\hat \alpha_i=0α^i​=0 可得 ξ^i=0\hat \xi_i=0ξ^​i​=0;③ 当 αi=α^i=0\alpha_i = \hat \alpha_i = 0αi​=α^i​=0 时,ξi=ξ^i=0\xi_i = \hat \xi_i = 0ξi​=ξ^​i​=0。这三种情况可以统一表示为 ξ^iξi=0\hat \xi_i\xi_i = 0ξ^​i​ξi​=0。巧妙的是,这四个等式带来的信息与我们本小节对松弛变量的直观理解不谋而合。

参数 bbb 可以这样得到:考虑一个满足 0<αj<C0 < \alpha_j < C0<αj​<C 的样本。根据式 (2~4)(2\text{\textasciitilde}4)(2~4) 可知 ξj=0\xi_j = 0ξj​=0,再根据式 (2~2)(2\text{\textasciitilde}2)(2~2) 可知一定有 f(xj)−yj−ϵ=0f(x_j)-y_j-\epsilon=0f(xj​)−yj​−ϵ=0。将 f(xj)=wTxj+bf(x_j) = w^Tx_j+bf(xj​)=wTxj​+b 代入求解 bbb,同时将式 (1~1)(1\text{\textasciitilde}1)(1~1) 代入,得
b=yj+ϵ−wTxj=yj+ϵ−∑i=1n(α^i−αi)(xiTxj)(3)\begin{aligned} b &= y_j + \epsilon - w^Tx_j \\ &=y_j + \epsilon - \sum_{i=1}^n(\hat \alpha_i - \alpha_i)(x_i^Tx_j) \\ \end{aligned}\tag{3} b​=yj​+ϵ−wTxj​=yj​+ϵ−i=1∑n​(α^i​−αi​)(xiT​xj​)​(3)
当然,也可以通过考虑一个满足 0<α^j<C0 < \hat\alpha_j < C0<α^j​<C 的样本,得到类似的结果。在实际应用中,更好的做法是对所有的这些 bbb 的估计进⾏平均。

使用训练好的模型进行预测也非常简单,根据式 (1~1)(1\text{\textasciitilde}1)(1~1) 计算出最优解 w∗w^*w∗,根据式 (3)(3)(3) 计算出最优解 b∗b^*b∗。预测函数为
f(x)=w∗Tx+b∗=∑i=1n(α^i−αi)(xiTx)+b∗(4)\begin{aligned} f(x) &= {w^*}^Tx + b^* \\ &= \sum_{i=1}^n (\hat \alpha_i - \alpha_i) (x_i^T x) + b^* \end{aligned} \tag{4} f(x)​=w∗Tx+b∗=i=1∑n​(α^i​−αi​)(xiT​x)+b∗​(4)

另外,我们也可以从正则化的角度理解原始问题的目标函数,将 ∣∣w∣∣2||w||^2∣∣w∣∣2 视为正则化项,另一部分视为未引入正则化项的损失函数,这与软间隔支持向量机类似。

硬间隔与核函数支持向量回归

硬间隔认为全部的样本点都可以被容纳在 ϵ~\epsilon\text{\textasciitilde}ϵ~管道中,也就不存在松弛变量及其对应约束。求解过程与软间隔类似,甚至可以认为硬间隔是软间隔的一种特殊情况。

使用核函数的方法与支持向量机中使用核函数的方法一致,目的都是实现划分超平面非线性化,如图 333 所示。

图 3    核函数支持向量回归

若考虑特征映射式 (1~1)(1\text{\textasciitilde}1)(1~1) 对应
w∗=∑i=1n(α^i−αi)ϕ(xi)w^* = \sum_{i=1}^n (\hat \alpha_i - \alpha_i)\phi(x_i) w∗=i=1∑n​(α^i​−αi​)ϕ(xi​)
式 (3)(3)(3) 对应
b∗=yj+ϵ−∑i=1n(α^i−αi)K(xi,xj)b^* =y_j + \epsilon - \sum_{i=1}^n(\hat \alpha_i - \alpha_i)K(x_i,x_j) b∗=yj​+ϵ−i=1∑n​(α^i​−αi​)K(xi​,xj​)
式 (4)(4)(4) 对应
f(x)=∑i=1n(α^i−αi)K(xi,x)+b∗f(x) = \sum_{i=1}^n (\hat \alpha_i - \alpha_i) K(x_i, x) + b^* f(x)=i=1∑n​(α^i​−αi​)K(xi​,x)+b∗

REF

[1]《Pattern Recognition and Machine Learning》

[2]《机器学习》周志华著

[3] 【机器学习】支持向量机【上】硬间隔_不牌不改的博客 - CSDN

[4] 【机器学习】支持向量机【下】软间隔与核函数 - CSDN

[5] 支持向量回归(Support Vector Regression) - CSDN

[6] 如何通俗易懂地解释支持向量回归(support vector regression)? - 知乎

【机器学习】支持向量回归相关推荐

  1. 机器学习——支持向量回归(SVR)

    机器学习--支持向量回归(SVR) educoder平台练习题 如果博客中图片加载失败可点击链接跳转至实训详情 https://www.educoder.net/shixuns/b6yi97f2/ch ...

  2. 【机器学习系列】之支持向量回归SVR

    作者:張張張張 github地址:https://github.com/zhanghekai [转载请注明出处,谢谢!] [机器学习系列]之SVM硬间隔和软间隔 [机器学习系列]之SVM核函数和SMO ...

  3. python 最小二乘回归 高斯核_机器学习技法6-(支持向量回归)

    一.核岭回归 线性分类模型加入了L2正则化以后,最佳解是w关于z的线性组合,因此带有L2正则化的线性分类模型能引入核函数,也就是把线性模型变成核函数的形式. 在线性回归模型中,损失函数为: 当给线性回 ...

  4. 【机器学习基础】支持向量回归

    引言 这一小节介绍一下支持向量回归,我们在之前介绍的核逻辑回归使用表示定理(Representer Theorem),将逻辑回归编程Kernel的形式,这一节我们沿着这个思路出发,看看如何将回归问题和 ...

  5. 机器学习之支持向量回归(SVR)预测房价—基于python

    大家好,我是带我去滑雪! 本期使用爬取到的有关房价数据集data.csv,使用支持向量回归(SVR)方法预测房价.该数据集中"y1"为响应变量,为房屋总价,而x1-x9为特征变量, ...

  6. 机器学习西瓜书笔记:软间隔和支持向量回归SVR

    1.首先由SVM问题(最大间隔超平面模型):所有样本都可以正确分类的最优化问题,引入软间隔SVM(允许分类错误)的最优化问题,即需要添加损失函数(样本不满足约束的程度,或者说分类错误的程度),然后最优 ...

  7. 迈向数据科学的第一步:在Python中支持向量回归

    什么是支持向量回归? (What is Support Vector Regression?) Support vector regression is a special kind of regre ...

  8. 支持向量机与支持向量回归(support vector machine and support vector regression)

    支持向量机和支持向量回归是目前机器学习领域用得较多的方法,不管是人脸识别,字符识别,行为识别,姿态识别等,都可以看到它们的影子.在我的工作中,经常用到支持向量机和支持向量回归,然而,作为基本的理论,却 ...

  9. 支持向量机(SVM)、支持向量回归(SVR)

    论文完成也有一段时间了,用到了支持向量机(Support Vector Machine或SVM)方面的知识,感觉泛化能力比较好,一开始的时候,用了一些神经网络的模型,泛化能力都不是很满意,立即转到支持 ...

最新文章

  1. 使用yum时,保留下载包设置
  2. 阿里智能运维算法大赛,邀你挑战大规模硬盘故障预测!
  3. 输出字母沙漏+对称字符串
  4. Spring集成Junit步骤和代码实现
  5. 利用微信登录掘金网站的HTTP请求分析
  6. 第2章 Python与数据分析
  7. ubuntu16.04下安装NS-2.35以及对simple例的理解
  8. 28岁成中科院课题组长,最近他接连在Nature和Science发文
  9. 全球IP地址规则和分配
  10. 第1章 MatConvNet简介
  11. 标准数独游戏-深搜解法
  12. 驻点的定义:(要求平滑)  y=|x|; 不存在驻点; 极值点的定义: 导数不存在的点也有可能是极值点 拐点: 一二阶导数等于零各是什么意义 倒代换
  13. QT读取局域网共享文件夹文件内容 解决不同网段无法访问共享文件夹问题
  14. 微信小程序 23 播放音乐页
  15. 计算机网络中的NET与应用中的.NET
  16. Paper再现:MD+AI自动编码机探测蛋白变构(四):DIO的生成和聚类
  17. 吉软-Java57-第一次作业
  18. WIN7 64位系统安装CodeWarrior 6.3及BDM驱动
  19. 微信收钱的盒子服务器老是断开,好哒微信、支付宝入账异常处理办法
  20. 学习日语应该先掌握哪些内容?

热门文章

  1. Jmeter官方资料地址
  2. 5W无线充方案,无线充方案,手机无线充
  3. Base64编码,Base64在线编解码
  4. WebStorm:令人眼前一亮的一款前端开发IDE
  5. 如何设计制作自适应网页
  6. Wi-Fi 6 网卡周期性卡顿问题解决方案AX201 160MHz和AX1650x 160MHz
  7. 优炫数据库出席用友商业创新大会,携手伙伴赋能数智化生态
  8. 影响网站排名有哪些因素?
  9. zcat,zgrep用法
  10. 微信小程序swiper图片尺寸_微信小程序 - swiper 高度自适应