SVM(三) SMO优化算法求解
SMO优化算法(Sequential minimal optimization)
SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》了。
我拜读了一下,下面先说讲义上对此方法的总结。
对偶函数最后的优化问题:
要解决的是在参数上求最大值W(a)的问题,至于和都是已知数。C由我们预先设定,也是已知数。
我们需要一次选取两个参数做优化,比如和,此时可以由和其他参数表示出来。这样回带到W中,W就只是关于的函数了,可解。
这样,SMO的主要步骤如下:
意思是,第一步选取一对和,选取方法使用启发式方法(后面讲)。第二步,固定除和之外的其他参数,确定W极值条件下的,由表示。
SMO之所以高效就是因为在固定其他参数后,对一个参数优化过程很高效。
下面讨论具体方法:
假设我们选取了初始值满足了问题中的约束条件。接下来,我们固定,这样W就是和的函数。并且和满足条件:
由于都是已知固定值,因此为了方面,可将等式右边标记成实数值。
当和异号时,也就是一个为1,一个为-1时,他们可以表示成一条直线,斜率为1。如下图:
横轴是,纵轴是,和既要在矩形方框内,也要在直线上,因此
,
同理,当和同号时,
,
然后我们打算将用表示:
然后反代入W中,得
展开后W可以表示成。其中a,b,c是固定值。这样,通过对W进行求导可以得到,然而要保证满足,我们使用表示求导求出来的,然而最后的,要根据下面情况得到:
这样得到后,我们可以得到的新值。
下面进入Platt的文章,来找到启发式搜索的方法和求b值的公式。
这边文章使用的符号表示有点不太一样,不过实质是一样的,先来熟悉一下文章中符号的表示。
文章中定义特征到结果的输出函数为
与我们之前的实质是一致的。
原始的优化问题为:
求导得到:
经过对偶后为:
s.t.
这里与W函数是一样的,只是符号求反后,变成求最小值了。和是一样的,都表示第i个样本的输出结果(1或-1)。
经过加入松弛变量后,模型修改为:
由公式(7)代入(1)中可知,
这个过程和之前对偶过程一样。
重新整理我们要求的问题为:
与之对应的KKT条件为:
这个KKT条件说明,在两条间隔线外面的点,对应前面的系数为0,在两条间隔线里面的对应为C,在两条间隔线上的对应的系数在0和C之间。
将我们之前得到L和H重新拿过来:
之前我们将问题进行到这里,然后说将用表示后代入W中,这里将代入中,得
其中
这里的和代表某次迭代前的原始值,因此是常数,而和是变量,待求。公式(24)中的最后一项是常数。
由于和满足以下公式
因为的值是固定值,在迭代前后不会变。
那么用s表示,上式两边乘以时,变为:
其中
代入(24)中,得
这时候只有是变量了,求导
如果的二阶导数大于0(凹函数),那么一阶导数为0时,就是极小值了。
假设其二阶导数为0(一般成立),那么上式化简为:
将w和v代入后,继续化简推导,得(推导了六七行推出来了)
我们使用来表示:
通常情况下目标函数是正定的,也就是说,能够在直线约束方向上求得最小值,并且。
那么我们在(30)两边都除以可以得到
这里我们使用表示优化后的值,是迭代前的值,。
与之前提到的一样不是最终迭代后的值,需要进行约束:
那么
在特殊情况下,可能不为正,如果核函数K不满足Mercer定理,那么目标函数可能变得非正定,可能出现负值。即使K是有效的核函数,如果训练样本中出现相同的特征x,那么仍有可能为0。SMO算法在不为正值的情况下仍有效。为保证有效性,我们可以推导出就是的二阶导数,,没有极小值,最小值在边缘处取到(类比),时更是单调函数了,最小值也在边缘处取得,而的边缘就是L和H。这样将和分别代入中即可求得的最小值,相应的还是也可以知道了。具体计算公式如下:
至此,迭代关系式出了b的推导式以外,都已经推出。
b每一步都要更新,因为前面的KKT条件指出了和的关系,而和b有关,在每一步计算出后,根据KKT条件来调整b。
b的更新有几种情况:
来自罗林开的ppt
这里的界内指,界上就是等于0或者C了。
前面两个的公式推导可以根据
和对于有的KKT条件推出。
这样全部参数的更新公式都已经介绍完毕,附加一点,如果使用的是线性核函数,我们就可以继续使用w了,这样不用扫描整个样本库来作内积了。
w值的更新方法为:
根据前面的
公式推导出。
12 SMO中拉格朗日乘子的启发式选择方法
终于到了最后一个问题了,所谓的启发式选择方法主要思想是每次选择拉格朗日乘子的时候,优先选择样本前面系数的作优化(论文中称为无界样例),因为在界上(为0或C)的样例对应的系数一般不会更改。
这条启发式搜索方法是选择第一个拉格朗日乘子用的,比如前面的。那么这样选择的话,是否最后会收敛。可幸的是Osuna定理告诉我们只要选择出来的两个中有一个违背了KKT条件,那么目标函数在一步迭代后值会减小。违背KKT条件不代表,在界上也有可能会违背。是的,因此在给定初始值=0后,先对所有样例进行循环,循环中碰到违背KKT条件的(不管界上还是界内)都进行迭代更新。等这轮过后,如果没有收敛,第二轮就只针对的样例进行迭代更新。
在第一个乘子选择后,第二个乘子也使用启发式方法选择,第二个乘子的迭代步长大致正比于,选择第二个乘子能够最大化。即当为正时选择负的绝对值最大的,反之,选择正值最大的。
最后的收敛条件是在界内()的样例都能够遵循KKT条件,且其对应的只在极小的范围内变动。
至于如何写具体的程序,请参考John C. Platt在论文中给出的伪代码。
13 总结
这份SVM的讲义重点概括了SVM的基本概念和基本推导,中规中矩却又让人醍醐灌顶。起初让我最头疼的是拉格朗日对偶和SMO,后来逐渐明白拉格朗日对偶的重要作用是将w的计算提前并消除w,使得优化函数变为拉格朗日乘子的单一参数优化问题。而SMO里面迭代公式的推导也着实让我花费了不少时间。
对比这么复杂的推导过程,SVM的思想确实那么简单。它不再像logistic回归一样企图去拟合样本点(中间加了一层sigmoid函数变换),而是就在样本中去找分隔线,为了评判哪条分界线更好,引入了几何间隔最大化的目标。
之后所有的推导都是去解决目标函数的最优化上了。在解决最优化的过程中,发现了w可以由特征向量内积来表示,进而发现了核函数,仅需要调整核函数就可以将特征进行低维到高维的变换,在低维上进行计算,实质结果表现在高维上。由于并不是所有的样本都可分,为了保证SVM的通用性,进行了软间隔的处理,导致的结果就是将优化问题变得更加复杂,然而惊奇的是松弛变量没有出现在最后的目标函数中。最后的优化求解问题,也被拉格朗日对偶和SMO算法化解,使SVM趋向于完美。
另外,其他很多议题如SVM背后的学习理论、参数选择问题、二值分类到多值分类等等还没有涉及到,以后有时间再学吧。其实朴素贝叶斯在分类二值分类问题时,如果使用对数比,那么也算作线性分类器。
SVM(三) SMO优化算法求解相关推荐
- SVM之SMO优化算法
转载出处:JerryLead 11 SMO优化算法(Sequential minimal optimization) SMO算法由Microsoft Research的John C. Platt在19 ...
- SMO优化算法(Sequential minimal optimization)
转载地址:http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.html 11 SMO优化算法(Sequential minimal ...
- 11 SMO优化算法
11 SMO优化算法(Sequential minimal optimization) SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规 ...
- SMO优化算法(转)
11 SMO优化算法(Sequential minimal optimization)转自 http://www.cnblogs.com/jerrylead/archive/2011/03/18/19 ...
- CEC2015:动态多目标野狗优化算法求解CEC2015(提供完整MATLAB代码,含GD、IGD、HV和SP评价指标)
一.动态多目标优化问题简介 现实世界中,许多优化问题不仅具有多属性,而且与时间相关,即随着时间的变化,优化问题本身也发生改变,这类问题称为动态多目标优化问题(dynamic multi-objecti ...
- 【多目标优化求解】基于matlab灰狼优化算法求解多目标优化问题 【含Matlab源码 007期】
⛄一.获取代码方式 获取代码方式1: 完整代码已上传我的资源:[多目标优化求解]基于matlab灰狼优化算法求解多目标优化问题 [含Matlab源码 007期] 获取代码方式2: 通过订阅紫极神光博客 ...
- 支持向量机(四)——深入理解SMO优化算法
本文结合了<统计学习方法>,吴恩达中文笔记,以及一些博客文章https://www.cnblogs.com/pinard/p/6111471.html,http://www.cnblogs ...
- 优化算法求解复杂约束问题策略(以粒子群算法为例讲解求解复杂约束问题的多种策略)
优化算法求解复杂约束问题策略(以粒子群算法为例讲解求解复杂约束问题的多种策略)python实现 整个代码文字讲解共17页 提示:专栏解锁后,可以查看该专栏所有文章. 文章目录 策略1:在位置更 ...
- matlab采用粒子群优化算法求解含压缩储能设备的综合能源系统运行优化
matlab采用粒子群优化算法求解含压缩储能设备的综合能源系统运行优化. 结果包含储能设备24时出力,内燃机发电和发热出力,电制冷机出力等. 代码包含相关注释,方便对算法进行改进. 附相关参考文献. ...
最新文章
- Python作为目前的大势,有哪些优势?
- python列表解析式_Python基础入门-列表解析式
- ip classless作用
- JDBC: Java连接MySQL
- 采用存储复制方式同步数据,实现数据库安全升级
- linux查看删除init内容,linux常用命令
- 前端开发框架_2019年应该如何学习前端开发?
- 【英语学习】【WOTD】reverberate 释义/词源/示例
- 百度只能靠 AI 续命了?
- 一张图解释IaaS,PaaS,SaaS
- lzg_ad:原创XPE开发视频教材
- 一名高校老师的观点:高考志愿该怎么填
- 面向对象实现气缸吹气类的PLC逻辑
- 如何解决eclipse桌面快捷方式无法打开,jre or jkd的问题
- 从TPCC看DM8常见集群架构开销
- C++之类和对象2:消得人憔悴
- 工具(6): 开发神器
- 蓝肽子序列 [蓝桥杯]
- Maple学习笔记——数学计算与数据处理
- 《遥感云计算与科学分析》GEE教材中配套代码链接
热门文章
- 怎样将 HomePod、HomePod mini、Apple TV 或 iPad 设置为家居中枢?
- 多模Zigbee, Thread,BLE芯片的未来趋势
- socks5代理服务器协议的说明
- PSR-4与PSR-0的区别
- 视频监控方案与多媒体应用系统介绍 (zz)
- Android多媒体:H264格式文件转MP4格式文件
- xampp的mysql要怎么配置_XAMPP phpmyadmin MYSQL的配置
- python-鼠标拖拽
- tf.convert_to_tensor的用法
- W5300建立TCP连接以后,Socket0数据收发正常,其它Socket有数据丢失是什么问题?