李航《统计学习方法》SMO算法推导中的思考
1. p.128
图中,从上式到下式的推导不是很明了,困惑在于上式中右边含有α1,α2α1,α2\alpha_1,\alpha_2这样岂不是和左边的α2α2\alpha_2相消?若能相消,上述求偏导的过程中岂不是忽略了v1,v2v1,v2v_1,v_2是α1,α2α1,α2\alpha_1,\alpha_2的函数?答案并非如此,左边的αα\alpha与右边的α2α2\alpha_2相当不同。
2. 定理7.6的证明
即求最优化问题:
minα1,α2W(α1,α2)=12K11α21+12K22α22+y1y2K21α1α2−(α1+α2)+y1α1∑i=3NyiαiKi1+y2α2∑i=3NyiαiKi2s.t.α1y1+α2y2=−∑i=3Nyiαi=ς(1)0≤αi≤C,i=1,2(2)minα1,α2W(α1,α2)=12K11α12+12K22α22+y1y2K21α1α2−(α1+α2)+y1α1∑i=3NyiαiKi1+y2α2∑i=3NyiαiKi2s.t.α1y1+α2y2=−∑i=3Nyiαi=ς(1)0≤αi≤C,i=1,2(2)\min\limits_{\alpha_1,\alpha_2}W(\alpha_1,\alpha_2)=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_22\alpha_2^2+y_1y_2K_{21}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y_1\alpha_1\sum\limits_{i=3}^{N}y_i\alpha_iK_{i1}+y_2\alpha_2\sum\limits_{i=3}^Ny_i\alpha_iK_{i2}\\ \quad s.t. \\ \qquad \alpha_1y_1+\alpha_2y_2=-\sum\limits_{i=3}^Ny_i\alpha_i=\varsigma \qquad(1)\\ \qquad 0\le\alpha_i\le C ,\quad i=1,2 \qquad(2)
沿着约束方向未经剪辑的解为: αnew,unc2=αold2+y2(E1−E2)ηα2new,unc=α2old+y2(E1−E2)η\alpha_2^{new,unc}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}
其中, η=K11+K22−2K21=‖Φ(x1)−Φ(x2)‖2Ei=g(xi)−yi,i=1,2g(x)=∑i=1NαiyiK(xi,x)+bη=K11+K22−2K21=‖Φ(x1)−Φ(x2)‖2Ei=g(xi)−yi,i=1,2g(x)=∑i=1NαiyiK(xi,x)+b\eta=K_{11}+K_{22}-2K_{21}=\|\Phi(x_1)-\Phi(x_2)\|^2\\ E_i=g(x_i)-y_i , \quad i=1,2 \\ g(x)=\sum\limits_{i=1}^{N}\alpha_iy_iK(x_i,x)+b
EiEiE_i为函数g(xi)g(xi)g(x_i)对输入xixix_i的预测值与真实输出yiyiy_i之间的差.
证明:
引入记号变量 vi=∑j=3NαjyjK(xi,xj)=g(xi)−∑j=12αjyjK(xi,xj)−b,i=1,2vi=∑j=3NαjyjK(xi,xj)=g(xi)−∑j=12αjyjK(xi,xj)−b,i=1,2v_i=\sum\limits_{j=3}^{N}\alpha_jy_jK(x_i,x_j)=g(x_i)-\sum\limits_{j=1}^{2}\alpha_jy_jK(x_i,x_j)-b, \quad i=1,2
再由α1y1+α2y2=ςα1y1+α2y2=ς\alpha_1y_1+\alpha_2y_2=\varsigma 和 y2i=1yi2=1y_i^2=1可将目标函数W(α1,α2)W(α1,α2)W(\alpha_1,\alpha_2)表示成只含α2α2\alpha_2的函数:
W(α2)=12K11(ς−α2y2)2+12K22α22+y2K21(ς−α2y2)α2−(ς−α2y2)y1−α2+v1(ς−α2y2)+y2v2α2W(α2)=12K11(ς−α2y2)2+12K22α22+y2K21(ς−α2y2)α2−(ς−α2y2)y1−α2+v1(ς−α2y2)+y2v2α2W(\alpha_2)=\frac{1}{2}K_{11}(\varsigma-\alpha_2y_2)^2+\frac{1}{2}K_{22}\alpha_2^2+y_2K_{21}(\varsigma-\alpha_2y_2)\alpha_2-(\varsigma-\alpha_2y_2)y_1-\alpha_2+v_1(\varsigma-\alpha_2y_2)+y_2v_2\alpha_2
对α2α2\alpha_2求偏导可得: ∂W∂α2=K11α2+K22α2−2K21α2−K11ςy2+K21ςy2+y1y2−1−v1y2+v2y2∂W∂α2=K11α2+K22α2−2K21α2−K11ςy2+K21ςy2+y1y2−1−v1y2+v2y2\frac{\partial W}{\partial \alpha_2}=K_{11}\alpha_2+K_{22}\alpha_2-2K_{21}\alpha_2-K_{11}\varsigma y_2+K_{21}\varsigma y_2+y_1y_2-1-v_1y_2+v_2y_2
令其等于0,即可求出上述问题的最优解,得到: (K11+K22−2K21)α2=y2(y2−y1+ςK11−ςK21+v1−v2)(2−1)(K11+K22−2K21)α2=y2(y2−y1+ςK11−ςK21+v1−v2)(2−1)(K_{11}+K_{22}-2K_{21})\alpha_2=y_2(y_2-y_1+\varsigma K_{11}-\varsigma K_{21}+v_1-v_2)\qquad (2-1)
这里,不同与书上,我先求v1−v2v1−v2v_1-v_2,
由viviv_i的定义可知v1−v2v1−v2v_1-v_2为: v1−v2=⟮g(x1)−∑j=12yjαjK1j−b⟯−⟮g(x2)−∑j=12yjαjK2j−b⟯=g(x1)−g(x2)+y1α1K21−y1α1K11+y2α2K22−y2α2K21∵α1y1+α2y2=ς,y21=1∴α1=(ς−y2α2)y1,代入得,=g(x1)−g(x2)+(ς−y2α2)K21−(ς−y2α2)K11−y2α2K21+y2α2K22=g(x1)−g(x2)+ςK21−ςK11+y2α2(K11+K22−2K21)v1−v2=⟮g(x1)−∑j=12yjαjK1j−b⟯−⟮g(x2)−∑j=12yjαjK2j−b⟯=g(x1)−g(x2)+y1α1K21−y1α1K11+y2α2K22−y2α2K21∵α1y1+α2y2=ς,y12=1∴α1=(ς−y2α2)y1,代入得,=g(x1)−g(x2)+(ς−y2α2)K21−(ς−y2α2)K11−y2α2K21+y2α2K22=g(x1)−g(x2)+ςK21−ςK11+y2α2(K11+K22−2K21)v_1-v_2= \lgroup g(x_1)-\sum\limits_{j=1}^{2}y_j\alpha_jK_{1j}-b\rgroup-\lgroup g(x_2)-\sum\limits_{j=1}^{2}y_j\alpha_jK_{2j}-b\rgroup\\ \qquad \quad=g(x_1)-g(x_2)+y_1\alpha_1K_{21}-y_1\alpha_1K_{11}+y_2\alpha_2K_{22}-y_2\alpha_2K_{21}\\ \because \alpha_1y_1+\alpha_2y_2=\varsigma,\quad y_1^2=1\\\therefore \alpha_1=(\varsigma-y_2\alpha_2)y_1 ,代入得,\\\qquad\quad =g(x_1)-g(x_2)+(\varsigma-y_2\alpha_2)K_{21}-(\varsigma-y_2\alpha_2)K_{11}-y_2\alpha_2K_{21}+y_2\alpha_2K_{22}\\\qquad\quad =g(x_1)-g(x_2)+\varsigma K_{21}-\varsigma K_{11}+y_2\alpha_2(K_{11}+K_{22}-2K_{21})
值得注意的是,v1−v2v1−v2v_1-v_2中的α1,α2α1,α2\alpha_1,\alpha_2是没有更新前的αα\alpha,即αoldαold\alpha^{old}
∴v1−v2=g(x1)−g(x2)+ςK21−ςK11+y2αold2(K11+K22−2K21)∴v1−v2=g(x1)−g(x2)+ςK21−ςK11+y2α2old(K11+K22−2K21)\therefore v_1-v_2=g(x_1)-g(x_2)+\varsigma K_{21}-\varsigma K_{11}+y_2\alpha_2^{old}(K_{11}+K_{22}-2K_{21}) 将上式代入到式(2-1)
中即可求得αnew,unc2=αold2+y2(E1−E2)ηα2new,unc=α2old+y2(E1−E2)η\alpha_2^{new,unc}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}
李航《统计学习方法》SMO算法推导中的思考相关推荐
- 李航统计学习方法EM算法三枚硬币例子Q函数推导
具体推导如下: 上面推导省略了第i次迭代的i的标记 当得到上式以后,可以参考 http://www.cnblogs.com/Determined22/p/5776791.html 来继续一下推导 当然 ...
- 统计学习方法 pdf_李航统计学习方法(第三章)
第3章 k 近邻法 k 近邻法(k-NN)是一种基于实例的学习方法,无法转化为对参数空间的搜索问题(参数最优化问题).它的特点是对特征空间进行搜索.除了k近邻法,本章还对以下几个问题进行较深入的讨论: ...
- 【李航统计学习方法】感知机模型
目录 一.感知机模型 二.感知机的学习策略 三.感知机学习算法 感知机算法的原始形式 感知机模型的对偶形式 参考文献 本章节根据统计学习方法,分为模型.策略.算法三个方面来介绍感知机模型. 首先介绍感 ...
- 机器学习:李航-统计学习方法-代码实现
<统计学习方法>的代码实现分享 <统计学习方法>这本书,附件里并没有代码实现,于是许多研究者复现了里面算法的代码,并放在github里分享,这里介绍几个比较热门的<统计学 ...
- 重磅开源!所有的李航老师《统计学习方法》算法代码实现!!!
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 超有料的仓库项目资源---<统计学习方法>代码 李航老师的<统计 ...
- SVM(基于李航统计学习方法,包含SMO)
文章目录 线性可分SVM和硬间隔最大化 函数间隔和几何间隔 间隔最大化 支持向量 学习的对偶算法 线性SVM和软间隔最大化 支持向量 非线性SVM和核函数 SMO算法 求解二次规划 选择变量 第一个变 ...
- 《李航 统计学习方法》学习笔记——第八章提升方法
提升方法 8.1提升方法AdaBoost 8.1.1提升方法的基本思路 8.1.2AdaBoost算法 8.1.3AdaBoost的例子(代码实现) 8.2AdaBoost算法的训练误差分析 定理8. ...
- 李航统计学习方法笔记——泛化误差上界
泛化误差上界 References 统计学习方法(第2版)李航著 p25~27 定理 对于二分类问题,当假设空间是有限个函数的集合F={f1,f2,...,fd}F=\{f_1,f_2,...,f_d ...
- 李航统计学习感知机算法实现
前言 李航的<统计学习方法>和西瓜书是入门机器学习进而到深度学习的经典书籍,笔者是数学专业大二在读,在编程方面仍有许多不足之处,在已经看完相关经典书籍后开始编程实践.因为本人愚钝,且不善编 ...
最新文章
- pandas使用pct_change函数计算数据列的百分比变化:计算当前元素和前一个元素之间的百分比变化(包含NaN值的情况以及数据填充方法)
- RHEL5.5配置DHCP服务器以及DHCP中继
- [JDK]找不到或无法加载主类 java
- Shell 编程基础1 2019-7-6
- Spring Boot知识清单
- java更好的语言_Java,如果这是一个更好的世界
- redis 持久化性能_高性能持久消息
- asoc linux设备驱动_Linux驱动分析之I2C设备
- web 服务器被配置为不列出此目录的内容。_三级网络技术考前选择题12—WWW服务器...
- 随想录(linux下的pv操作)
- 如何控制局域网网速_科普 | 路由器网速突然变慢怎么办?
- vue.js之过渡效果-css
- python怎么使用-Python中__all__作用何在以及如何使用?
- 基于DWM1000的UWB测距调试(二)
- 通达信公式编写初中高级全套教程(附:通达信全部函数表)
- 机动车尾气排放模型综述
- 《天长地久》写照真实生活为何被影迷埋没不被欣赏
- 南阳理工题目---218Dinner
- 四舍六入五成双(C语言版)
- 【均衡器】LS均衡器,DEF均衡器以及LMMSE均衡器的误码率性能对比仿真
热门文章
- bzoj 1615: [Usaco2008 Mar]The Loathesome Hay Baler麻烦的干草打包机
- opencv学习第6课官方练习实现 Create a Paint application with adjustable colors and brush radius using trackbars
- [Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()
- cube云原生机器学习平台-架构(三)
- Echarts数据可视化tooltip提示框,开发全解+完美注释
- 微波网络转移参量[A]表示阻抗矩阵[Z]和导纳矩阵[Y]
- nginx系列11:负载均衡哈希算法ip_hash与hash模块
- node 创建静态web服务器(上)
- ASP.NET 实现上传EXCEL,利用NOPI操作,转换得到DataTable
- C#编程(六十六)----------表达式树总结