1. p.128

图中,从上式到下式的推导不是很明了,困惑在于上式中右边含有α1,α2α1,α2\alpha_1,\alpha_2这样岂不是和左边的α2α2\alpha_2相消?若能相消,上述求偏导的过程中岂不是忽略了v1,v2v1,v2v_1,v_2是α1,α2α1,α2\alpha_1,\alpha_2的函数?答案并非如此,左边的αα\alpha与右边的α2α2\alpha_2相当不同。

2. 定理7.6的证明

即求最优化问题:

minα1,α2W(α1,α2)=12K11α21+12K22α22+y1y2K21α1α2−(α1+α2)+y1α1∑i=3NyiαiKi1+y2α2∑i=3NyiαiKi2s.t.α1y1+α2y2=−∑i=3Nyiαi=ς(1)0≤αi≤C,i=1,2(2)minα1,α2W(α1,α2)=12K11α12+12K22α22+y1y2K21α1α2−(α1+α2)+y1α1∑i=3NyiαiKi1+y2α2∑i=3NyiαiKi2s.t.α1y1+α2y2=−∑i=3Nyiαi=ς(1)0≤αi≤C,i=1,2(2)\min\limits_{\alpha_1,\alpha_2}W(\alpha_1,\alpha_2)=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_22\alpha_2^2+y_1y_2K_{21}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y_1\alpha_1\sum\limits_{i=3}^{N}y_i\alpha_iK_{i1}+y_2\alpha_2\sum\limits_{i=3}^Ny_i\alpha_iK_{i2}\\ \quad s.t. \\ \qquad \alpha_1y_1+\alpha_2y_2=-\sum\limits_{i=3}^Ny_i\alpha_i=\varsigma \qquad(1)\\ \qquad 0\le\alpha_i\le C ,\quad i=1,2 \qquad(2)
沿着约束方向未经剪辑的解为: αnew,unc2=αold2+y2(E1−E2)ηα2new,unc=α2old+y2(E1−E2)η\alpha_2^{new,unc}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}
其中, η=K11+K22−2K21=‖Φ(x1)−Φ(x2)‖2Ei=g(xi)−yi,i=1,2g(x)=∑i=1NαiyiK(xi,x)+bη=K11+K22−2K21=‖Φ(x1)−Φ(x2)‖2Ei=g(xi)−yi,i=1,2g(x)=∑i=1NαiyiK(xi,x)+b\eta=K_{11}+K_{22}-2K_{21}=\|\Phi(x_1)-\Phi(x_2)\|^2\\ E_i=g(x_i)-y_i , \quad i=1,2 \\ g(x)=\sum\limits_{i=1}^{N}\alpha_iy_iK(x_i,x)+b
EiEiE_i为函数g(xi)g(xi)g(x_i)对输入xixix_i的预测值与真实输出yiyiy_i之间的差.

证明:

引入记号变量 vi=∑j=3NαjyjK(xi,xj)=g(xi)−∑j=12αjyjK(xi,xj)−b,i=1,2vi=∑j=3NαjyjK(xi,xj)=g(xi)−∑j=12αjyjK(xi,xj)−b,i=1,2v_i=\sum\limits_{j=3}^{N}\alpha_jy_jK(x_i,x_j)=g(x_i)-\sum\limits_{j=1}^{2}\alpha_jy_jK(x_i,x_j)-b, \quad i=1,2
再由α1y1+α2y2=ςα1y1+α2y2=ς\alpha_1y_1+\alpha_2y_2=\varsigma 和 y2i=1yi2=1y_i^2=1可将目标函数W(α1,α2)W(α1,α2)W(\alpha_1,\alpha_2)表示成只含α2α2\alpha_2的函数:

W(α2)=12K11(ς−α2y2)2+12K22α22+y2K21(ς−α2y2)α2−(ς−α2y2)y1−α2+v1(ς−α2y2)+y2v2α2W(α2)=12K11(ς−α2y2)2+12K22α22+y2K21(ς−α2y2)α2−(ς−α2y2)y1−α2+v1(ς−α2y2)+y2v2α2W(\alpha_2)=\frac{1}{2}K_{11}(\varsigma-\alpha_2y_2)^2+\frac{1}{2}K_{22}\alpha_2^2+y_2K_{21}(\varsigma-\alpha_2y_2)\alpha_2-(\varsigma-\alpha_2y_2)y_1-\alpha_2+v_1(\varsigma-\alpha_2y_2)+y_2v_2\alpha_2
对α2α2\alpha_2求偏导可得: ∂W∂α2=K11α2+K22α2−2K21α2−K11ςy2+K21ςy2+y1y2−1−v1y2+v2y2∂W∂α2=K11α2+K22α2−2K21α2−K11ςy2+K21ςy2+y1y2−1−v1y2+v2y2\frac{\partial W}{\partial \alpha_2}=K_{11}\alpha_2+K_{22}\alpha_2-2K_{21}\alpha_2-K_{11}\varsigma y_2+K_{21}\varsigma y_2+y_1y_2-1-v_1y_2+v_2y_2
令其等于0,即可求出上述问题的最优解,得到: (K11+K22−2K21)α2=y2(y2−y1+ςK11−ςK21+v1−v2)(2−1)(K11+K22−2K21)α2=y2(y2−y1+ςK11−ςK21+v1−v2)(2−1)(K_{11}+K_{22}-2K_{21})\alpha_2=y_2(y_2-y_1+\varsigma K_{11}-\varsigma K_{21}+v_1-v_2)\qquad (2-1)
这里,不同与书上,我先求v1−v2v1−v2v_1-v_2,
由viviv_i的定义可知v1−v2v1−v2v_1-v_2为: v1−v2=⟮g(x1)−∑j=12yjαjK1j−b⟯−⟮g(x2)−∑j=12yjαjK2j−b⟯=g(x1)−g(x2)+y1α1K21−y1α1K11+y2α2K22−y2α2K21∵α1y1+α2y2=ς,y21=1∴α1=(ς−y2α2)y1,代入得,=g(x1)−g(x2)+(ς−y2α2)K21−(ς−y2α2)K11−y2α2K21+y2α2K22=g(x1)−g(x2)+ςK21−ςK11+y2α2(K11+K22−2K21)v1−v2=⟮g(x1)−∑j=12yjαjK1j−b⟯−⟮g(x2)−∑j=12yjαjK2j−b⟯=g(x1)−g(x2)+y1α1K21−y1α1K11+y2α2K22−y2α2K21∵α1y1+α2y2=ς,y12=1∴α1=(ς−y2α2)y1,代入得,=g(x1)−g(x2)+(ς−y2α2)K21−(ς−y2α2)K11−y2α2K21+y2α2K22=g(x1)−g(x2)+ςK21−ςK11+y2α2(K11+K22−2K21)v_1-v_2= \lgroup g(x_1)-\sum\limits_{j=1}^{2}y_j\alpha_jK_{1j}-b\rgroup-\lgroup g(x_2)-\sum\limits_{j=1}^{2}y_j\alpha_jK_{2j}-b\rgroup\\ \qquad \quad=g(x_1)-g(x_2)+y_1\alpha_1K_{21}-y_1\alpha_1K_{11}+y_2\alpha_2K_{22}-y_2\alpha_2K_{21}\\ \because \alpha_1y_1+\alpha_2y_2=\varsigma,\quad y_1^2=1\\\therefore \alpha_1=(\varsigma-y_2\alpha_2)y_1 ,代入得,\\\qquad\quad =g(x_1)-g(x_2)+(\varsigma-y_2\alpha_2)K_{21}-(\varsigma-y_2\alpha_2)K_{11}-y_2\alpha_2K_{21}+y_2\alpha_2K_{22}\\\qquad\quad =g(x_1)-g(x_2)+\varsigma K_{21}-\varsigma K_{11}+y_2\alpha_2(K_{11}+K_{22}-2K_{21})
值得注意的是,v1−v2v1−v2v_1-v_2中的α1,α2α1,α2\alpha_1,\alpha_2是没有更新前的αα\alpha,即αoldαold\alpha^{old}
∴v1−v2=g(x1)−g(x2)+ςK21−ςK11+y2αold2(K11+K22−2K21)∴v1−v2=g(x1)−g(x2)+ςK21−ςK11+y2α2old(K11+K22−2K21)\therefore v_1-v_2=g(x_1)-g(x_2)+\varsigma K_{21}-\varsigma K_{11}+y_2\alpha_2^{old}(K_{11}+K_{22}-2K_{21}) 将上式代入到式(2-1)中即可求得αnew,unc2=αold2+y2(E1−E2)ηα2new,unc=α2old+y2(E1−E2)η\alpha_2^{new,unc}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}

李航《统计学习方法》SMO算法推导中的思考相关推荐

  1. 李航统计学习方法EM算法三枚硬币例子Q函数推导

    具体推导如下: 上面推导省略了第i次迭代的i的标记 当得到上式以后,可以参考 http://www.cnblogs.com/Determined22/p/5776791.html 来继续一下推导 当然 ...

  2. 统计学习方法 pdf_李航统计学习方法(第三章)

    第3章 k 近邻法 k 近邻法(k-NN)是一种基于实例的学习方法,无法转化为对参数空间的搜索问题(参数最优化问题).它的特点是对特征空间进行搜索.除了k近邻法,本章还对以下几个问题进行较深入的讨论: ...

  3. 【李航统计学习方法】感知机模型

    目录 一.感知机模型 二.感知机的学习策略 三.感知机学习算法 感知机算法的原始形式 感知机模型的对偶形式 参考文献 本章节根据统计学习方法,分为模型.策略.算法三个方面来介绍感知机模型. 首先介绍感 ...

  4. 机器学习:李航-统计学习方法-代码实现

    <统计学习方法>的代码实现分享 <统计学习方法>这本书,附件里并没有代码实现,于是许多研究者复现了里面算法的代码,并放在github里分享,这里介绍几个比较热门的<统计学 ...

  5. 重磅开源!所有的李航老师《统计学习方法》算法代码实现!!!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 超有料的仓库项目资源---<统计学习方法>代码 李航老师的<统计 ...

  6. SVM(基于李航统计学习方法,包含SMO)

    文章目录 线性可分SVM和硬间隔最大化 函数间隔和几何间隔 间隔最大化 支持向量 学习的对偶算法 线性SVM和软间隔最大化 支持向量 非线性SVM和核函数 SMO算法 求解二次规划 选择变量 第一个变 ...

  7. 《李航 统计学习方法》学习笔记——第八章提升方法

    提升方法 8.1提升方法AdaBoost 8.1.1提升方法的基本思路 8.1.2AdaBoost算法 8.1.3AdaBoost的例子(代码实现) 8.2AdaBoost算法的训练误差分析 定理8. ...

  8. 李航统计学习方法笔记——泛化误差上界

    泛化误差上界 References 统计学习方法(第2版)李航著 p25~27 定理 对于二分类问题,当假设空间是有限个函数的集合F={f1,f2,...,fd}F=\{f_1,f_2,...,f_d ...

  9. 李航统计学习感知机算法实现

    前言 李航的<统计学习方法>和西瓜书是入门机器学习进而到深度学习的经典书籍,笔者是数学专业大二在读,在编程方面仍有许多不足之处,在已经看完相关经典书籍后开始编程实践.因为本人愚钝,且不善编 ...

最新文章

  1. pandas使用pct_change函数计算数据列的百分比变化:计算当前元素和前一个元素之间的百分比变化(包含NaN值的情况以及数据填充方法)
  2. RHEL5.5配置DHCP服务器以及DHCP中继
  3. [JDK]找不到或无法加载主类 java
  4. Shell 编程基础1 2019-7-6
  5. Spring Boot知识清单
  6. java更好的语言_Java,如果这是一个更好的世界
  7. redis 持久化性能_高性能持久消息
  8. asoc linux设备驱动_Linux驱动分析之I2C设备
  9. web 服务器被配置为不列出此目录的内容。_三级网络技术考前选择题12—WWW服务器...
  10. 随想录(linux下的pv操作)
  11. 如何控制局域网网速_科普 | 路由器网速突然变慢怎么办?
  12. vue.js之过渡效果-css
  13. python怎么使用-Python中__all__作用何在以及如何使用?
  14. 基于DWM1000的UWB测距调试(二)
  15. 通达信公式编写初中高级全套教程(附:通达信全部函数表)
  16. 机动车尾气排放模型综述
  17. 《天长地久》写照真实生活为何被影迷埋没不被欣赏
  18. 南阳理工题目---218Dinner
  19. 四舍六入五成双(C语言版)
  20. 【均衡器】LS均衡器,DEF均衡器以及LMMSE均衡器的误码率性能对比仿真

热门文章

  1. bzoj 1615: [Usaco2008 Mar]The Loathesome Hay Baler麻烦的干草打包机
  2. opencv学习第6课官方练习实现 Create a Paint application with adjustable colors and brush radius using trackbars
  3. [Python+sklearn] 拆分数据集为训练和测试子集 sklearn.model_selection.train_test_split()
  4. cube云原生机器学习平台-架构(三)
  5. Echarts数据可视化tooltip提示框,开发全解+完美注释
  6. 微波网络转移参量[A]表示阻抗矩阵[Z]和导纳矩阵[Y]
  7. nginx系列11:负载均衡哈希算法ip_hash与hash模块
  8. node 创建静态web服务器(上)
  9. ASP.NET 实现上传EXCEL,利用NOPI操作,转换得到DataTable
  10. C#编程(六十六)----------表达式树总结