参考链接:

1.https://blog.csdn.net/TaiJi1985/article/details/75087742

2.李航《统计学习方法》7.1节 线性可分支持向量机与硬间隔最大化

3.https://zhuanlan.zhihu.com/p/45444502,第三部分 手推SVM

本文目标:理解SVM的原始目标,即间隔最大化,并将其表示为约束最优化问题的转换道理。

背景知识:假设已经知道了分离平面的参数w和b,函数间隔γ',几何间隔γ,不懂的可以参考书本及其它。

为了将线性可分的数据集彻底分开,并分得最好,SVM的原始目标是找到一个平面(用w,b表示,二维数据中是一条直线,如下图所示),使得该平面与正负两类样本的最近样本点的距离最大化。简单的说,就是任给一个平面w,b,总有一个样本点离它的距离最近(点到平面的距离,可以用来表示),过该样本点作平行于分割平面的平面,两个平面形成分隔带。我们的目标是比较各种平面(无数个),找出一个平面使得“分隔带最胖”。那么如何来表述“分隔带最胖”呢?

(引自参考链接1)

对于平面w,b来说,假设距离平面最近的点是,又由于该平面w,b可以将所有样本点正确分类,即满足,因此我们可以将上述最近点到平面w,b的距离改写为,其中取值为+1或-1。因此我们的目标就是最大化,注意该式子中已经是离超平面w,b最近点了,称为γ超平面w,b关于训练数据集T的几何间隔

因此我们的原始问题:求得一个几何间隔最大的分离超平面,可以表示为下述约束最优化问题:

重要问题一:为何会出现第二行中的约束条件?

有了这N个约束条件,好像w,b的可选范围小了很多,跟一开始单纯的最大化几何间隔的任意选w,b有所背离啊?等等,这儿需要注意的是,一开始我们目标是最大化几何间隔,这个几何间隔其实是所有样本点的几何间隔中最小值,而所有样本点的几何间隔有可能是正数(被正确划分),也有可能是负数(被错分)。但是我们一开始讨论最大化几何间隔的时候已经默认平面w,b把训练集T中的所有样本点都正确分类了,只有这样我们才会要求“分隔带最胖”啊,如果有错分的,那分隔带越胖就越不好了。因此满足将所有样本点都正确分类的w,b本来就没多少(限制在一定的范围内了,虽然还是有无数种可能),所以原本我们就要求w,b满足,而且还得要求如下,

,以保证之前是离超平面w,b最近点的设定

重要问题二:能否对约束最优化问题进行简化?因为目前来看被优化的目标函数γ跟w,b和都有关系,有点不简洁。

解决思路是,对于任意的平面w,b,其实都有无数组参数(λw,λb)λ不为0,都表示该平面。因此我每次选到一个w,b,就相应的知道了最近点(最近点其实是依赖于w,b的,称为支持向量,个人理解也可以称作支持样本点),我都缩放一下w,b,使得函数间隔γ'=1,即:

。注意到,缩放w,b前后,其所代表的平面是同一个超平面;而且缩放w,b对于目标函数γ毫无影响,因为其分子分母都是缩放相同的倍数;再者,约束条件的不等号两边都是同时缩放相同的倍数,也无影响。因此,如果我们采用枚举法来求解上述最优化问题(为直观理解,其实是枚举不完的),每次我们随机考察一个平面(w,b),我们都缩放为(w',b')=(λw,λb),使得函数间隔γ'=1,那么我们依旧在考察同一个平面,依旧能算出和缩放前一样的目标函数γ值,依旧符合同样的约束条件。这么处理(特定缩放)有何好处呢?通过这样的处理,我们把约束最优化问题可以转化为如下形式:

如此形式,简洁明了多了。再者我们可以将max变为min,最大化与最小化是等价的,就得到了如下线性可分支持向量机学习的最优化问题:

PS:

为加深上述重要问题二的理解,我们可以举一个例子来验证它。

假设有A,B两种w,b的方案,A平面的支持向量(最近点),B平面的支持向量,我们来比较A,B方案的优劣。

     1)首先在原始目标函数下,得到两个平面的γ如下:

  我们假设,那么我们换种思路来比较A方案与B方案,看看结果是否一致。

   2)令,注意到在给定平面A的情况下这是一个数(其实就是平面A关于训练集T的函数间隔)。

     我们令缩放为,则

   同理,对于平面B,我们可以将缩放为,则

     现在我们通过比较来确定哪个方案更好,是A还是B?

所以我们发现结果是一致的,A优于B,而且目标函数值也与原目标函数值一致。至此,我们验证了准确性,直观感受了w,b缩放前后目标函数值的不变性。

转载于:https://www.cnblogs.com/alesvel/p/9882312.html

SVM中的间隔最大化相关推荐

  1. SVM为什么采用间隔最大化?SVM为什么将原始问题转换为其对偶问题?

    SVM为什么采用间隔最大化?SVM为什么将原始问题转换为其对偶问题? SVM为什么采用间隔最大化? SVM的基本思想就是求解能够正确划分训练数据集并且几何间隔最大的分离超平面,这里的间隔最大化又叫做硬 ...

  2. SVM中为何间隔边界的值为正负1

    在WB二面中,问到让讲一下SVM算法. 我回答的时候,直接答道线性分隔面将样本分为正负两类,取平行于线性分割面的两个面作为间隔边界,分别为:wx+b=1和wx+ b = -1. 面试官就问,为什么是正 ...

  3. SVM中函数间隔和几何间隔的区别

    1.用|w∗x+b|表示点x到超平面0的距离远近,(w∗x+b)∗y表示分类的正确性以及确信度. 2.在二分类问题里,如果(w∗x+b)>0,则x的类别被判定为1:如果(w∗x+b)<0, ...

  4. SVM支持向量机原理(二) 线性支持向量机的软间隔最大化模型

    在支持向量机原理(一) 线性支持向量机中,我们对线性可分SVM的模型和损失函数优化做了总结.最后我们提到了有时候不能线性可分的原因是线性数据集里面多了少量的异常点,由于这些异常点导致了数据集不能线性可 ...

  5. SVM 推到期间 遇到的 表背景知识 (间隔最大化)

    背景,在看原理的时候,发现很多地方一知半解的,补充如下. 其他补充: 注:以下的默认为2分类 1.SVM原理: (1)输入空间到特征空间得映射 所谓输入空间即是输入样本集合,有部分情况输入空间与特征空 ...

  6. 支持向量机SVM(1)——间隔最大化

    支持向量机SVM--间隔最大化 1.超平面 2.函数间隔和几何间隔 3.间隔最大化 本文主要参考<机器学习>.<统计学习方法>. 支持向量机主要分类三类:线性可分支持向量机(数 ...

  7. 【机器学习】SVM中对函数间隔和几何间隔的理解

    超平面表达式: 函数间隔 : 对于在超平面上的点, w x + b = 0 wx+b=0 wx+b=0 恒成立.而超平面之外的点,可以认为距离越远, w x + b wx+b wx+b 的绝对值越大, ...

  8. SVM详解(一)线性可分支持向量机与硬间隔最大化

    文章目录 1. 引言 2. 函数间隔与几何间隔 3. 间隔最大化 4. 最大间隔分离超平面的存在唯一性 5. 支持向量和间隔边界 6. 学习的对偶算法 1. 引言 我们在介绍感知机的时候知道,对于线性 ...

  9. svm中的数学和算法

    转载自:http://blog.csdn.net/sealyao/article/details/6442403 支持向量机(Support Vector Machine)是Cortes和Vapnik ...

最新文章

  1. php 编译安装降解,对php编译安装的修正
  2. 手摸手,带你用 vue 动画实现原生 app 切换效果,丝滑般的体验
  3. 线程和进程有什么区别
  4. 【MFC】状态栏随对话框的改变而改变
  5. PHP获取客户端的真实IP
  6. HDU4532(组合DP)
  7. 为什么当代人越来越不快乐?
  8. java 注解应用技巧_改善Java应用程序性能的快速技巧
  9. CI框架PHP漫画小说二合一CMS
  10. 最新试客联盟JS逆向分析
  11. ROS外接usb摄像头标定方法
  12. 【转】SVN中的Branches分支以及Tags标签详解与应用举例
  13. airplay连接电脑 linux,苹果手机怎么无线投屏,AirPlay怎么连接电脑
  14. 热力学与统计物理学笔记
  15. 手机上将mp4转换成amv_如何在智能手机上将图像转换为黑白图像
  16. aria2和motrix的使用
  17. 常用复原reast.css
  18. 实现微信小程序上传视频的注意事项
  19. Java最全八股文(2023最新整理)
  20. CDA Level2建模备考心得

热门文章

  1. 程序开发语言c#中的 应该发成什么音,0006. 如何在C# winform 上开发 文字转语音
  2. Java基础---继承
  3. 浙江哪个地方的杨梅最出名?
  4. 盘式制动优于鼓式制动吗?
  5. 咸菜可以吃吗,对健康有害吗?
  6. 透露一个未来3到5年的巨大商机
  7. 这5条职场心机,句句真实,引发深思
  8. hash算法在日常活动中的应用
  9. spring-boot-route(十二)整合redis做为缓存
  10. Maven的一些资源(配置方法、idea中toggle offline mode:切换脱机模式、idea中Toggle ‘Skip Tests’ Mode、 Dependencies 出现红色波浪线)