支持向量机原理(三)线性不可分支持向量机与核函数
支持向量机原理(一) 线性支持向量机
支持向量机原理(二) 线性支持向量机的软间隔最大化模型
支持向量机原理(三)线性不可分支持向量机与核函数
支持向量机原理(四)SMO算法原理
支持向量机原理(五)线性支持回归
在前面两篇我们讲到了线性可分SVM的硬间隔最大化和软间隔最大化的算法,它们对线性可分的数据有很好的处理,但是对完全线性不可分的数据没有办法。本文我们就来探讨SVM如何处理线性不可分的数据,重点讲述核函数在SVM中处理线性不可分数据的作用。
一、回顾多项式回归
在线性回归原理小结中,我们讲到了如何将多项式回归转化为线性回归。
比如一个只有两个特征的p次方多项式回归的模型:
\[ h_\theta(x_1, x_2) = \theta_0 + \theta_{1}x_1 + \theta_{2}x_{2} + \theta_{3}x_1^{2} + \theta_{4}x_2^{2} + \theta_{5}x_{1}x_2 \]
我们令\(x_0 = 1, x_1 = x_1, x_2 = x_2, x_3 =x_1^{2}, x_4 = x_2^{2}, x_5 = x_{1}x_2\) ,这样我们就得到了下式:
\[ h_\theta(x_1, x_2) = \theta_0 + \theta_{1}x_1 + \theta_{2}x_{2} + \theta_{3}x_3 + \theta_{4}x_4 + \theta_{5}x_5 \]
可以发现,我们又重新回到了线性回归,这是一个五元线性回归,可以用线性回归的方法来完成算法。对于每个二元样本特征\((x_1,x_2)\),我们得到一个五元样本特征\((1, x_1, x_2, x_{1}^2, x_{2}^2, x_{1}x_2)\),通过这个改进的五元样本特征,我们重新把不是线性回归的函数变回线性回归。
也就是说,对于二维的不是线性的数据,我们将其映射到了五维以后,就变成了线性的数据。
这给了我们启发,也就是说对于在低维线性不可分的数据,在映射到了高维以后,就变成线性可分的了。这个思想我们同样可以运用到SVM的线性不可分数据上。也就是说,对于SVM线性不可分的低维特征数据,我们可以将其映射到高维,就能线性可分,此时就可以运用前两篇的线性可分SVM的算法思想了。
二、核函数的引入
上一节我们讲到线性不可分的低维特征数据,我们可以将其映射到高维,就能线性可分。现在我们将它运用到我们的SVM的算法上。回顾线性可分SVM的优化目标函数:
\[ \underbrace{ min }_{\alpha} \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_jx_i \bullet x_j - \sum\limits_{i=1}^{m}\alpha_i \]
\[ s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0 \]
\[ 0 \leq \alpha_i \leq C \]
注意到上式低维特征仅仅以内积$x_i \bullet x_j \(的形式出现,如果我们定义一个低维特征空间到高维特征空间的映射\)\phi$(比如上一节2维到5维的映射),将所有特征映射到一个更高的维度,让数据线性可分,我们就可以继续按前两篇的方法来优化目标函数,求出分离超平面和分类决策函数了。也就是说现在的SVM的优化目标函数变成:
\[ \underbrace{ min }_{\alpha} \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_j\phi(x_i) \bullet \phi(x_j) - \sum\limits_{i=1}^{m}\alpha_i \]
\[ s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0 \]
\[ 0 \leq \alpha_i \leq C \]
可以看到,和线性可分SVM的优化目标函数的区别仅仅是将内积$x_i \bullet x_j \(替换为\)\phi(x_i) \bullet \phi(x_j)$。
看起来似乎这样我们就已经完美解决了线性不可分SVM的问题了,但是事实是不是这样呢?我们看看,假如是一个2维特征的数据,我们可以将其映射到5维来做特征的内积,如果原始空间是三维,可以映射到到19维空间,似乎还可以处理。但是如果我们的低维特征是100个维度,1000个维度呢?那么我们要将其映射到超级高的维度来计算特征的内积。这时候映射成的高维维度是爆炸性增长的,这个计算量实在是太大了,而且如果遇到无穷维的情况,就根本无从计算了。
怎么办?似乎我们刚提出了一种好的解决线性不可分的办法,接着就把自己否决了。
好吧,核函数该隆重出场了!
假设\(\phi\)是一个从低维的输入空间\(\chi\)(欧式空间的子集或者离散集合)到高维的希尔伯特空间的\(\mathcal{H}\)映射。那么如果存在函数\(K(x,z)\),对于任意\(x, z \in \chi\),都有:
\[ K(x, z) = \phi(x_i) \bullet \phi(x_j) \]
那么我们就称\(K(x, z)\)为核函数。
从上面的式子乍一看还是不明白核函数怎么帮我们解决线性不可分的问题的。仔细观察上式可以发现,\(K(x, z)\)的计算是在低维特征空间来计算的,它避免了在刚才我们提到了在高维维度空间计算内积的恐怖计算量。也就是说,我们可以好好享受在高维特征空间线性可分的红利,却避免了高维特征空间恐怖的内积计算量。
至此,我们总结下线性不可分时核函数的引入过程:
我们遇到线性不可分的样例时,常用做法是把样例特征映射到高维空间中去(如上一节的多项式回归)但是遇到线性不可分的样例,一律映射到高维空间,那么这个维度大小是会高到令人恐怖的。此时,核函数就体现出它的价值了,核函数的价值在于它虽然也是将特征进行从低维到高维的转换,但核函数好在它在低维上进行计算,而将实质上的分类效果(利用了内积)表现在了高维上,这样避免了直接在高维空间中的复杂计算,真正解决了SVM线性不可分的问题。
三、核函数的介绍
事实上,核函数的研究非常的早,要比SVM出现早得多,当然,将它引入SVM中是最近二十多年的事情。对于从低维到高维的映射,核函数不止一个。那么什么样的函数才可以当做核函数呢?这是一个有些复杂的数学问题。这里不多介绍。由于一般我们说的核函数都是正定核函数,这里我们直说明正定核函数的充分必要条件。一个函数要想成为正定核函数,必须满足他里面任何点的集合形成的Gram矩阵是半正定的。也就是说,对于任意的$x_i \in \chi , i=1,2,3...m $, \(K(x_i,x_j)\)对应的Gram矩阵$K = \bigg[ K(x_i, x_j )\bigg] $ 是半正定矩阵,则\(K(x,z)\)是正定核函数。
从上面的定理看,它要求任意的集合都满足Gram矩阵半正定,所以自己去找一个核函数还是很难的,怎么办呢?还好牛人们已经帮我们找到了很多的核函数,而常用的核函数也仅仅只有那么几个。下面我们来看看常见的核函数, 选择这几个核函数介绍是因为scikit-learn中默认可选的就是下面几个核函数。
3.1 线性核函数
线性核函数(Linear Kernel)其实就是我们前两篇的线性可分SVM,表达式为:
\[ K(x, z) = x \bullet z \]
也就是说,线性可分SVM我们可以和线性不可分SVM归为一类,区别仅仅在于线性可分SVM用的是线性核函数。
3.2 多项式核函数
多项式核函数(Polynomial Kernel)是线性不可分SVM常用的核函数之一,表达式为:
\[ K(x, z) = (\gamma x \bullet z + r)^d \]
其中,\(\gamma, r, d\)都需要自己调参定义。
3.3 高斯核函数
高斯核函数(Gaussian Kernel),在SVM中也称为径向基核函数(Radial Basis Function,RBF),它是非线性分类SVM最主流的核函数。libsvm默认的核函数就是它。表达式为:
\[ K(x, z) = exp(-\gamma||x-z||^2) \]
其中,\(\gamma\)大于0,需要自己调参定义。
3.4 Sigmoid核函数
Sigmoid核函数(Sigmoid Kernel)也是线性不可分SVM常用的核函数之一,表达式为:
\[ K(x, z) = tanh(\gamma x \bullet z + r) \]
其中,\(\gamma, r\)都需要自己调参定义。
四、分类SVM的算法小结
引入了核函数后,我们的SVM算法才算是比较完整了。现在我们对分类SVM的算法过程做一个总结。不再区别是否线性可分。
输入是m个样本\({(x_1,y_1), (x_2,y_2), ..., (x_m,y_m),}\),其中x为n维特征向量。y为二元输出,值为1,或者-1.
输出是分离超平面的参数\(w^{*}和b^{*}\)和分类决策函数。
算法过程如下:
1)选择适当的核函数\(K(x,z)\)和一个惩罚系数\(C>;0\), 构造约束优化问题
\[ \underbrace{ min }_{\alpha} \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_jK(x_i,x_j) - \sum\limits_{i=1}^{m}\alpha_i \]
\[ s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0 \]
\[ 0 \leq \alpha_i \leq C \]
2)用SMO算法求出上式最小时对应的\(\alpha\)向量的值\(\alpha^{*}\)向量.
3) 得到\(w^{*} = \sum\limits_{i=1}^{m}\alpha_i^{*}y_i\phi(x_i)\),此处可以不直接显式的计算\(w^{*}\)。
4) 找出所有的S个支持向量,即满足\(0 <; \alpha_s <; C\)对应的样本\((x_s,y_s)\),通过 \(y_s(\sum\limits_{i=1}^{m}\alpha_iy_iK(x_i,x_s)+b) = 1\),计算出每个支持向量\((x_s, y_s)\)对应的\(b_s^{*}\),计算出这些\(b_s^{*} = y_s - \sum\limits_{i=1}^{m}\alpha_iy_iK(x_i,x_s)\). 所有的\(b_s^{*}\)对应的平均值即为最终的\(b^{*} = \frac{1}{S}\sum\limits_{i=1}^{S}b_s^{*}\)
这样最终的分类超平面为:$\sum\limits_{i=1}^{m}\alpha_i^{}y_iK(x, x_i)+ b^{} = 0 \(,最终的分类决策函数为:\)f(x) = sign(\sum\limits_{i=1}^{m}\alpha_i^{}y_iK(x, x_i)+ b^{})$
至此,我们的分类SVM算是总结完毕,唯一的漏网之鱼是SMO算法,这个算法关系到,我们如何求出优化函数极小化时候的\(\alpha^{*}\),进而求出\(w,b\),我们将在下一篇讨论这个问题。
(欢迎转载,转载请注明出处。欢迎沟通交流: 微信:nickchen121)
转载于:https://www.cnblogs.com/nickchen121/p/11214903.html
支持向量机原理(三)线性不可分支持向量机与核函数相关推荐
- 支持向量机原理(五)线性支持回归
支持向量机原理(一) 线性支持向量机 支持向量机原理(二) 线性支持向量机的软间隔最大化模型 支持向量机原理(三)线性不可分支持向量机与核函数 支持向量机原理(四)SMO算法原理 支持向量机原理(五) ...
- SVM支持向量机原理(二) 线性支持向量机的软间隔最大化模型
在支持向量机原理(一) 线性支持向量机中,我们对线性可分SVM的模型和损失函数优化做了总结.最后我们提到了有时候不能线性可分的原因是线性数据集里面多了少量的异常点,由于这些异常点导致了数据集不能线性可 ...
- 支持向量机原理之线性SVM与非线性SVM
一.什么是SVM? SVM的英文全称是Support Vector Machines,我们叫它支持向量机.支持向量机是我们用于分类的一种算法.让我们以一个小故事的形式,开启我们的SVM之旅吧. 在很久 ...
- OpenCV支持向量机SVM对线性不可分数据的处理
支持向量机对线性不可分数据的处理 目标 本文档尝试解答如下问题: 在训练数据线性不可分时,如何定义此情形下支持向量机的最优化问题. 如何设置 CvSVMParams 中的参数来解决此类问题. 动机 为 ...
- 支持向量机原理(一) 线性支持向量机
我只是一名搬运工,以下内容来自:刘建平Pinard:https://www.cnblogs.com/pinard/p/6097604.html 1. 背景 支持向量机(Support Vecor ...
- 【机器学习基础】数学推导+纯Python实现机器学习算法10:线性不可分支持向量机...
Python机器学习算法实现 Author:louwill 本节笔者和大家讨论支持向量机的最后一种情况--非线性支持向量机.前面两节我们探讨了数据样例是完全线性可分情况和近似线性可分情况下的支持向量机 ...
- 机器学习算法总结之支持向量机(三)
在前面两篇我们讲到了线性可分SVM的硬间隔最大化和软间隔最大化的算法,它们对线性可分的数据有很好的处理,但是对完全线性不可分的数据没有办法.本文我们就来探讨SVM如何处理线性不可分的数据,重点讲述核函 ...
- 支持向量机原理(四)SMO算法原理
支持向量机原理(一) 线性支持向量机 支持向量机原理(二) 线性支持向量机的软间隔最大化模型 支持向量机原理(三)线性不可分支持向量机与核函数 支持向量机原理(四)SMO算法原理 支持向量机原理(五) ...
- 【机器学习基础】数学推导+纯Python实现机器学习算法8-9:线性可分支持向量机和线性支持向量机...
Python机器学习算法实现 Author:louwill 前面两讲我们对感知机和神经网络进行了介绍.感知机作为一种线性分类模型,很难处理非线性问题.为了处理非线性的情况,在感知机模型的基础上有了两个 ...
- 支持向量机1-线性可分支持向量机
线性可分支持向量机 一.理论基础 一.支持向量机分类 二.函数间隔与几何间隔 三.支持向量 四.线性可分支持向量机 4.1 线性可分支持向量机的优化函数 4.2 线性可分支持向量机的最优化问题求解 4 ...
最新文章
- C#操作xml文件入门
- 7打开pycharm_Python+pycharm安装、关联教程
- 自带浏览器_三星手机自带浏览器下载量突破 10 亿次
- crc16 modbus php代码,crc16 - 产生Modbus RTU格式的CRC码
- 实用技巧:使用 Google Analytics 跟踪 JS 错误
- android点击加号,Android仿微信朋友圈点击加号添加图片功能
- 移动端设备常用尺寸笔记
- Android SQL语句实现数据库的增删改查
- 哪句诗词最让你怦然心动?
- logback日志框架的简单使用
- Mysql表的约束设计和关联关系设计
- 【通信】基于matlab GUI短波通信系统仿真【含Matlab源码 647期】
- 机器学习——下采样(under-sampling)
- Java:如何通过代码判断字符是拼音还是英文单词?
- 如何接入易班第三方登录
- JavaScript正则表达式学习笔记之一 - 理论基础
- jy-09-SERVLETJSP——Servlet-Cookie-Session
- 天刀手游服务器维护11月7号,天涯明月刀手游11月11日正式服维护公告
- 基于Netty的UDP服务端开发
- C语言 string.h头文件
热门文章
- EOSIO 指南(浏览源码)
- REST测试工具之curl(URL多参数)
- python爬虫问题:error: command 'gcc' failed with exit status 1
- plsql为字段添加自增主键
- express url跳转(重定向)的实现:res.location() res.redirect()
- nginx负载均衡?
- vue-cli3使用vue-router 使用动态路由,在刷新页面时报错
- Java经典编程题50道之三十一
- servlet3.0理解
- 关于scrollTop