支持向量机 SVM 算法推导优缺点代码实现 in Python

1、基本思想

前面讲到的Logistic Regression在拟合过程，实际上关注所有样本点的贡献，即寻找这么一个超平面，使得正例的特征远大于0，负例的特征远小于0，强调在全部训练数据上达到这一目标。而在SVM中实际也是在拟合这么一个超平面，只是关注点集中于使得距离此分界面最近的几个点据此平面的距离最大化，可见相较Logistic Regression更关注局部，但也更实际，显然这样的分割显得更科学。

SVM中定义了新的概念——函数间隔以及几何间隔——用以描述我们分类预测的正确性和确信度。

因此，SVM的基本模型是定义在特征空间上的间隔最大的线性分类器，学习策略就是间隔最大化，可形式化为求解凸二次规划的优化问题，学习算法即求解改凸二次规划的最优化算法。当T线性可分时，通过硬间隔最大化进行学习；当T近似线性可分时，通过软间隔最大化学习；当T线性不可分时，通过软间隔最大化和核技巧进行学习。

非线性映射是SVM方法的理论基础，SVM利用内积核函数代替向高维空间的非线性映射。

下面我们将推导SVM的学习算法，并给出主流求解算法SMO。

2、SVM学习算法

2.1 线性可分SVM

2.2 线性SVM

现实问题中，训练数据集往往是线性不可分的，即某些样本点无法满足函数间隔大于等于1的约束条件，因此，需对上述学习算法进行修改，即对每个样本点引进一个非负松弛变量，使之满足约束条件，同时对于引入的松弛变量，目标函数需要支付一个代价函数，然后按照线性可分SVM学习过程学习即可。

2.3 非线性SVM

处理分线性分类问题，需要将上述线性模型改进为非线性模型，这里需要应用核技巧。

核技巧应用到SVM的思想，即通过一个非线性变换将输入空间（欧式空间或其离散集合）映射到一个特征空间（希尔伯特空间），使得在输入空间的超曲面模型对应于特征空间中的超平面模型（SVM），如此一来，分类问题的学习通过在特征空间中求解线性SVM即可。这里基于这样的事实：线性不可分的样例集合，通过映射到高维特征空间，往往就变得线性可分了。

核函数的选用依赖领域知识，其选择的有效性需通过试验验证。上图介绍了常用核函数和非线性SVM非基本学习过程。假设原输入空间为n维，则多项式核函数将其映射到了维的特征空间，高斯核函数则将其映射到了无穷维的特征空间。

3、序列最小最优化算法SMO

3.1 坐标下降法

在讲解SMO之前，先简单介绍一种坐标下降法处理OP2问题。

对于下述问题时，

除了前面用到的梯度下降法、牛顿法，还可以使用坐标下降法，即

由于内循环是个关于单变量的函数，直接求导即可。如果内循环可以很快滴达到最优，则坐标下降法是个很高效的求极值方法。

3.2 SMO算法

SMO算法用来求解前面各种SVM遗留的OP2，SMO是目前最快的二次规划优化算法，特别针对线性SVM和数据稀疏时性能尤为优秀。

按照坐标下降法思路，我们可以首先固定除某个变量alpha_i外其余所有的变量，然后在alpha_i上求极值，循环往复。但由于OP2中约束条件1的存在使得此时alpha_i实际是个定值，使得本思路不可行。因此，考虑每次选定两个变量alpha_i和alpha_j，其余全固定，此时alpha_j可由alpha_i和其余所有固定变量表示，将其再会带到W，可见此时的W是关于alpha_i一个变量的函数了，可运用坐标下降法。

下面，我们将进行SMO算法推导

3.3 算法流程

4、深入说明

4.1 支持向量

在线性可分情况下，T中与分离超平面距离最近的样本点的实例称为支持向量，即使得成立的点，即支持向量一定在间隔边界上。显然从上述算法推导可以看出，在决定分离超平面时只有支持向量起作用，其他实例点并不起作用，可见增、删非支持向量样本对模型没有影响，使得SVM具有更好的鲁棒性。

此外，由于SVM 的最终决策函数只由少数的支持向量所确定，其计算的复杂性取决于支持向量的数目，而不是样本空间的维数，这在某种意义上避免了“维数灾难”。

支持向量的个数一般很少，并且支持向量的数目存在一个最优值。如果支持向量太少，就可能会得到一个很差的决策边界；而支持向量太多，就相当于每次都利用整个数据集进行分类，此时分类方法类似于kNN。

4.2 多分类SVM

可参考文献“C. W. Huset， A Comparison of Methods for Multiclass Support Vector Machines”

4.3 优点

由于SVM算法本身的优化目标是结构化风险最小，而不是经验风险最小，避免了过学习，因此，在小样本训练集上能够得到比其它算法更良好的泛化能力。

由于它是一个凸优化问题，因此局部最优解一定是全局最优解的优点。

包括4.1中提到的健壮性等优点

4.3 缺点

SVM算法对大规模训练样本难以实施

由于SVM是借助二次规划来求解支持向量，而求解二次规划将涉及N阶矩阵的计算（N为样本的个数），当N数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。针对以上问题的主要改进有

J.Platt的SMO算法

T.Joachims的SVM

C.J.C.Burges等的PCGC

张学工的CSVM

以及O.L.Mangasarian等的SOR算法

对非线性问题没有通用解决方案

必须谨慎选择核函数来处理，而这个过程只能不断试验

5、Python代码实现

from numpy import *### helper functions ###
def loadDataSet(fileName):dataMat = []labelMat = []fr = open(fileName)for line in fr.readlines():lineArr = line.strip().split('\t')dataMat.append([float(lineArr[0]), float(lineArr[1])])labelMat.append(float(lineArr[2]))return dataMat, labelMatdef selectJrand(i, m):j = iwhile (j == i):j = int(random.uniform(0, m))return jdef clipAlpha(aj, H, L):if aj > H:aj = Hif aj < L:aj = Lreturn aj### simplified SMO ###
def smoSimple(dataMatIn, classLabels, C, toler, maxIter):dataMatrix = mat(dataMatIn)labelMat = mat(classLabels).transpose()N, n = shape(dataMatrix)alphas = mat(zeros((N, 1)))b = 0iter = 0while(iter < maxIter):alphaPairsChanged = 0 # sign to denote whether the whole alphas have been optimizedfor ii in range(N): # outter alpha, alpha_1fXi = float(multiply(alphas, labelMat).T * (dataMatrix*dataMatrix[ii,:].T)) + bEi = fXi - float(labelMat[ii])# denoting the error is large which is worth to optimizedif ((labelMat[ii]*Ei<-toler) and (alphas[ii]<C)) or ((labelMat[ii]*Ei>toler) and (alphas[ii]>0)):jj = selectJrand(ii,N) # inner alpha, alpha_2fXj = float(multiply(alphas, labelMat).T * (dataMatrix*dataMatrix[jj,:].T)) + bEj = fXi - float(labelMat[jj])alphaIold = alphas[ii].copy()alphaJold = alphas[jj].copy()if (labelMat[ii] != labelMat[jj]):L = max(0, alphas[jj]-alphas[ii])H = min(C, C+alphas[jj]-alphas[ii])else:L = max(0, alphas[jj]+alphas[ii]-C)H = min(C, alphas[jj]+alphas[ii])if L == H:print "L == H"continueeta = 2.0*dataMatrix[ii,:]*dataMatrix[jj,:].T - dataMatrix[ii,:]*dataMatrix[ii,:].T - dataMatrix[jj,:]*dataMatrix[jj,:].Tif eta >= 0:print "eta >= 0"continuealphas[jj] -= labelMat[jj]*(Ei-Ej)/etaalphas[jj] = clipAlpha(alphas[jj], H, L)if (abs(alphas[jj] - alphaJold) < 0.00001):print "j not moving enough"continuealphas[ii] += labelMat[jj]*labelMat[ii]*(alphaJold-alphas[jj])b1 = b - Ei - labelMat[ii]*(alphas[ii]-alphaIold)*dataMatrix[ii,:]*dataMatrix[ii,:].T - labelMat[jj]*(alphas[jj]-alphaJold)*dataMatrix[ii,:]*dataMatrix[jj,:].Tb2 = b - Ej - labelMat[ii]*(alphas[ii]-alphaIold)*dataMatrix[ii,:]*dataMatrix[jj,:].T - labelMat[jj]*(alphas[jj]-alphaJold)*dataMatrix[jj,:]*dataMatrix[jj,:].Tif (alphas[ii] > 0) and (alphas[ii] < C):b = b1elif (alphas[jj] > 0) and (alphas[jj] < C):b = b2else:b = (b1 + b2)/2.0alphaPairsChanged += 1print "iter: %d i: %d, pairs changed %d" % (iter, ii, alphaPairsChanged)if (alphaPairsChanged == 0):iter += 1else:iter = 0print "ieration number: %d" % iterreturn b, alphas### helper functions for full SMO ###
def kernelTrans(X, A, kTup):N, n = shape(X)K = mat(zeros((N, 1)))if kTup[0] == 'lin': # linear kernel functionK = Z*A.Telif kTup[0] == 'rbf': # radial basis functionfor jj in range(N):deltaRow = X[j,:] - AK[jj] = deltaRow*deltaRow.TK = exp(K/(-2*kTup[1]**2))else:raise NameError('Houston We Have a Problem - - That Kernel is not recognized')return Kclass optStruct:def __init__(self, dataMatIn, classLabels, C, toler):self.X = dataMatInself.labelMat = classLabelsself.C = Cself.tol = tolerself.N = shape(dataMatIn)[0]self.alphas = mat(zeros((self.N, 1)))self.b = 0self.eCache = mat(zeros((self.N, 2)))self.K = mat(zeros((self.N, self.N)))for ii in range(self.N):self.K[:,ii] = kernelTrans(self.X, self.X[ii,:], kTup)def calcEk(oS, k):fXk = float(multiply(oS.alphas, oS.labelMat).T * oS.K[:,k] + oS.b)Ek = fXk - float(oS.labelMat[k])return Ekdef selectJ(i, oS, Ei):# select the inner alpha with the alpha-j to maximize the abs(Ei-Ej)maxK = -1maxDeltaE = 0   # abs(Ei-Ej)Ej = 0oS.eCache[i] = [1, Ei]validEcacheList = nonzero(oS.eCache[:,0].A)[0]if (len(validEcacheList)) > 1:for k in validEcacheList:if k == i:continueEk = calcEk(oS, k)deltaE = abs(Ei - Ek)if (deltaE > maxDeltaE):maxK = kmaxDeltaE = deltaEEj = Ekreturn maxK, Ejelse:j = selectJrand(i, oS.N)Ej = calcEk(oS, j)return j, Ejdef updataEk(oS, k):Ek = calcEk(oS, k)oS.eCache[k] = [1, Ek]### searching the optimization boundary for full SMO ###
def innerL(i, oS):Ei = calcEk(oS, i)if ((oS.labelMat[i]*Ei<-oS.tol) and (oS.alphas[i]<oS.C)) or ((oS.labelMat[i]*Ei>oS.tol) and (oS.alphas[i]>0)):j, Ej = selectJ(i, oS, Ei)alphaIold = oS.alphas[i].copy()alphaJold = oS.alphas[j].copy()if (oS.labelMat[i] != oS.labelMat[j]):L = max(0, oS.alphas[j]-oS.alphas[i])H = min(oS.C, oS.C+oS.alphas[j]-oS.alphas[i])else:L = max(0, oS.alphas[j]+oS.alphas[i]-oS.C)H = min(oS.C, oS.alphas[j]+oS.alphas[i])if L == H:print "L == H"return 0eta = 2.0*oS.K[i,:]*oS.K[j,:].T - oS.K[i,:]*oS.K[i,:].T - oS.K[j,:]*oS.K[j,:].Tif eta >= 0:print "eta >= 0"return 0oS.alphas[j] -= oS.labelMat[j]*(Ei-Ej)/etaoS.alphas[j] = clipAlpha(oS.alphas[j], H, L)updataEk(oS, j)if (abs(oS.alphas[j] - alphaJold) < 0.00001):print "j not moving enough"return 0oS.alphas[i] += oS.labelMat[j]*oS.labelMat[i]*(alphaJold-oS.alphas[j])b1 = oS.b - Ei - oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.K[i,i] - oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.K[i,j]b2 = oS.b - Ej - oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.K[i,j] - oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.X[j,j]if (oS.alphas[i] > 0) and (oS.alphas[i] < oS.C):oS.b = b1elif (oS.alphas[j] > 0) and (oS.alphas[j] < oS.C):oS.b = b2else:oS.b = (b1 + b2)/2.0return 1else:return 0### outter iteration for full SMO ###
def smoP(dataMatIn, classLabels, C, toler, maxIter, kTup=('lin', 0)):oS = optStruct(mat(dataMatIn), mat(classLabels).transpose(), C, toler)iter = 0entireSet = TruealphaPairsChanged = 0while (iter<maxIter) and ((alphaPairsChanged>0) or (entireSet)):alphaPairsChanged = 0if entireSet:for i in range(oS.N):alphaPairsChanged += innerL(i, oS)print "fullSet, iter: %d i: %d, pairs changed %d" % (iter, i, alphaPairsChanged)iter += 1else:nonBoundIs = nonzero((oS.alphas.A>0) * (oS.alphas.A<C))[0]for i in nonBoundIs:alphaPairsChanged += innerL(i, oS)print "non-bound, iter: %d i: %d, pairs changed %d" % (iter, i ,alphaPairsChanged)iter += 1if entireSet:entireSet = Falseelif (alphaPairsChanged == 0):entireSet = Trueprint "iteration number: %d" % iterreturn oS.b, oS.alphas### classify ###
def calcWs(alphas, dataArr, classLabels):X = mat(dataArr)labelMat = mat(classLabels).transpose()N, n = shape(X)w = zeros((n, 1))for ii in range(N):w += multiply(alphas[ii]*labelMat[ii], X[ii,:].T)return w

支持向量机 SVM 算法推导优缺点代码实现 in Python相关推荐

百题突击12:1，SVM算法的优缺点 2，SVM的超参数C如何调节 3，SVM的核函数如何选择 4，简述SVM硬间隔推导过程 5，简述SVM软间隔推导过程
1,SVM算法的优缺点优点可以解决高维问题,即大型特征空间: 解决小样本下机器学习问题: 能够处理非线性特征的相互作用: 无局部极小值问题:(相对于神经网络等算法) 无需依赖整个数据: 泛化能力比 ...
机器学习笔记——支持向量机SMO算法完整版代码分析
机器学习笔记--支持向量机SMO算法完整版代码分析代码大体分析外循环参数类内循环 KKT条件判断 eCache参数完整SMO代码添加核函数代码代码参考书籍:<机器学习实战> ...
机器学习算法 08 —— 支持向量机SVM算法(核函数、手写数字识别案例)
文章目录系列文章支持向量机SVM算法 1 SVM算法简介 1.1 引入 1.2 算法定义 2 SVM算法原理 2.1 线性可分支持向量机 2.2 SVM计算过程与算法步骤(有点难,我也没理解透,建 ...
支持向量机SVM算法原理及应用（R）
支持向量机SVM算法原理及应用(R) 2016年08月17日 16:37:25 阅读数:22292更多个人分类: 数据挖掘实战应用版权声明:本文为博主原创文章,转载请注明来源. https://b ...
支持向量机——SVM算法及例子（代码）
终于拖到最后一天交机器学习作业,选择了SVM算法,之前一直听说过,现在终于有了初步的了解,顺便post到这里分享一下,不足地方请大家指出本文内容有来自<统计学习算法>(李航著)第7章- ...
一文读懂支持向量机SVM（附实现代码、公式）
来源:机器学习算法与Python学习本文约11000字,建议阅读10+分钟. 本文以简单实例化形式记录学习SVM的过程,力图帮助新手级学习者少走弯路. 支持向量机(SVM),一个神秘而众知的名字,在 ...
机器学习-支持向量机SVM算法
文章目录简介原理硬间隔支持向量对偶问题软间隔核函数 SMO算法小结多分类问题回归问题应用示例前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点 ...
支持向量机SVM算法原理笔记2
上篇博客介绍了当样本集是线性可分情况下的SVM算法原理.接下来介绍不存在一个划分超平面可以正确分类的问题,比如说"异或问题". 对于此类问题,可以将样本空间映射到更高维度空间,这样 ...
支持向量机SVM算法
支持向量机SVM 目录支持向量机SVM 1.支持向量机原理 2.如何找出边际最大的决策边界 3.拉格朗日乘数 4.非线性SVM与核函数 5.示例支持向量机(SVM,也称支持向量网络),是机器学习中 ...

支持向量机 SVM 算法推导优缺点代码实现 in Python

1、基本思想

2、SVM学习算法

2.1 线性可分SVM

2.2 线性SVM

2.3 非线性SVM

3、序列最小最优化算法SMO

3.1 坐标下降法

3.2 SMO算法

3.3 算法流程

4、深入说明

4.1 支持向量

4.2 多分类SVM

4.3 优点

4.3 缺点

5、Python代码实现

支持向量机 SVM 算法推导优缺点代码实现 in Python相关推荐

最新文章

热门文章

支持向量机 SVM 算法推导优缺点 代码实现 in Python

1、基本思想

2、SVM学习算法

2.1 线性可分SVM

2.2 线性SVM

2.3 非线性SVM

3、序列最小最优化算法SMO

3.1 坐标下降法

3.2 SMO算法

3.3 算法流程

4、深入说明

4.1 支持向量

4.2 多分类SVM

4.3 优点

4.3 缺点

5、Python代码实现

支持向量机 SVM 算法推导优缺点 代码实现 in Python相关推荐

最新文章

热门文章

支持向量机 SVM 算法推导优缺点代码实现 in Python

支持向量机 SVM 算法推导优缺点代码实现 in Python相关推荐