转:http://www.cnblogs.com/justany/archive/2012/11/23/2784125.html

分类器

分类器是一种计算机程序。

他的设计目标是在通过学习后,可自动将数据分到已知类别。

平面线性分类器

一个简单的分类问题,如图有一些圆圈和一些正方形,如何找一条最优的直线将他们分开?

我们可以找到很多种方法画出这条直线,但怎样的直线才是最优的呢?

距离样本太近的直线不是最优的,因为这样的直线对噪声敏感度高,泛化性较差。 因此我们的目标是找到一条直线,离最近的点距离最远。

怎么寻找距离最远的直线?枚举所有直线,然后计算其样本最小距离?这样显然不是一个好办法,这将产生大量的计算开销。

我们利用另一种方法,对直线的正负偏移量1,这样就产生了一个区域(下图的Maximum margin覆盖的区域),区域边界上的点到直线的距离是固定的,现在的问题是最近的点是否刚好在边界上或者在边界外。

还记得点到线的公式么?

对于直线Ax+By+C=0,点(x0, y0)到直线的距离:

  distance = |Ax0+By0+C| / (A2 + B2)1/2

那么区域边缘到直线的距离:

  distance = (|Ax+By+C| + 1)/ (A2 + B2)1/2 = 1/ (A2 + B2)1/2

并需要满足对于所有样本类别y满足:yi (Ax+By+C) > = 1,也就是所有样本都不在该区域以内。

于是我们可以找到适当的A、B、C,从而得到:

  Maximum margin = 2/ (A2 + B2)1/2

超平面推广

同理,我们将这一定理推广到任意维度。其超平面表达式为:

    

一维是线、二维是面、三维是体……四维呢?五维呢?好吧统称超平面吧……

其中  叫做 权重向量 ,   叫做 偏置向量。

用这种表达式来表达线Ax+By+C = 0的话,可以这么表示:

    f(x) = (C, 0) + (A, B)T (x, y);

其中(C, 0) 是偏置向量 ,(A, B)是权重向量 

由于最优超平面可以有很多种表达方式,我们定义:

    ββTx = 0,

为最优超平面表达式。于是我们可以得到他的Maximum margin区域边界表达式应该为:

    

我们称在这边界上的点为:支持向量(Supper Vector)。

因为点到超平面距离公式为:

    

在边界上,即支持向量到超平面距离:

    

所以Maximum margin为两倍距离,即:

    

M求倒数1/M 则可将求最大转换成求最小。于是有:

    

其中  表示样本的类别标记。

这是一个拉格朗日优化问题,可以通过拉格朗日乘数法得到最优超平面的权重向量  和偏置  。

什么是SVM

支持向量机 (SVM) 是一个类分类器,正式的定义是一个能够将不同类样本在样本空间分隔的超平面。 换句话说,给定一些标记好的训练样本 (监督式学习),SVM算法输出一个最优化的分隔超平面。

1995年Cortes和Vapnik于首先提出SVM,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。

使用SVM

#include <opencv2/core/core.hpp>
#include <opencv2/highgui/highgui.hpp>
#include <opencv2/ml/ml.hpp>using namespace cv;int main()
{// 用于保存可视化数据的矩阵int width = 512, height = 512;Mat image = Mat::zeros(height, width, CV_8UC3);// 创建一些训练样本float labels[4] = {1.0, -1.0, -1.0, -1.0};Mat labelsMat(3, 1, CV_32FC1, labels);float trainingData[4][2] = { {501, 10}, {255, 10}, {501, 255}, {10, 501} };Mat trainingDataMat(3, 2, CV_32FC1, trainingData);// 设置SVM参数CvSVMParams params;params.svm_type    = CvSVM::C_SVC;params.kernel_type = CvSVM::LINEAR;params.term_crit   = cvTermCriteria(CV_TERMCRIT_ITER, 100, 1e-6);// 对SVM进行训练
    CvSVM SVM;SVM.train(trainingDataMat, labelsMat, Mat(), Mat(), params);Vec3b green(0,255,0), blue (255,0,0);// 将SVM断定的分划区域绘制出来for (int i = 0; i < image.rows; ++i)for (int j = 0; j < image.cols; ++j){Mat sampleMat = (Mat_<float>(1,2) << i,j);float response = SVM.predict(sampleMat);if (response == 1)image.at<Vec3b>(j, i)  = green;else if (response == -1) image.at<Vec3b>(j, i)  = blue;}// 绘制训练数据点int thickness = -1;int lineType = 8;circle( image, Point(501,  10), 5, Scalar(  0,   0,   0), thickness, lineType);circle( image, Point(255,  10), 5, Scalar(255, 255, 255), thickness, lineType);circle( image, Point(501, 255), 5, Scalar(255, 255, 255), thickness, lineType);circle( image, Point( 10, 501), 5, Scalar(255, 255, 255), thickness, lineType);// 绘制支持向量thickness = 2;lineType  = 8;int c     = SVM.get_support_vector_count();for (int i = 0; i < c; ++i){const float* v = SVM.get_support_vector(i);circle( image,  Point( (int) v[0], (int) v[1]),   6,  Scalar(128, 128, 128), thickness, lineType);}imwrite("result.png", image);
imshow("简单SVM分类", image); waitKey(0);}

建立训练样本

这里通过Mat构造函数,建立了一个简单的训练样本。

//建立一个标签矩阵
float labels[4] = {1.0, -1.0, -1.0, -1.0};
Mat labelsMat(3, 1, CV_32FC1, labels);//建立一个训练样本矩阵
float trainingData[4][2] = { {501, 10}, {255, 10}, {501, 255}, {10, 501} };
Mat trainingDataMat(3, 2, CV_32FC1, trainingData);

由于CvSVM::train 要求样本数据存储在float 类型的Mat中,所以建立了float类型的Mat样本。

设置SVM参数

struct CvSVMParams

SVM 训练参数结构。

该结构必须被初始化后,传给CvSVM。

CvSVMParams::CvSVMParams

构造函数

C++:CvSVMParams::CvSVMParams()
C++:CvSVMParams::CvSVMParams(int svm_type, int kernel_type, double degree, double gamma, double coef0, double Cvalue, double nu, double p, CvMat* class_weights, CvTermCriteria term_crit)
参数
  • svm_type –

    指定SVM的类型,下面是可能的取值:

    • CvSVM::C_SVC C类支持向量分类机。 n类分组  (n  2),允许用异常值惩罚因子C进行不完全分类。
    • CvSVM::NU_SVC 类支持向量分类机。n类似然不完全分类的分类器。参数为  取代C(其值在区间【0,1】中,nu越大,决策边界越平滑)。
    • CvSVM::ONE_CLASS 单分类器,所有的训练数据提取自同一个类里,然后SVM建立了一个分界线以分割该类在特征空间中所占区域和其它类在特征空间中所占区域。
    • CvSVM::EPS_SVR 类支持向量回归机。训练集中的特征向量和拟合出来的超平面的距离需要小于p。异常值惩罚因子C被采用。
    • CvSVM::NU_SVR 类支持向量回归机。  代替了 p

    可从 [LibSVM] 获取更多细节。

  • kernel_type –

    SVM的内核类型,下面是可能的取值:

    • CvSVM::LINEAR 线性内核。没有任何向映射至高维空间,线性区分(或回归)在原始特征空间中被完成,这是最快的选择。.
    • CvSVM::POLY 多项式内核: .
    • CvSVM::RBF 基于径向的函数,对于大多数情况都是一个较好的选择: .
    • CvSVM::SIGMOID Sigmoid函数内核:.
  • degree – 内核函数(POLY)的参数degree。
  • gamma – 内核函数(POLY/ RBF/ SIGMOID)的参数
  • coef0 – 内核函数(POLY/ SIGMOID)的参数coef0
  • Cvalue – SVM类型(C_SVC/ EPS_SVR/ NU_SVR)的参数C
  • nu – SVM类型(NU_SVC/ ONE_CLASS/ NU_SVR)的参数 
  • p – SVM类型(EPS_SVR)的参数 
  • class_weights – C_SVC中的可选权重,赋给指定的类,乘以C以后变成 。所以这些权重影响不同类别的错误分类惩罚项。权重越大,某一类别的误分类数据的惩罚项就越大。
  • term_crit – SVM的迭代训练过程的中止条件,解决部分受约束二次最优问题。您可以指定的公差和/或最大迭代次数。

默认的构造函数初始化有以下值:

CvSVMParams::CvSVMParams() :svm_type(CvSVM::C_SVC), kernel_type(CvSVM::RBF), degree(0),gamma(1), coef0(0), C(1), nu(0), p(0), class_weights(0)
{term_crit = cvTermCriteria( CV_TERMCRIT_ITER+CV_TERMCRIT_EPS, 1000, FLT_EPSILON );
}

OpenCV的SVM 

class CvSVM

向量支持机

CvSVM::CvSVM

训练构造函数。

C++:CvSVM::CvSVM()
C++:CvSVM::CvSVM(const Mat& trainData, const Mat& responses, const Mat& varIdx=Mat(), const Mat& sampleIdx=Mat(), CvSVMParamsparams=CvSVMParams() )
C++:CvSVM::CvSVM(const CvMat* trainData, const CvMat* responses, const CvMat* varIdx=0, const CvMat* sampleIdx=0, CvSVMParamsparams=CvSVMParams() )
参数
  • trainData — 训练数据,必须是CV_32FC1 (32位浮点类型,单通道)。数据必须是CV_ROW_SAMPLE的,即特征向量以行来存储。
  • responses — 响应数据,通常是1D向量存储在CV_32SC1 (仅仅用在分类问题上)或者CV_32FC1格式。
  • varIdx — 指定感兴趣的特征。可以是整数(32sC1)向量,例如以0为开始的索引,或者8位(8uC1)的使用的特征或者样本的掩码。用户也可以传入NULL指针,用来表示训练中使用所有变量/样本。
  • sampleIdx — 指定感兴趣的样本。描述同上。
  • params — SVM参数。

CvSVM::train

训练一个SVM。

C++:bool CvSVM::train(const Mat& trainData, const Mat& responses, const Mat& varIdx=Mat(), const Mat& sampleIdx=Mat(), CvSVMParamsparams=CvSVMParams() )
C++:bool CvSVM::train(const CvMat* trainData, const CvMat* responses, const CvMat* varIdx=0, const CvMat* sampleIdx=0, CvSVMParamsparams=CvSVMParams() )

参数参考构造函数。

CvSVM::train_auto

根据可选参数训练一个SVM。

C++:bool CvSVM::train_auto(const Mat& trainData, const Mat& responses, const Mat& varIdx, const Mat& sampleIdx, CvSVMParamsparams, int k_fold=10, CvParamGrid Cgrid=CvSVM::get_default_grid(CvSVM::C), CvParamGridgammaGrid=CvSVM::get_default_grid(CvSVM::GAMMA), CvParamGrid pGrid=CvSVM::get_default_grid(CvSVM::P), CvParamGridnuGrid=CvSVM::get_default_grid(CvSVM::NU), CvParamGrid coeffGrid=CvSVM::get_default_grid(CvSVM::COEF), CvParamGriddegreeGrid=CvSVM::get_default_grid(CvSVM::DEGREE), bool balanced=false)
C++:bool CvSVM::train_auto(const CvMat* trainData, const CvMat* responses, const CvMat* varIdx, const CvMat* sampleIdx, CvSVMParams params, int kfold=10, CvParamGrid Cgrid=get_default_grid(CvSVM::C), CvParamGrid gammaGrid=get_default_grid(CvSVM::GAMMA), CvParamGrid pGrid=get_default_grid(CvSVM::P), CvParamGrid nuGrid=get_default_grid(CvSVM::NU), CvParamGridcoeffGrid=get_default_grid(CvSVM::COEF), CvParamGrid degreeGrid=get_default_grid(CvSVM::DEGREE), bool balanced=false )
参数
  • k_fold – 交叉验证参数。训练集被分成k_fold的自子集。其中一个子集是用来测试模型,其他子集则成为训练集。所以,SVM算法复杂度是执行k_fold的次数。
  • *Grid – 对应的SVM迭代网格参数。
  • balanced – 如果是true则这是一个2类分类问题。这将会创建更多的平衡交叉验证子集。

这个方法根据CvSVMParams中的最佳参数Cgammapnucoef0degree自动训练SVM模型。参数被认为是最佳的交叉验证,其测试集预估错误最小。

如果没有需要优化的参数,相应的网格步骤应该被设置为小于或等于1的值。例如,为了避免gamma的优化,设置gamma_grid.step = 0,gamma_grid.min_val, gamma_grid.max_val 为任意数值。所以params.gamma 由gamma得出

最后,如果参数优化是必需的,但是相应的网格却不确定,你可能需要调用函数CvSVM::get_default_grid(),创建一个网格。例如,对于gamma,调用CvSVM::get_default_grid(CvSVM::GAMMA)。

该函数为分类运行 (params.svm_type=CvSVM::C_SVC 或者 params.svm_type=CvSVM::NU_SVC) 和为回归运行 (params.svm_type=CvSVM::EPS_SVR 或者 params.svm_type=CvSVM::NU_SVR)效果一样好。如果params.svm_type=CvSVM::ONE_CLASS,没有优化,并指定执行一般的SVM。

CvSVM::predict

预测样本的相应数据。

C++:float CvSVM::predict(const Mat& sample, bool returnDFVal=false )const
C++:float CvSVM::predict(const CvMat* sample, bool returnDFVal=false )const
C++:float CvSVM::predict(const CvMat* samples, CvMat* results)const
参数
  • sample – 需要预测的输入样本。
  • samples – 需要预测的输入样本们。
  • returnDFVal – 指定返回值类型。如果值是true,则是一个2类分类问题,该方法返回的决策函数值是边缘的符号距离。
  • results – 相应的样本输出预测的响应。

这个函数用来预测一个新样本的响应数据(response)。在分类问题中,这个函数返回类别编号;在回归问题中,返回函数值。输入的样本必须与传给trainData的训练样本同样大小。如果训练中使用了varIdx参数,一定记住在predict函数中使用跟训练特征一致的特征。

后缀const是说预测不会影响模型的内部状态,所以这个函数可以很安全地从不同的线程调用。

CvSVM::get_default_grid

生成一个SVM网格参数。

C++:CvParamGrid CvSVM::get_default_grid(int param_id)
参数
  • param_id –

    SVM参数的IDs必须是下列中的一个:

    • CvSVM::C
    • CvSVM::GAMMA
    • CvSVM::P
    • CvSVM::NU
    • CvSVM::COEF
    • CvSVM::DEGREE

    网格参数将根据这个ID生成。

CvSVM::get_params

返回当前SVM的参数。

C++:CvSVMParams CvSVM::get_params()const

这个函数主要是在使用CvSVM::train_auto()时去获得最佳参数。

CvSVM::get_support_vector

检索一定数量的支持向量和特定的向量。

C++:int CvSVM::get_support_vector_count()const
C++:const float* CvSVM::get_support_vector(int i)const
参数 i – 指定支持向量的索引。

该方法可以用于检索一组支持向量。

CvSVM::get_var_count

返回变量的个数。

C++:int CvSVM::get_var_count()const

分割结果

  • 程序创建了一张图像,在其中显示了训练样本,其中一个类显示为白色圆圈,另一个类显示为黑色圆圈。
  • 训练得到SVM,并将图像的每一个像素分类。 分类的结果将图像分为蓝绿两部分,中间线就是最优分割超平面。
  • 最后支持向量通过灰色边框加重显示。

OpenCV的SVM是基于台湾大学林智仁开发的LIBSVM开发包的。如果你还不过瘾可以看看下面林智仁的演示程序(需要JAVA支持):

  http://www.csie.ntu.edu.tw/~cjlin/libsvm/

在这个实验中,我们成功让机器找到了区分样品的线性划分,并将其支持向量显示出来。

被山寨的原文

Introduction to Support Vector Machines . OpenCV.org

Support Vector Machines API . OpenCV.org

svm (opencv)几个主要函数相关推荐

  1. 【OpenCV】OpenCV中积分图函数与应用

    OpenCV中积分图函数与应用 参考资料 opencv 查找integral,目前网上大部分的资料来自于opencv https://docs.opencv.org/master/d7/d1b/gro ...

  2. opencv 学习:reshape函数

    在opencv中,reshape函数比较有意思,它既可以改变矩阵的通道数,又可以对矩阵元素进行序列化,非常有用的一个函数. 函数原型: C++: Mat Mat::reshape(int cn, in ...

  3. opencv中伪彩色applyColorMap函数(C++ / Python)

    opencv中伪彩色applyColorMap函数(C++ / Python) 翻译 2017年06月23日 15:34:12 标签: 1654

  4. opencv中的approxPolyDP函数和boundingRect函数

    opencv中的approxPolyDP函数和boundingRect函数说明 cv2.boundingRect 举例: import numpy as npimage=cv2.imread(&quo ...

  5. 使用opencv中的merge()函数为BGR图像添加alpha通道

    先上代码: #!/usr/bin/env python # -*- coding: utf-8 -*- # 图像处理开发需求.图像处理接私活挣零花钱,请加微信/QQ 2487872782 # 图像处理 ...

  6. 计算机视觉开源库OpenCV之绘制轮廓函数cv2.drawContours()介绍

    计算机视觉开源库OpenCV之绘制轮廓函数cv2.drawContours(),用于轮廓的绘制或填充. cv2.drawContours(image, contours, contourIdx, co ...

  7. 计算机视觉开源库OpenCV之查找轮廓函数cv2.findContours()介绍

    计算机视觉开源库OpenCV之查找轮廓函数cv2.findContours说明如下: 示例代码: #!/usr/bin/env python3import cv2image = cv2.imread( ...

  8. openCV中的findHomography函数分析以及RANSAC算法的详解(源代码分析)

    本文将openCV中的RANSAC代码全部挑选出来,进行分析和讲解,以便大家更好的理解RANSAC算法.代码我都试过,可以直接运行. 在计算机视觉和图像处理等很多领域,都需要用到RANSAC算法.op ...

  9. OpenCV 3.1 imwrite()函数写入异常问题解决方法

    OpenCV 3.1 imwrite()函数写入异常问题解决方法 最近配置了OpenCV3.1版本,按照2.x的习惯写了一个保存图片的代码(测试证明该代码在2.4.11下运行正常),但是在使用imwr ...

  10. OpenCV创建滑动条函数:createTrackbar()介绍

    OpenCV创建滑动条函数:createTrackbar()介绍

最新文章

  1. matlab的syms无法在函数中使用_Python函数中使用@
  2. 金融工程相关问题积累与解决
  3. Android手机rom分区以及sd卡总结
  4. s5p4418 Android 4.4.2 驱动层 HAL层 服务层 应用层 开发流程记录(一 硬件驱动层)
  5. 3 年工作经验程序员应有的技能
  6. node-glob 正则表达式
  7. 第一百三十四期:MySQL分页查询方法及优化
  8. 控制台服务编写 Linux,一步步搭建ubuntu server console(控制台,字符模式)开发环境...
  9. 三星Galaxy A10s海报曝光:6.2寸水滴屏+4000mAh电池
  10. Jmeter学习笔记(三)文件上传
  11. Linux下idea 配置Android SDK
  12. Process 获取子进程输入流、杀死子进程
  13. 基于PhalApi的Redis拓展
  14. 企业管理系统有几种类型,分别是什么?
  15. 美国公布自动驾驶新政AV4.0;微软Access数据库出现漏洞,或致8.5万家企业面临风险;苹果谈论隐私问题……...
  16. 基于三维实景建模与CIM的数字孪生城市建设
  17. linux查看端口占用终结,Linux查看端口占用
  18. 第65天-内网安全-域环境工作组局域网探针方案
  19. HQL是什么HQL和SQL的区别
  20. Simscape —— 在另一台电脑上打开Simscape模型报错/显示不出模型

热门文章

  1. python 3 并发编程之多进程 multiprocessing模块
  2. 安防监控芯片市场高清化趋势愈显 成行业共识
  3. ceph cluster monitor
  4. [ExtJs4.0]数据从excle2003导入到数据库【2-1】
  5. python内置类型
  6. 工作流调度器azkaban 安装
  7. Windows PowerShell初体验——.NET对象支持
  8. sed用法详解(转载)
  9. 简单聊聊网页的资源加载优化
  10. 【干货来了】ComponentOne经典在线演示等你来体验!(上)