Libsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的,Libsvm主要是用来进行非线性svm 分类器的生成,提出有一段时间了,而Liblinear则是去年才创建的,主要是应对large-scale的data classification,因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多,时间也少很多,而且在large scale data上的性能和非线性的分类器性能相当,所以Liblinear是针对大数据而生的。

两者都是一个跨平台的通用工具库,支持windows/linux/mac os,代码本身是c++写的,同时也有matlab,python,java,c/c++扩展接口,方便不同语言环境使用,可以说是科研和企业人员的首选!像我这样在学校的一般用matlab/c++,而我同学在百度则主要用的是python/c++,所以只是各自侧重不一样,但所使用的核心还是其svm库。

以上Libsvm和Liblinear的主页上都有windows下的binary文件下载,zip,tar格式都有,解压后,找到matlab子文件目录,参看里面的readme文件,需要在matlab中进入此目录,运行make.m文件,matlab会根据本机默认的c/c++编译器将.c文件生成为.mexw32文件(由于我是32位操作系统,此处为mexw32,对于64位os,则对应为mexw64),提供matlab下能使用的接口。之后生成了这些.mexw32文件复制到你自己的matlab工程根目录中,就可以在matlab文件中调用libsvm/liblinear库中的函数了~

http://blog.sina.com.cn/s/blog_5bd2cb260100ev25.html 这位网友对libsvm在matlab中的使用说明的很详细,可以参考下。

有关Liblinear和Libsvm各自的优势可以归纳如下:

1.libsvm用来就解决通用典型的分类问题

2.liblinear主要为大规模数据的线性模型设计

  • it can be able to handle large-scaled dataset 可以用来处理大规模的数据
  • it runs really faster than libsvm because it doesn't have to compute thekernel for any two points 由于采用线性核,所以不需要计算kernel value,速度更快
  • trust region method for optimization looks new for machine learning people

以下为一位网友采用liblinear进行数据分类的实验性能说明“

”今天试用了以下liblinear,速度很快(快到我没有想到), 
我的实验数据: 
训练集:21504 * 1500(1500是样本的数量,21504是维度) 
测试集:21504 * 2985 
速度用秒来衡量,20次实验总共不到2分钟。 
 
同样的问题我用了libsvm实验速度上相差太大,libsvm实验5次,每次将近10分钟,时间是其次,发现一个问题就是,libsvm比liblinear的结果相差1个百分点,没有读liblinear的文章,不知道问题出在那个地方,libsvm我直接用的默认参数,线性模型。这样必然引起一个问题,如果我想评价线性模型和非线性模型的性能,我不可能一个用liblinear一个用libsvm,如果两个都用libsvm,报告的性能肯定有一些问题。 
 
所以如果你的问题维度很大(线性模型就有非常好的性能),不妨考虑liblinear. “

大致看了一下libsvm和liblinear的说明文档,发现一个问题就是在线性问题上两者的目标函数就不一样,所以性能上的差异是正常的,应该说如果优化同一样的目标函数两者性能应该会差不多,但是速度很明显,liblinear快很多。 
 
对于什么时候用线性模型的问题,我想上面的我举的例子用linear classifier就比较好,非线性分类不一定比线性分类器好,尤其是在样本及其有限,同时特征维度很高的情况下,因为样本有限的情况下,kernel map通常不准确,很有可能错误地划分类别空间,可能造成比线性模型更差的结果。

说到scale,我建议不要用libsvm里自带的scale,因为一旦使用这个工具,它就会把原来稀疏的数据,变成非稀疏的格式,这样不但会生成非常大的数据文件,而且liblinear对稀疏数据快速处理的优势就不能体现出来了。因此,要scale,就自己写一个,以保持原来稀疏的格式

liblinear的好处就是速度快,尤其是对稀疏的特征。缺点就是太吃内存了。10G的数据量需要接近50G的内存,数据量再大就没法做了 。

另外,还有一个经常提到的svm库SVM-per:http://www.cs.cornell.edu/people/tj/svm_light/svm_perf.html 是康奈尔大学的人设计的。好像对计算机硬件的性能要求比liblinear要低...有做图像处理的人使用这个svm-per代替liblinear。

另外,对于多分类问题以及核函数的选取,以下经验规则可以借鉴:

  • 如果如果特征数远远大于样本数的情况下,使用线性核就可以了.
  • 如果特征数和样本数都很大,例如文档分类,一般使用线性核, LIBLINEAR比LIBSVM速度要快很多.
  • 如果特征数远小于样本数,这种情况一般使用RBF.但是如果一定要用线性核,则选择LIBLINEAR较好,而且使用-s 2选项。

对于多分类问题:

对于15类场景来说,每类100幅训练图像,如果直接训练一个15类的multi-class classifier,则训练文件的Label值取1~15,wi标记不用指定(default 1)。如果对于每个类单独训练一个分类器,这样就把这个类的100幅图像作为正样本(假设Label=1),而其余所有的训练图像作为负样本(共1400幅,假设Label=-1),由此可以看出正负样本不平衡,因此应该制定wi选项,具体地可以指定-w1 14,-w-1 1( 1是缺省值),在cross validation的时候首先指定-wi,然后通过grid.py来确定(C,g)的最优值。实际做实验的时候,可以具体比较一下两种情况到底有多大差别。

Libsvm和Liblinear的使用经验谈相关推荐

  1. LIBSVM和LIBLINEAR的优化

    前面介绍了LIBSVM和LIBLINEAR的优化算法,下面简单总结一下不同算法的应用场景吧: 所有线性问题都是用LIBLINEAR,而不要使用LIBSVM. LIBSVM中的不同算法,如C-SVM和n ...

  2. LIBSVM与LIBLINEAR

    原文链接: http://blog.chinaunix.net/uid-20761674-id-4840097.html 在过去的十几年里,支持向量机(Support Vector Machines) ...

  3. LIBSVM与LIBLINEAR详解

    LIBSVM与LIBLINEAR(一)   在过去的十几年里,支持向量机(Support Vector Machines)应该算得上是机器学习领域影响力最大的算法了.而在SVM算法的各种实现工具中,由 ...

  4. LIBSVM与LIBLINEAR(二)

    原文地址 模型与优化 LIBSVM和LIBLINEAR都提供了多种不同的模型供使用者选择,不同的模型有各自适用的场景.下面分别介绍LIBSVM和LIBLINEAR所提供的各种模型. LIBSVM 下面 ...

  5. libsvm和liblinear的使用总结

    0.安装方法 unix系统下的安装方法:到官网下载源包(目前最新版本为libsvm-3.20.liblinear-1.96),解压后,打开终端进入makefile所在的目录,键入make即可. 以下为 ...

  6. LibLinear(SVM包)使用说明之(一)README

    LibLinear(SVM包)使用说明之(一)README LibLinear(SVM包)使用说明之(一)README zouxy09@qq.com http://blog.csdn.net/zoux ...

  7. Liblinear的使用

    Ubuntu下安装: http://pkgs.org/ubuntu-11.04/ubuntu-universe-i386/liblinear-tools_1.6+dfsg-1_i386.deb.htm ...

  8. 关于LibLinear使用总结

    LibLinear是我写小论文时用到的东西,一直没有好好总结,今天需要用又看了一下,最近一直忙着秋招,没有时间总结写博客,先把链接放在这里,等秋招结束了再来总结! LibLinear使用总结 http ...

  9. Liblinear库编译

    首先阅读libsvm和liblinear的使用经验谈 ,了解liblinear,然后至官网下载package. liblinear 安装包内有4个文件夹,64位系统可直接将windows目录加入路径就 ...

最新文章

  1. CF223C【Partial Sums】(组合数学+乱搞)
  2. 阿里云混合云的政企上云新路径
  3. 安装oracle解压版,oracle11g压缩解压版图文安装详细教程
  4. 【资料整理】编译安装nginx
  5. C#中combobox 控件属性、事件、方法
  6. python源码中的学习笔记_第3章_range函数与循环结构
  7. 天网防火墙存在一个安全隐患
  8. PyAudio库简介
  9. 向量积计算三角形面积
  10. Spring5-完全注解开发【之】第一步,先实现功能(增删改查),再讲解陌生代码
  11. 关于STM8CAN产生bus-off如何自动恢复
  12. oracle client 是什么,Oracle数据库与客户端有什么区别
  13. 【原创】基于SSM的医院预约挂号系统(医院预约挂号系统毕设源代码)
  14. 更换任意Linux内核 Ubuntu18.04 内核降级升级
  15. 查看域名是否支持IPv6
  16. 银河麒麟v4.0.2安装
  17. 使用ES Rally出错:certificate verify failed: self signed certificate in certificate chain
  18. 加密的excel文件如何打开
  19. C语言 数据的基本处理方法总结
  20. 动态规划问题的一般解决方案

热门文章

  1. Crackme007
  2. JZOJ4808. 【NOIP2016提高A组五校联考3】书稿
  3. 基于微信化妆品购物商城小程序系统设计与实现 开题报告
  4. 《机器学习实战》chap1 机器学习概览
  5. 【Web技术】959- JavaScript 如何在线解压 ZIP 文件?
  6. Linux消息队列原理与应用
  7. 《因为一份赤城的热爱》,庄忻恬、苏洋、陈璐、姜楠和陈嘉华共演
  8. 字符串输出时最后出现乱码
  9. Spotfire在文本区域添加自定义JavaScript代码的最佳实践
  10. java合并txt文件_Java程序将两个txt文件合并为第三个txt文件 - Break易站