机器学习之开源库大总结

  研究数据挖掘和机器学习有一段时间了,对数据挖掘来说,商用软件有SAS、Clementine、Oracle数据挖掘组件等等;由于个人学习和版权、算法定制等问题,开源的数据挖掘与机器学习软件(库)目前也十分必需,现在就跟大家介绍下比较流行和常用的机器学习开源库。

  以前在学校用过matlab,说实话真方便,通常一个模型只要几十行甚至十几行代码就能搞定,但是正版matlab较贵,而且不太适合商业开发使用,所以工业界使用它的并不多(通信行业、研究所比较普遍);相应地,在工业界机器学习和数据挖掘的实验语言多为java、python,因为python与C\C++具有先天的血缘,所以python更容易扩展;java的机器学习库也十分流行,主要体现在大数据下的jvm的本质和算法并行化的优势;现推荐给大家以下学习库:

1.机器学习开源软件网(收录了各种机器学习的各种编程语言学术与商业的开源软件)

http://mloss.org

2 偶尔找到的机器学习资源网:(也非常全,1和2基本收录了所有ML的经典开源软件了)

http://www.dmoz.org/Computers/Artificial_Intelligence/Machine_Learning/Software/

3 libsvm (支持向量机界最牛的,不用多说了,台湾大学的林教授的杰作)

http://www.csie.ntu.edu.tw/~cjlin/libsvm/

4 WEKA (基于java的机器学习算法最全面最易用的开源软件)

http://www.cs.waikato.ac.nz/ml/weka/

5 scikit (本人最喜欢的一个基于python的机器学习软件,代码写得非常好,而且官方的文档非常全,所有都有例子,算法也齐全,开发也活跃 ,强烈推荐给大家用)

https://pypi.python.org/pypi/scikit-learn/

6 OpenCv(最牛的开源计算机视觉库了,前途无可限量,做图像处理与模式识别的一定要用,总不能整天抱着matlab做实验和工业界脱节吧,但是有一定难度)

http://opencv.willowgarage.com/wiki/

7 Orange (基于c++和python接口的机器学习软件,界面漂亮,调用方便,可以同时学习C++和python,还有可视化的功能,)

http://orange.biolab.si/

8 Mallet (基于JAVA实现的机器学习库,主要用于自然语言处理方面,特色是马尔可夫模型和随机域做得好,可和WEKA互补)

http://mallet.cs.umass.edu/

9 NLTK(PYTHON的自然处理开源库,非常易用,也强大,还有几本orelly的经典教程)

http://nltk.org/

10 lucene(基于java的包括nutch,solr,hadoop,mahout等全套,是做信息检索和搜索引擎的同志们必学的开源软件了,学JAVA的必学)

http://lucene.apache.org/

Additional:

1.pyml(a python module for machine learning,支持svm/knn/k-means==)

http://mlpy.sourceforge.net/

2.mahout(阿帕奇基金下项目,其主要是可以与hadoop进行天然结合,从而并行运行,在鲁棒性方面很好)

http://mahout.apache.org/

3.milk(python的机器学习工具包,主要是针对监督学习,包括svm/knn/决策树)

http://pypi.python.org/pypi/milk/

4.Octave(Andrew NG课上推荐使用的,类似matlab)

http://www.gnu.org/software/octave/

转载于:https://my.oschina.net/wxcchd/blog/140112

机器学习之开源库大总结相关推荐

  1. NTL密码算法开源库-大整数ZZ类(一)

    2021SC@SDUSC NTL密码算法开源库-大整数ZZ类(一) 本章综述 代码分析 贝祖公式 本章综述 大整数ZZ类主要实现了任意长度大整数表示.最大公因数.Jacobi符号和素性检验.笔者将通过 ...

  2. NTL密码算法开源库-大整数ZZ类(三)

    2021SC@SDUSC NTL密码算法开源库-大整数ZZ类(三) 中国剩余定理 一次同余式 乘法逆元 简化剩余的等价描述 二次同余式 雅可比符号 中国剩余定理 //中国剩余定理模板代码 typede ...

  3. ACTIONSCRIPT 3.0著名开源库 大集合

    这篇文章开始于对Adrian Parr博客中AS3 Code Libraries一文的翻译,虽然开源AS3 Library列表的文章不少,翻译这篇是因为感觉里面大多数东西都是比较著名的,我能用得到的, ...

  4. NTL密码算法开源库——大整数ZZ类(四)

    2021SC@SDUSC RSA算法原理 密钥生成的步骤 第一步,随机选择两个不相等的质数p和q. 爱丽丝选择了61和53.(实际应用中,这两个质数越大,就越难破解.) 第二步,计算p和q的乘积n. ...

  5. NTL密码算法开源库——大整数ZZ类(一)

    2021SC@SDUSC 本章综述 大整数ZZ类主要实现了任意长度大整数表示.最大公因数.Jacobi符号和素性检验.笔者将通过逐个分析ZZ.cpp源代码中函数的形式来一步步向读者展示NTL是如何实现 ...

  6. NTL密码算法开源库——大整数上多项式(ZZX,GF2X)

    2021SC@SDUSC 大整数上多项式(ZZX,GF2X) GF(2)域求两多项式的最大公因式 扩展欧几里得求两多项式最大公因式 GF(2)域求两多项式的最大公因式 //在GF(2)域中求两多项式的 ...

  7. NTL密码算法开源库——大整数ZZ类(二)

    2021SC@SDUSC 素数检测 (1)数学基础:费马小定理,二次探测定理,欧拉定理,Miller-Rabin素数测试,同余式, wilson定理,乘法逆元,简化剩余系 费马小定理:若存在整数 a ...

  8. Google重磅发布开源库TFQ,快速建立量子机器学习模型

    整理 | 弯月 编辑 | 郭芮 出品 | AI科技大本营(ID:rgznai100) 近日,Google 与滑铁卢大学.大众汽车等联合发布 TensorFlow Quantum(TFQ),一个可快速建 ...

  9. Google 发布开源库 TFQ,快速建立量子机器学习模型!

    整理 | 弯月 责编 | 郭芮 出品 | CSDN(ID:CSDNnews) 近日,Google 与滑铁卢大学.大众汽车等联合发布 TensorFlow Quantum(TFQ),一个可快速建立量子机 ...

最新文章

  1. 后端接口都测试什么?要怎么测?
  2. 怎样能用计算机打出表白数字,怎么用数字表白?盘点数字表白暗语
  3. .NET Core容器化@Docker
  4. BZOJ-1082-[SCOI2005]栅栏(二分+dfs判定)
  5. sml完整形式_411的完整形式是什么?
  6. SharePoint List item数量超过5000的解决办法
  7. 火车进出栈问题(高精度+压位+质因数分解消除除法)
  8. How AI Is Transforming Medical Imaging
  9. c语言的常用英语单词和翻译,c语言通用英语词汇带翻译
  10. Linux时间戳与日期相互转换
  11. BuildTools下载地址
  12. 两台计算机无法共享链接,[转载]局域网内两台计算机无法互相共享文件
  13. Linux capability初探
  14. 方格稿纸(二维前缀和)
  15. css样式表的作用和意义,什么是CSS?
  16. 41岁职场中年人深度劝告:一定要从小公司往大公司走
  17. 你是没教养,不是性子直
  18. 郭德纲绝句,没有一句不让你笑的
  19. GreenPlum企业应用实践--第五章SQL执行计划
  20. python动态爱心曲线_python代码画出爱心曲线

热门文章

  1. 数据反正模拟 matlab,[2018年最新整理]信号处理MATLAB函数.doc
  2. linux中运行ifconfig出现错误,不能sudo apt install net-tools,Linux不能联网
  3. 计算机网络 HTTP工作机制 TCP三次握手四次挥手 TCP滑动窗口
  4. java去掉重复字符_Java实现去掉字符串重复字母的方法示例
  5. MySQL中通配类型各自作用_在Access数据库中。在查找操作中,通配符*、?与#各有什么作用?...
  6. Java使用String对象的split()方法分割字符串的小坑
  7. 爱的十个秘密--10.热情的力量
  8. Django Admin后台管理功能使用
  9. 20170505思考点--编写案例时是以功能为主还是业务为主要
  10. Crashlytics功能集成