关于机器学习的11个开源工具

翻译:疯狂的技术宅
英文标题:11 open source tools to make the most of machine learning
英文连接:https://www.infoworld.com/art...
本文首发于微信公众号:充实的脑洞


使用这些多样化、易于实现的库和框架,挖掘机器学习的预测能力

垃圾邮件过滤,人脸识别,推荐引擎 —— 当你有一个需要执行预测分析或模式识别的大型数据集时,机器学习是一条途径。 免费开源软件的激增使机器学习更容易在单机和大规模集群上实现,并支持大多数流行的编程语言。这11个开源工具使用的语言包括Python,R,C ++,Java, Scala,Clojure,JavaScript和Go。

1、Scikit-learn

Python因为它的易用性,已经成为一种用于数学、科学和统计的编程语言,而且几乎任何程序都可以使用这些库。Scikit-learn 通过在几个现有的 python 包( NumPy, SciPy 和 Matplotlib )可以被广泛用于数学和科学工作。它可以被用在交互式“工作台”程序中,也可以嵌入到其他软件中并被重用。该工具包在BSD许可证下提供,因此它是完全开放和可重用的。

Project: http://scikit-learn.org/stable/
GitHub:
https://github.com/scikit-lea...

2、Shogun

著名的Shogun创建于1999年,尽管它是用C++编写的,但可以与Java,Python,C#,Ruby,R,Lua,Octave和Matlab一起使用。最新版本 6.0.0 增加了对Microsoft Windows和Scala语言的本地支持。

虽然广受欢迎,但是 Shogun 仍受到来自另外一个基于C++的机器学习库的竞争:2011年出现的Mlpack。但是Shogun仍然自称是比其他竞争者更快更易用的(通过一个更完整的API集)。

Project: http://www.shogun-toolbox.org/
GitHub: https://github.com/shogun-too...

3、Accord.Net Framework

Accord是一个机器学习和信号处理框架,基于.Net编写,是以前的项目AForge.net的延伸,Accord包括一组用于处理音频信号和图像流(例如视频)的库。其视觉处理算法可用于脸部识别,拼接图像或跟踪移动物体等任务。

Accord还提供更传统的机器学习功能的库,包括神经网络和决策树系统。

Project: http://accord-framework.net/
GitHub: https://github.com/accord-net...

4、Apache Mahout

Apache Mahout长期以来一直被绑定到Hadoop,但是其中的许多算法也可以脱离 Hadoop 运行。 这对可能最终迁移到 Hadoop 项目中的独立应用非常有用,这些项目最终可能会被剥离到自己的独立应用中。最后几个版本加强了对高性能 Spark 框架的支持,并增加了对用于 GPU 加速的 ViennaCL 库的支持。

Project: https://mahout.apache.org/

5、Spark MLlib

Apache Spark 和 Apache Hadoop 的机器学习库。MLLib拥有许多最新的常用算法和有用的数据类型,为速度和大规模运行需求所设计。虽然 Java 是 MLLib 的主要工作语言,但 Python 用户可以将 MLLib 与 Numpy 库整合,Scala用户可以编写针对MLLib的代码,而R用户可以嵌入到在 Spark 1.5 之后的版本中。

在MLLib的基础之上构建的项目MLbase可以更容易得到结果。 用户无需编写代码,只需要通过声明语言(à la SQL)进行查询。

Project: https://spark.apache.org/mllib/

6、H2O

H2O的算法针对业务流程(例如欺诈或趋势预测)而不是图像分析。H2O能够以独立的方式与HDFS、YARN、MapReduce或者直接在Amazon EC2实例进行交互。Hadoop专家可以使用Java与H2O交互,该框架还提供了Python、R 和 Scala 的绑定方式,允许你与这些平台上的所有库进行交互。

Project: http://0xdata.com/h2o/
GitHub: https://github.com/0xdata/h2o

7、Cloudera Oryx

Oryx,由 Cloudera Hadoop distribution 的创始人提供,通过Spark和Kafka流处理框架来运行机器学习模型中的实时数据。Oryx 提供了一种需要在当下做出决定的项目构建方法,如推荐引擎或实时异常检测。 2.0版本做了近乎完整的重新设计,其组件在 lambda 体系结构下进行松散耦合。可以随时添加新算法以及这些算法的新的抽象 (例如 hyperparameter 选择器),。

Project: Cloudera Oryx
GitHub:
https://github.com/cloudera/oryx

8、GoLearn

GoLearn 是一个由Go语言编写的机器学习库, 根据开发者 Stephen Whitworth 的研究, 它以简洁性和可定制性为目标。简洁性在于在库中加载和处理数据的方式, 这点模仿了 SciPy 和 R 。可定制性在于如何在应用程序中轻松扩展某些数据结构。Stephen Whitworth 还为 Vowpal Wabbit 库创建了一个gGo包装器,它可以在Shogun工具箱中找到。

Project: GoLearn
GitHub:
https://github.com/sjwhitwort...

9、Weka

Weka是专门为数据挖掘而设计的一套Java机器学习算法。它有一个包系统用来扩展功能,被包含在官方和非官方包中。 Weka甚至提供了一本书来解释这个软件及其所使用的技术。

虽然 Weka 不是专门针对 Hadoop 用户的,但最近的版本提供了一组包装器使其可以与 Hadoop 一起使用。 请注意,Weka尚不支持 Spark,目前只支持 MapReduce。 Clojure 用户可以通过Clj-ml库来使用Weka。

Project: http://www.cs.waikato.ac.nz/m...

10、Deeplearn.js

在web浏览器中进行深度学习的另一个项目是deeplearn.js,它来自Google。你可以在任何现代浏览器中直接训练神经网络模型,而无需额外的客户端软件。deeplearn.js还可以通过web GLAPI进行GPU加速,因此性能不受限于系统的CPU。该项目的函数模仿了Google 的TensorFlow,使得TensorFlow的用户可以轻松地开始使用。

Project: https://pair-code.github.io/d...

11、ConvNetJS

顾名思义,ConvNetJS是用于神经网络机器学习的JavaScript库,便于将浏览器用作数据工作台。 对于使用Node.js的用户,还可以使用NPM版本,该库的设计使用了JavaScript的异步操作。例如,训练完成后执行一个回调。它包括了大量演示示例。

Project: http://cs.stanford.edu/people...
GitHub:
https://github.com/karpathy/c...

关注微信公众号:充实的脑洞, 一个技术宅的保留地

【译】关于机器学习的11个开源工具相关推荐

  1. 21个必须知道的机器学习开源工具!

    作者 | SebastianScholl 译者 | 刘静,责编 | 郭芮 出品 | CSDN(ID:CSDNnews) 本文将介绍21种用于机器学习的开源工具. 以下为译文: 你肯定已经了解流行的开源 ...

  2. 21 个必须知道的机器学习开源工具!

    本文将介绍21种用于机器学习的开源工具. 作者 | SebastianScholl 译者 | 刘静,责编 | 郭芮 出品 | CSDN(ID:CSDNnews) 以下为译文: 你肯定已经了解流行的开源 ...

  3. 200 个工具分析机器学习十年:开源是大势,工程师是核心

    [编者按]人工智能和机器学习经过十年多的发展,在过去的几年间,各类工具数量迎来了持续的爆发式的增长,机器学习也正式由科研走进工业生产阶段.本文作者 -- 来自硅谷一家初创公司的计算机科学家 Chip ...

  4. 这10个机器学习开源工具,你用过吗?

    作为机器学习开发人员,你可能已经接触到很多机器学习资源,今天给大家介绍10个机器学习开源工具,有很多都是可以在项目中使用的工具,如果有帮到你的话,欢迎转发收藏. 1.AutoML  AutoML是一款 ...

  5. 10个必备的机器学习开源工具

    机器学习十大开源工具 机器学习是未来.但机器会灭绝人类吗? 这应该是一个牵强附会的想法. 作为机器学习开发人员,您一定希望成功实现目标.这就是用于机器学习的开源工具的用武之地. 机器学习开源社区是活跃 ...

  6. 配置机器学习训练环境太麻烦?开源工具Parris说一键就搞定

    夏乙 编译整理 量子位 出品 | 公众号 QbitAI 在搭建.训练机器学习模型的过程中,你的时间可能大部分都花在了那些与算法无关的事情上:收集数据.清洗数据.标注,甚至基础环境的配置,也需要不少时间 ...

  7. neo4j 机器学习_21个必知的机器学习开源工具,涵盖5大领域

    作者 | 张璐瑶.李林虹 来源 | 读芯术 本文将介绍21个你可能没使用过的机器学习开源工具. · 每个开源工具都为数据科学家处理数据库提供了不同角度. · 本文将重点介绍五种机器学习的工具--面向非 ...

  8. 21个必知的机器学习开源工具,涵盖5大领域

    全文共3744字,预计学习时长7分钟 · 本文将介绍21个你可能没使用过的机器学习开源工具. · 每个开源工具都为数据科学家处理数据库提供了不同角度. · 本文将重点介绍五种机器学习的工具--面向非程 ...

  9. 荐六十款针对Hadoop和大数据顶级开源工具

    为什么80%的码农都做不了架构师?>>>    荐六十款针对Hadoop和大数据顶级开源工具 2015-08-10 10:37 布加迪编译 51CTO 字号: T |  T 说到处理 ...

最新文章

  1. 武汉工程大学认识实习报告计算机,武汉工程大学化工认识实习报告
  2. 【AngularJS】—— 4 表达式
  3. 一文带你认识Spring事务
  4. QML中定义JavaScript资源
  5. 连接mysql次数_MySQL通过CONNECTION_CONTROL限制连接次数
  6. C语言会生成字节码文件吗,什么是字节码文件?
  7. Pascal之父、编程祖师爷尼古拉斯•威茨痛批:教授成了项目经理,大学过于“重论文轻教学“...
  8. MMP,我说每年年会我怎么老是中不了奖,原来是这样
  9. python学习第十六天 --继承进阶篇
  10. 《Android群英传:神兵利器》— Android 书籍
  11. echarts同时带有颜色和光圈的中国地图
  12. 读书笔记 | 国富论(卷一)
  13. 《2021政府工作报告》词云图一览
  14. 华为桌面小程序在哪里_微信Windows版更新至3.0:批量管理联系人,小程序可添加至桌面...
  15. html如何在页面打开时让鼠标光标停留在某个表单文本框,网页制作实用技巧
  16. php怎么定义字符串变量的值,php字符串变量怎么替换
  17. 计算机休眠不播放音乐,电脑休眠后不能播放音乐怎么办
  18. 怎么查看电脑内存的型号
  19. antv x6踩坑记录二
  20. 小程序时间段选择 选取某天的某时间段 基于vantweapp的时间段选择器 日期选择器

热门文章

  1. [免费活动通知]RAD Studio XE8 技术研讨会(上海、成都)
  2. 如何做好网站开发项目需求分析(转)
  3. Python链接Mssql之Python库pymssql
  4. Centos6.7安装docker1.7.1
  5. 【转】EventBus 3.0使用详解
  6. 代码文件的编码不统一导致的坑
  7. SSH 远程执行任务
  8. nginx之location匹配规则
  9. linux 技巧:使用 screen 管理你的远程会话
  10. Android开发进阶之NIO非阻塞包(一)