开源软件是数据科学很重要的一部分。

根据最近的KDnuggets数据科学软件投票的结果,73%的数据科学家在过去12个月里使用过免费软件。互联网上有着各式各样的这类工具,而Github事实上则成为了所有开源软件的交流平台,包括数据科学社区里所用的工具。机器学习在数据科学界的重要性和中心地位已经不言而喻。

下图是Github十大机器学习项目的概览。

1. Scikit-learn

Python的机器学习库

★8641,5125

十大之首,毫无悬念地就是工业界和学术界Python开发者首选的机器学习函数库。Scikit利用了Python的科学计算工具,它基于Numpy,Scipy和matplotlib。Scikit-learn拥有一般工具包的常规功能,包括分类、回归和聚类算法,也包括数据预处理和模型评价模块。

2. Awesome Machine Learning

一系列绝妙的机器学习框架、函数库和软件。

★ 8404,1885

这是一系列绝妙的机器学习框架、函数库和软件。这个列表先按照语言来分类,然后按照机器学习的类别(通用型,计算机视觉,自然语言处理,等等)。它还包括数据可视化工具,从某种意义上来说它比数据科学的通用列表更丰富,这是一件好事。

3. PredictionIO

PredictionIO是开发者和ML工程师的一个机器学习服务器。它基于Apache Spark、HBase和Spray。

★ 8145,1002

PredictionIO是一个通用型框架。它包括一些处理常规问题的模板引擎,比如分类和推荐,也可以用户自定义修改,通过REST APIs或者SDKs与现有的应用连接。由于它是建立在Spark基础上并且利用了Spark的生态系统,因此PredictionIO主要用Scala开发也就不足为奇了。

4. Dive into Machine Learning

使用Python Jupyter和Scikit-learn深入研究机器学习。

★ 4326,342

这是scikit-learn的一个教程集合,有大量IPython notebook脚本,和许多Python相关的或者通用型的机器学习话题的链接,以及更多的数据科学信息。作者并不很贪婪,如果某一个教程不足以吸引你,它们会很快发掘更多的其它类似内容。代码库里并没有软件,但如果你不熟悉Python环境下的机器学习,则值得读一下。

5. Pattern

Python的网页挖掘模块,包括爬虫、自然语言处理、机器学习、网络分析和可视化等工具。

★ 3799,598

Pattern是基于Python的网页挖掘工具包,由Antwerp大学的计算语言学和心理语言学研究中心(Computational Linguistics & Psycholinguistics, CLiPS)开发完成。它可以用来完成爬虫、机器学习、自然语言处理、网络分析和可视化等任务。Pattern还可以从一些熟知的网络服务中挖掘数据。这个项目有完整的文档,并且包含了大量的例子和单元测试。

6. NuPIC ( Numenta Platform for Intelligent Computing)

一个大脑启发式的机器智能平台和基于大脑皮层学习算法的生物神经网络。

★ 3647,987

NuPIC实现了Hierarchical Temporal Memory (HTM)机器学习算法。HTM算法试图以大脑皮层的计算方式来建模,专注于存储和召回空间和时间的模式。NuPIC非常适合模式相关的异常检测。

7. Vowpal Wabbit

Vowpal Wabbit是一种机器学习系统,它在online, hashing, allreduce, reductions, learning2search, active 和 interactive learning等技术上一直处于领先优势。

★ 2949,827

Vowpal Wabbit的目标是对大数据快速建模,并支持并行学习。这个项目由雅虎发起,现在由微软研究院开发。Vowpal Wabbit采用了外部存储学习算法(out-of-core),它已经实现了用1000个计算节点在一小时内训练TB级的特征数据集。

8. aerosolve

一个交互友好的机器学习工具包

★ 2538,245

aerosol与其它的函数包不同,它主要是提供交互友好的调试工具,训练模型的Scala代码,一个用于图像排序的图像内容分析引擎,和一种特征转换语言,用户可以灵活地控制特征。aerosolve采用基于thrift的特征表征,特征按照逻辑被分组后进行变换,或者一次性对所有特征组完成变换。

9. GoLearn

一种Go语言的机器学习工具。

★ 2334,215

GoLearn是使用Go语言开发的机器学习库,开发的活跃度很高。它的目的是为Go语言开发者提供一套完善的、易用的、可自定义的工具包。GoLearn实现了Scikit-learn中常用的fit/predict接口,简化了预测器的生成方法,并实现了交叉验证、训练集/测试集切分等常用函数。

10. Code for Machine Learning for Hackers

Machine Learning for Hackers一书中的代码

★ 2003,1446

这个代码库中的代码都来自O’Reilly出版的Machine Learning for Hackers一书。代码用R语言实现,其依赖了大量R工具包,它的内容包括常见的分类任务、排序和回归,以及主成分分析和多维标度法等统计方法。

Github上的十大机器学习项目相关推荐

  1. 跳一跳作弊器上榜!GitHub 2018年十大新开源项目揭晓

    AI前线导读: 本文是GitHub2018年Octoverse报告--GitHub活动的趋势和洞见,开源社区和GitHub数据科学团队等系列文章的一部分. 仅在2018年,GitHub新用户数量就超过 ...

  2. 看看数据科学家们都在用什么:Github上的十大深度学习项目

    本文作者Matthew May是一位正在进行并行式机器学习算法研究的计算机硕士研究生,同时Matthew也是一位数据挖掘研习者,数据发烧友,热忱的机器学习科学家.开源工具在数据科学工作流中起到了愈发重 ...

  3. 掰一掰GitHub上优秀的大数据项目

    VMware CEO Pat Gelsinger曾说:   数据科学是未来,大数据分析则是打开未来之门的钥匙 企业正在迅速用新技术武装自己以便从大数据项目中获益.各行业对大数据分析人才的需求也迫使我们 ...

  4. 9月份GitHub上最热门的机器学习项目

    在过去的一个月里,Mybridge从将近250个机器学习开源项目中精选出十个热门项目,旨在帮助开发者找到自己需要的机器学习相关的开源项目 上榜开源项目所获得Star数平均为:728 涉及的领域包括:研 ...

  5. 28款GitHub最流行的开源机器学习项目,推荐GitHub上10 个开源深度学习框架

    20 个顶尖的 Python 机器学习开源项目 机器学习 2015-06-08 22:44:30 发布 您的评价: 0.0 收藏 1收藏 我们在Github上的贡献者和提交者之中检查了用Python语 ...

  6. GitHub 优秀的 Android 开源项目 淘宝技术牛p博客整理开发中最常用的GitHub上 优秀的 Android 开源项目整理(精品)...

    原文地址为http://www.trinea.cn/android/android-open-source-projects-view/,作者Trinea 主要介绍那些不错个性化的View,包括Lis ...

  7. 2020年7月Github上最热门的开源项目

    来自:开源最前线(ID:OpenSourceTop) 7月份GitHub上最热门的开源项目排行已经出炉啦,一起来看看上榜详情吧 1 tsunami-security-scanner https://g ...

  8. 干货丨从概念到案例:初学者须知的十大机器学习算法

    本文先为初学者介绍了必知的十大机器学习(ML)算法,并且我们通过一些图解和实例生动地解释这些基本机器学习的概念.我们希望本文能为理解机器学习(ML)基本算法提供简单易读的入门概念. 机器学习模型 在& ...

  9. 如何发现 GitHub 上那些有趣好玩的项目?

    如果你是一名开发者,相信你对 GitHub 一定不会感到陌生,这个创建自 2008 的源码托管平台,现如今已成长为全球最大的开发者社区.来自世界各地的开发者每天都会在 GitHub 上面提交代码.合并 ...

最新文章

  1. 「不会开会」是个病,这本书能治吗?
  2. 【PPT下载】第二批PPT干货限时免费分享
  3. 微信小程序封装storage(含错误处理)
  4. 将Html文档整理为规范XML文档
  5. python温度转换代码分析_Python温度转换实例分析
  6. ubuntu安装nvidia显卡驱动+cuda9.0+cudnn7.0+查看cuda版本+安装tensorrt+python查看gpu显存
  7. 松原哪家计算机学校好,松原高中学校排名2021最新排名,松原高中排名前十
  8. Seinfeld(杭电3351)
  9. flask 请求上下文
  10. 和最大的连续子数组 Maximum Subarray
  11. json学习初体验--第三者jar包实现bean、List、map创json格式
  12. 的优先级大小_cache也有优先级
  13. 抢小米软件html版(简单有效)
  14. MySQL(1)CentOS彻底卸载MySQL
  15. 理解引用 SqList L 与 SqList L 的区别
  16. Sphero SPRK+,和星战的 BB-8 一样,这个球也是机器人 | 新玩意 · Apple Store
  17. 简单的sql注入之2WP
  18. 远程控制-Sality(需专杀工具请三连并私信)
  19. Python二进制内容转为中文(二进制转中文)
  20. 微信小程序父子组件通信详解

热门文章

  1. Floyd_Warshall POJ 1847 Tram
  2. java 入门 第三季1
  3. 几个经典的TCP通信函数
  4. java_jdbc_spring框架查询操作简例
  5. [原创]浅谈持续集成在测试中的应用
  6. 初学数位DP--hdu 2089
  7. rqnoj 496 [IOI1999]花店橱窗布置 (简单dp)
  8. 一道简单的编程题考核你的编程功底
  9. 使用mod_proxy_balancer实现负载均衡
  10. python语言程序设计基础第二版答案-python语言程序设计基础(第二版)第五章答案随笔...