在 GitHub 2018 年的 Octoverse 报告中,机器学习和数据科学是 GitHub 上的热门话题。其中,tensorflow / tensorflow 是项目贡献最多的项目之一,pytorch / pytorch 是增长最快的项目之一,而 Python 是 GitHub 上第三大最受欢迎的语言。于是,GitHub 决定更加深入地研究一下,机器学习和数据科学在该平台究竟是怎样的情况。

GitHub 提取了 2018 年 1 月 1 日到 2018 年 12 月 31 日之间的贡献数据。这些贡献可能包括推送代码、发起话题或提取请求、评论问题或提取请求,以及审查拉取请求。对于大多数导入的程序包,GitHub 使用了从依赖关系图中获得的数据,其中包括所有公共存储库和已选择加入依赖关系图的所有私有存储库。

机器学习编程语言:Python 稳坐冠军

GitHub 以使用“机器学习”主题标记的存储库的贡献者为依据,对存储库中最常见的主要编程语言进行了排名。结果显示,Python 是机器学习库中最常用的语言,也是 GitHub 上第三种最常用的语言。然而,并非所有机器学习项目都使用 Python:GitHub 上还有其他一些最常见的机器学习通用语言,如 C ++、JavaScript、Java、C#、Shel l和 TypeScript 跻身 GitHub 编程语言 Top10,同时是机器学习项目的 Top10 语言。Julia、R 和 Scala 都出现在机器学习项目编程语言的前 10 名,但未上榜 GitHub 整体最受欢迎编程语言 Top10。Julia 和 R 都是数据科学家常用的语言,Scala 在 与 Apache Spark 等大数据系统交互时变得越来越常用。

最受欢迎机器学习和数据科学包:numpy、scipy、pandas占据前三

我们从依赖图中提取数据,以计算导入流行 Python 包的机器学习或数据科学项目的百分比。上表为项目导入最多程序包 Top10 排名。我们发现:

  • Numpy,一个支持多维数据数学运算的软件包,是导入最多的软件包,近四分之三的机器学习和数据科学项目使用此包。
  • Scipy,一个用于科学计算的软件,pandas,一个用于管理数据集的软件包,以及可视化库matplotlib,都在超过 40% 的机器学习和数据科学项目中使用。
  • Scikit-learn 是一种流行的机器学习包,包含大量机器学习算法的实现,近 40% 的项目使用此包。
  • Tensorflow 是一种用于处理神经网络的软件包,近四分之一的项目使用。

前十名中其他的包均为实用程序包:排名第六的是 Python 2和3兼容性库,python-dateutil 和 pytz 是用于处理日期的包。

最受欢迎的机器学习项目:Tensorflow

2018年,带有“机器学习”标签、贡献最多的开源项目为 Tensorflow,是迄今为止最受欢迎的机器学习项目,且其贡献者数量是第二大受欢迎项目 scikit-learn 的五倍多。排名第三和第九的 explosion/spaCy/ spaCy 和 RasaHQ / rasa_nlu 是两个专注于自然语言处理问题的项目。另外四个项目,CMU-Perceptual-Computing-Lab / openpose,thtrieu / darkflow,ageitgey / face_recognition和tesseract-ocr / tesseract 则专注于图像处理。另外,Julia 语言源代码也是 2018 年项目贡献最多的项目之一。

原文链接:
https://github.blog/2019-01-24-the-state-of-the-octoverse-machine-learning/

2018年Github最受欢迎机器学习语言Python稳坐冠军,numpy、scipy是最受欢迎软件包...相关推荐

  1. 【机器学习】Python秘密武器之Numpy

    P ython是一个优秀的通用性编程语言,站在AI的风口,光芒四射,更是借助开源流行库(NumPy, SciPy, Matplotlib, Pandas等),成为强大的科学计算,机器学习首选环境.前面 ...

  2. 01、python数据分析与机器学习实战——Python科学计算库-Numpy

    深度学习--学习目录 NumPy介绍 NumPy系统是Python的一种开源的数值计算扩展. 这种工具可用来存储和处理大型矩阵, 比Python自身的嵌套列表(nested list structur ...

  3. 2018年GitHub最流行Python开源项目

    原文链接:https://www.ctocio.com/ccnews/27611.html 文章来自IT经理网 Python是当下最火的编程语言之一,在GitHub上有大量热门开源项目,近日开源众包平 ...

  4. 【机器学习】Python机器学习的神器- Scikit-learn使用说明

    全文共 26745 字,106 幅图表, 预计阅读时间 67 分钟. 0 引言 Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具.它建立在 NumPy, S ...

  5. 人工智能开发语言 =Python

    谷歌的AI击败了一位围棋大师,是一种衡量人工智能突然的快速发展的方式,也揭示了这些技术如何发展而来和将来可以如何发展. 人工智能是一种未来性的技术,目前正在致力于研究自己的一套工具.一系列的进展在过去 ...

  6. 一文了解 2018年最火爆的30个机器学习项目

    机器学习是当前最为火爆的话题之一,机器学习的开源项目也层出不穷,让人目不暇接.本文从受欢迎程度方面,对比以及挑选出了去年发布的30个最火的机器学习项目. 下面,让我们一起来看看,2018年究竟有哪些机 ...

  7. Github 年度最受欢迎的 TOP30 Python 项目,超值

    作者 | 俊欣 来源 | 关于数据分析与可视化 今天小编整理归纳了2021年Github上面最受欢迎的30个Python项目,帮助大家在打磨技术与提升自我上面更进一步. 通过代码来获取 Github官 ...

  8. 2018年Github上值得学习的十个热门项目

    关注「实验楼」,每天分享一个项目教程 2018年Github上值得学习的十个热门项目,了解一下- 正文共:1065 字 预计阅读时间:3 分钟 项目一 julia(语言) 简介:julia是一种新的. ...

  9. 推荐一个github上万star的机器学习资料整理贴

    推荐一个github上万star的机器学习资料整理贴,机器学习,深度学习,自然语言处理等应有尽有!(本文来源:忆臻的知乎) 作者:忆臻 春招将近,给大家推荐一个github上万star的资料整理贴,机 ...

最新文章

  1. python基础练习(十)
  2. k8s集群搭建教程(centos k8s搭建)
  3. 数组中子数组求最大和
  4. Docker框架使用系列教程(五)容器间的链接
  5. Codeup墓地-问题 D: 最短路径
  6. RHEL7.0 配置网络IP的三种方法
  7. C++程序运行时内存布局之--无继承情况下的虚函数
  8. python的selenium模块_python-爬虫-selenium模块
  9. 纯javaweb项目整合quarz定时器
  10. MySQL 刷脏页问题
  11. ISO9000 质量管理和质量保证系列国际标准
  12. java 保存对象_Java将对象保存到文件中/从文件中读取对象
  13. 何谓情比金坚——婚姻来源和相关说法
  14. 【北交所周报】北交所再迎8只新股;康普化学、凯华材料上市首日逆势大涨;康乐卫士过会,或成北交所最大IPO;北交所推出直联机制...
  15. 启用计算机无线网络连接,哪位清楚笔记本电脑如何启用无线网络连接
  16. 好文:中国Saas蜕变史
  17. [架构之路-164]-《软考-系统分析师》-3-操作系统基本原理-文件系统(文件的逻辑组织、文件的物理组织、硬盘空间管理、分布式文件系统)
  18. 计算机毕业设计Java房产中介管理系统(源码+系统+mysql数据库+lW文档)
  19. 有理样条曲线学习笔记(一)
  20. 2023年开网店还能赚钱吗?去哪里找货源?

热门文章

  1. 今年,你会为5G消费吗?就一分钟,求投票
  2. 前戴尔EMC中国研究院院长创业:推出AI加速虚拟化平台,开发者可免费使用
  3. Call apply 用法
  4. 数据挖据之GeoHash核心原理解析
  5. 100c之36:不同鸡的数量
  6. 关于ANSI和UTF-8,windows和unix的行结束符
  7. Exchange2003 OWA 将HTTPS转为HTTP访问!〖罗斌个人工作经验谈〗
  8. uniapp cross-env不是内部或外部_企业内部防泄密三部曲 严防祸起萧墙之内
  9. FD.io/VPP — 常用指令集合
  10. Linux VIM IDE