2019独角兽企业重金招聘Python工程师标准>>>

2016 年底,Google DeepMind 开源了它们的机器学习平台 — DeepMind Lab。尽管像霍金教授这样的专家曾就人工智能技术发出过警告,谷歌仍决定向其他开发人员开源其软件,这也是它们进一步发展机器学习能力的一部分。他们不是唯一一家这样做的科技公司,Facebook 去年开源了其深度学习的软件,Elon Musk 的非营利组织 OpenAI 也发布了 Universe,这是一个可用于训练 AI 系统的开放软件平台。所以,为什么谷歌、OpenAI,以及其他的公司或机构都选择开源了它们的平台,这将会对机器学习的采用产生怎样的影响?

为什么开源机器学习?

上面所提到的例子给了我们美好的愿景,其实如果仔细观察,会留意到机器学习一直是开源的,而且开放的研发是机器学习有如今这样关注度的根本原因。

通过向公众提供自己学习平台,Google 已经验证了其 AI 研究的意识越来越高。这样做其实有很多优点,例如可为 Alphabet 发掘到新的人才和有能力的创业公司。同时,开发者能访问 DeepMind Lab 将有助于解决他们研究机器学习的一个关键问题 —— 缺乏训练环境。OpenAI 为 AI 推出了一个新的虚拟学校,它使用游戏和网站来训练 AI 系统。

目前非常需要向公众提供机器学习平台这样的举动。

5 个开源机器学习项目的优势

  • 重现科学的结果和公平的比较算法:在机器学习中,经常使用数值模拟来提供实验验证和方法比较。这种方法之间的比较是基于严格的理论分析的。开源工具和技术提供了一个机会,可以使用公开的源代码彻底地进行研究,而不依赖于提供方。
  • 快速查找和修复 bug:当你使用开源软件执行机器学习项目时,易于检测和解决软件中的 bug。
  • 以低成本、重用的方法加快科学研究的发展:众所周知,科学的进步总是以现有的方法和发现为基础,机器学习领域也不例外。机器学习中开源技术的可用性可很好地将大量现有资源投入研究和项目。
  • 长期的可用性和支持:无论是个人研究者、开发者,还是数据科学家,开源可能都可以作为一种媒介,以确保每个人都可以在改变工作后使用他/她的研究或发现。因此,通过在开源许可证下发布代码可增加获得长期支持的机会。
  • 各行业更快地采用机器学习技术:开源软件有显著的典范,它支持着创建数十亿美元的机器学习公司和行业。研究人员和开发者采用机器学习的主要原因是有免费提供高质量的开源实现。

加快开源机器学习的采用曲线

开源机器学习的进步将使得人工智能的采用曲线更加陡峭,从而促使开发者和创业公司努力使 AI 更智能。软件平台的可用性正在改变企业开发 AI 的方式,促使他们跟随 Google,Facebook 和 OpenAI 的脚步进行更透彻的研究。

开放机器学习平台的转变是确保 AI 可为每个人所用而不是只被掌握在少数技术巨头手中的重要阶段。

个人认为,科技巨头发布开源机器学习项目有三个原因:

  • 雇佣已经与开源社区接触并通过开源项目建立了对机器学习的认识的工程师
  • 控制一个机器学习平台,使它们为自己更广泛的 SDK 或云平台策略更好地工作
  • 发展整个市场,因为他们的市场份额已经达到了饱和点

当一家创业公司发布一个开源项目时,它会引起注意,其中一些会被转化为付费客户和招聘。根据创业公司自己的定义,他们是尝试在特定市场上立足,而不是扩大现有市场。开源是无摩擦的,为另一个用户提供服务并使组织能够解决实际问题不会花费任何东西,从而使代码具有更大影响。

开源打破了建立专利技术的公司的限制。其中一个连锁效应可能是关注价值所在的转变,随着整个 AI 技术的商业化,关注点已从核心机器学习技术转向构建最佳模型,这需要大量的数据和领域专家来创建和训练模型。对于这点,具有网络影响力的大型企业具有天然优势。

开源机器学习中的最佳框架

现在有大量的开源机器学习框架,使机器学习工程师能够:

  • 构建、实施和维护机器学习系统
  • 生成新项目
  • 创建新的有影响力的机器学习系统

一些重要的框架包括:

  • Apache Singa 是一个通用、分布式、深度学习的平台,用于在大型数据集上训练大型深度学习模型。它被设计有基于层次抽象的本能编程模型。支持各种流行的深度学习模型,包括卷积神经网络(CNN),受限玻尔兹曼机(RBM),以及循环神经网络(RNN)等能量模型。为用户提供了许多内置图层。
  • Shogun 是历史最悠久,也是最受尊敬的机器学习库之一。Shogun 于 1999 年创建,采用 C++ 编写,但不只限于在 C++ 中使用。感谢 SWIG 库,Shogun 可用于以下编程语言和环境:
    • Java
    • Python
    • C#
    • Ruby
    • R
    • Lua
    • Octave
    • Matlab

Shogun 旨在面向广泛的特性类型和学习环境进行统一的大规模学习,如分类、回归、降维、聚类等。它包含了几项独有的最先进的算法,如丰富的高效 SVM 实现,多内核学习,内核假设检验,以及 Krylov 方法等。

  • TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。TensorFlow 使用数据流图进行数值计算,通过节点(Nodes)和线(edges)的有向图来阐述数学计算。节点在图中表示数学操作,也可以表示数据输入(feed in)的起点/输出(push out)的终点,或者是读取/写入持久变量(persistent variable)的终点。图中的线则表示在节点间相互联系的多维数据数组,这些数据 “线” 可以输运 “size 可动态调整” 的多维数据数组,即 “张量”(tensor)
  • Scikit-Learn 通过构建在数个现有的 Python 包(NumPy,SciPy 和 matplotlib)之上,用于数学和科学工作,充分利用了 Python 的广度。生成的库可以用于交互式 “工作台” 应用程序,也可以嵌入到其他软件中并重用。该套件在 BSD 许可证之下发布,因此它完全是开源和可重用的。Scikit-learn 包括许多用于标准机器学习任务(如聚类,分类,回归等)的工具。由于 scikit-learn 是由一大群开发者和机器学习专家开发的,所以新技术有希望会很快被引入。
  • MLlib (Spark) 是 Apache Spark 的机器学习库。其目标是使实用的机器学习具有更好的可扩展性和易于使用。它由常见的学习算法和实用程序组成,包括分类、回归、聚类、协同过滤、降维,以及较底层的优化原语和高层的管道 API。Spark MLlib 被认为是在 Spark Core 之上的分布式机器学习框架,主要由于其分布式的基于内存的 Spark 架构,几乎是 Apache Mahout 使用的基于磁盘的实现的九倍。
  • Amazon Machine Learning 是一项使任何技能水平的开发者都能轻松使用机器学习技术的服务。Amazon Machine Learning 提供了可视化工具和向导,指导你完成创建机器学习(ML)模型的过程,而无需学习复杂的 ML 算法和技术。它连接到存储在 Amazon S3,Redshift 或 RDS 中的数据,可以对所述的数据运行二进制分类,多类分类或回归,以创建一个模型。
  • Apache Mahout 是 Apache 软件基金会的一个自由开源项目。目标是为协作过滤、聚类和分类等多个领域开发免费的分布式或可扩展的机器学习算法。Mahout 为各种数学运算提供了 Java 库和 Java 集合。Apache Mahout 是使用 MapReduce 范例在 Apache Hadoop 之上实现的。如果大数据存储在 Hadoop 分布式文件系统(HDFS)中,Mahout 提供的数据科学工具,可以在这些大数据集中自动找到有意义的模式,从而将这些大数据快速轻松地转化为 “大信息”。

最后要说的

机器学习确实可以在开源工具的帮助下解决真正的科学技术问题。如果机器学习是为了解决真正的科学技术问题,社区需要建立在彼此的开源软件工具之上。我们认为,机器学习开源软件有一个紧急需求,它将满足多个角色,其中包括:

  • 更好的方法来重现结果
  • 为质量软件实施提供学术认可的机制
  • 通过站在其他人的肩膀(不一定是技术巨头)上以加速研究过程

编译自:blog.hackerearth.com 作者:Chandrashekhar Deshpande

转载于:https://my.oschina.net/editorial-story/blog/869479

为什么机器学习行业的发展离不开 “开源”相关推荐

  1. 2017年5个网络行业快速发展技术趋势

    在每个新年伊始,来自不同公司的专家和预测者都会开始预测在未来12个月内可能影响技术行业的趋势.对于2017年,下面是可能对IT专业人员带来影响的主要技术和趋势: 2017年5个网络行业快速发展技术趋势 ...

  2. 中国车用轴承行业市场发展分析与投资战略研究报告2022-2028年

    中国车用轴承行业市场发展分析与投资战略研究报告2022-2028年 详情内容请咨询鸿晟信合研究院! [全新修订]:2022年2月 [撰写单位]:鸿晟信合研究研究[报告目录] 第1章:中国车用轴承行业发 ...

  3. 2017年最火的19个行业怎么发展?这里有份投行的万字预测

    2017年最火的19个行业怎么发展?这里有份投行的万字预测 1.影视娱乐 趋势性变化 Ÿ视频付费用户保持高速增长,成为娱乐产业新"引擎":2016年是付费视频市场的确立之年,这年岁 ...

  4. 知乎上对 国内机器视觉行业的发展的 讨论-经典

    如何看待国内机器视觉行业的发展?希望以公司为例盘点! 最近关注机器人领域,图像识别行业,感觉国内视觉公司对工业自动化方向更为关注,说说大家对于机器视觉行业发展的看法,以及给研发人员职业规划的建议? 添 ...

  5. 疫情下的在线教育行业未来发展

    中国在线教育行业2013年在资本推动下开始蓬勃发展,并于2017年借助直播形式实现规模化,在2020年,受疫情影响开始快速增长,并逐步走向成熟.在线教育模式可以突破时间和地域的限制,借助互联网工具,将 ...

  6. 浅析跨境电商行业为何发展如此迅猛?

    跨境电商这几年成长的突飞猛进,在我国民众内的知名度堪比国内电商.这里对两者进行一个简单的介绍,国内电商是指消费者在电商平台上挑选商品,然后跟商家下单喜欢的商品,商家进行发货,消费者通过快递得到商品,而 ...

  7. 一文深度解读音视频行业技术发展历程

    从1948年的香农定律,到音视频的今天. IMMENSE.36氪|作者 北京时间2月28日凌晨,FIFA年度颁奖典礼在巴黎举行.梅西荣膺年度最佳球员,斯卡洛尼当选年度最佳男足主帅,马丁内斯荣获年度最佳 ...

  8. Java的激荡发展史。一部激情昂扬的血泪史。技术的发展离不开商业的追逐,商业利益的追逐诞生更多的技术

    文章目录 我的感想 Java的发展史 我的感想 我也没想到回顾Java激荡的发展史,不亚于看了一部惊心动魄的武侠小说,这得益于周志明先生精彩的文笔,让我激情澎湃.技术的发展离不开商业激烈追逐,开源是精 ...

  9. 客户对网站知识的了解能促进网站建设行业的发展

    现在有网站建设要求的客户对网站都有一定的了解,甚至有些对专业掌握的还懂得很多,他们可以比较直观的表述自己想要什么样子的网站,应该如何设计制作,需要哪些功能模块.        前几年的情况和现在恰恰相 ...

  10. 2020年中国家居建材行业信息化发展论坛

    一.会议背景: 2020突如其来的疫情,给各行各业带来不小的麻烦.疫情促使各个产业拥抱数字化,借助技术力量进行数字化升级转型已经成为企业的新增长驱动力.我国建材家居市场已经由高速增长阶段转向高质量发展 ...

最新文章

  1. java工单自动化流程控件,一种工单审批的自动化处理方法及系统与流程
  2. SAP的标准对话框函数
  3. boost::program_options模块实现处理选项组的测试程序
  4. 【Android AAR】1 分钟不用改任何代码在 Eclipse 中使用 AAR
  5. 新建Eclipse的web工程目录结构和MyEclipse相似的设置
  6. 第一百一十一期:思考 | 一文说透秒杀系统如何设计
  7. TypeError: 'NoneType' object is not subscriptable
  8. 蓝桥杯2016年C/C++ 混搭
  9. 在bash中,如何检查字符串是否以某个值开头?
  10. Linux操作系统——vi文本编辑器
  11. 2021年1月12日Flash Player被禁用后的缓解办法(2021年6月更新)
  12. 不离不弃共赴鸿蒙什么意思,鸿蒙是什么意思 “道起鸿蒙”是什么意思,有何典故,语出何处?...
  13. Python 三种读文件方法read(), readline(), readlines()及去掉换行符\n
  14. Delphi图像处理 -- 彩色浮雕
  15. jquery 实现背景图片循环切换,显示隐藏div
  16. 评DeepMind神经网络求解MIP论文:并非无所不能
  17. 给热心老哥搭个窝,2021年30分钟用Discourse搭建新一代BBS论坛站全攻略
  18. 英飞凌TC275芯片开发笔记
  19. 使用十六进制设置颜色
  20. 【来日复制粘贴】使用公式提取数据

热门文章

  1. 菲佣WPF——3(关于INotifyPropertyChanged的使用的想法)
  2. MasterPage简介
  3. Acoustica 7 for mac(数字音频编辑器)
  4. iphone怎么换手机铃声?只需要一招 iRingg
  5. Mac mysql 忘记 root 密码,phpmyadmin 登录 No such file or directory 错误处理
  6. 阿里云POLARDB 2.0重磅来袭!为何用户如此的期待?
  7. Linux组件封装(三)使用面向对象编程封装Thread
  8. Spring自学教程-AOP学习(五)
  9. Hadoop 解除 Name node is in safe mode(转)
  10. FlashDevelop 3.0.0 Rc2 版本下载