近日MapR宣布推出了一款名为Quick Start Solution(QSS)的新解决方案,专注于深度学习应用。MapR强调,QSS是一款分布式深度学习产品和服务,能够大规模训练复杂的深度学习算法。

想法是这样的:深度学习需要有大量数据,这是很复杂的。如果MapR的融合数据平台是你的主干架构,那么QSS可以让你得到将数据用于深度学习应用所需的东西。这是有道理的,这符合MapR的战略。

MapR是第一家在市场中推出所谓的“AI on Hadoop”产品的Hadoop厂商。但是AI on Hadoop从更大范围来说是有意义的吗?其他厂商在这方面都做了什么?

专注深度学习的MapR

还记得Hadoop第一次问世的时候吗?那时候Hadoop还是一个具有诸多优点的平台,但是需要用户具有额外的专业技能才可以使用Hadoop。现在这种情况改变了。Hadoop已经成为一个蓬勃发展的生态系统,它取得成功的很大一部分是因为我们所谓的SQL on Hadoop。

Hadoop一直能够以低廉的成本保存和处理大量数据,但此前并非如此,直到它支持通过SQL访问数据,这让Hadoop足以成为企业数据主干的有力竞争者。SQL仍然是访问数据的事实标准,所以支持SQL意味着Hadoop可以被大多数人所使用。

AI和SQL是不同的。它并不具备向后兼容性,以及商业功能。AI是一种具有前瞻性的领域。但即使今天,AI对于使用AI的人来说是一个差异点,但看起来AI似乎很快就会成为一种商品。那些没有使用AI的人将无法参与竞争。

AI和SQL也是类似的:如果你是一家Hadoop厂商,那么这不是你真正的工作。这是其他人要做的——你只需要确保Hadoop可以运行在你的平台上,也就是数据所在的地方。这就是MapR希望通过SQL实现的。

MapR利用开源容器技术(例如Docker),以及编排技术(例如Kubernetes)以分布式的方式部署深度学习工具(例如TensorFlow)。这些技术都与MapR无关,但是QSS带给它的价值是确保所有功能都可以无缝连接。

MapR QSS所具有的分布式深度学习拥有三层:底层是数据层,中间是编排层,顶层是应用层(图片来源:MapR)

MapR首席应用架构师Ted Dunning解释说:“采用AI/深度学习最好的方式就是部署一个可扩展的融合数据平台,这个平台支持最新的深度学习技术,且拥有一个几乎可以无限扩展的底层企业数据框架。”

他还指出,“几乎所有机器学习软件都是独立于Hadoop和Spark部署的。这要求有一个类似MapR这样的平台,能够支持Hadoop/Spark工作负载,以及传统文件系统API。”

既然这种方法奏效,那么你为什么不使用MapR-DB、MapR Streams以及MapR-FS,还有MapR Persistent Application Client Container (PACC)来部署你的模式?哦,我们也为你准备了服务来帮助你。这就是MapR希望通过QSS传递的信息。

MapR首席产品官Anil Gadre表示:“深度学习可以为企业组织提供深远的转型机会。我们的专业知识加上独特的设计构成了QSS的基础。QSS将可以让企业快速利用现代化基于GPU的架构,为他们扩展深度学习铺平道路。”

AI on Hadoop

那么,这与AI on Hadoop是一回事吗?与SQL不同,AI是没有标准的。甚至现在还没有一个被广泛接受和理解的定义。深度学习只是机器学习的一部分,深度学习又只是AI的一部分。甚至在深度学习中,虽然会有一些共享的理念,但是没有一个常用的API。所以SQQ是DL on Hadoop,并不是真正的AI on Hadoop。

AI不止是机器学习,机器学习不止是深度学习(图片来源:Nvidia)

使用像Hadoop这样的数据和计算平台作为AI的基础这是很自然的想法。但是能够在Hadoop上运行机器学习或者深度学习并不会让Hadoop厂商变成一家AI厂商。这是我们在过去几个月与许多Hadoop厂商高管沟通得出的结论。

对于Cloudera公司首席执行官Tom Reilly来说,“机器学习是非常真实非常活跃的,在实践中有很好的表现。我们的客户正在努力了解AI,了解这对未来意味着什么。我们正在帮助他们使用机器学习,我们的平台已经支持机器学习,并将继续提供支持。我们的平台是人们对AI是使用的数据的承载平台。”

Cloudera一直被批评在最近的IPO文件中试图把自己定位为一家AI公司。据我们所知,Cloudear并没有在AI方面的广泛内部经验。它有一个数据科学团队,有很多员工,还有最近收购的sense.io。

Sense.io一直被集成到Cloudear的堆栈中,收购后被重新包装成Cloudera Data Science Workbench (CDSW)。在最近与Cloudear数据科学总监Sean Own的交谈中,Owen将sense.io比作IBM的DataWorks。

“通过提供对数据的就绪访问,CDWS缩短了通过我们自动化的机器学习平台交付AI应用价值的时间,”DataRobot公司首席执行官Jeremy Achin指出。这一点很好,但是这并不是真正的AI,对吧?

对于Hortonworks公司首席技术官Scott Gnau表示,AI包含两个关键组成部分:大量数据外加数据包和算法处理数据。Hortonworks支持两者,AI胜利了,Hortonworks也就胜利了。不过,Gnau强调说,他认为Hortonworks的优势在于企业监管和安全性。

Gnau认为,我们还没有看到我们所期待的AI中的新兴技术。所以Hortonworks的方法是投资基础设施,成为值得信赖的数据厂商,同时密切关注新兴的杀手级技术和应用。

每家厂商的方法都必须考虑现在的大背景以及他们的变革方向。AI是一个新的战场,厂商各自的方法与他们的理念和目标相符合,我们将继续关注和分析AI方面的进展。

原文发布时间为:2017年5月31日

本文作者:孙博

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

分析:“AI on Hadoop”有意义吗?相关推荐

  1. 百度「AI战疫」:首次开源肺炎CT影像分析AI模型,让诊断从分钟到秒

    自疫情爆发以来,多家科技公司纷纷加入了抗击疫情的战役中. 其中,排查疫情是这场战役的重中之重,而 CT 影像已成为新冠肺炎筛查和病情诊疗的重要依据. 然而,在当前疫情诊疗的关键时期,存量患者和新增患者 ...

  2. 独立成分分析ICA系列1:意义

    1.前言 独立成分分析思想和方法最早源于上世纪八十年代几个法国学者的研究工作,尽管当时他们并没有命名其为ICP;在1986年举行的神经网络计算会议上,法国学者Heraull和Jutten提出了一个基于 ...

  3. 深度分析如何在Hadoop中控制Map的数量

    深度分析如何在Hadoop中控制Map的数量 guibin.beijing@gmail.com 很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数 ...

  4. 深度分析AI新职位丨人工智能训练师是什么?做什么的?发展前景如何?

    有人说,"人工智能训练师"是AI给人类带来的第一个非技术类"新职位",这也许能让大家对AI多一些客观认知.甚至是好感:不过这个新职位,AI领域从业者的认知度还不 ...

  5. 只有音频没指纹,能抓对人吗?CMU音频分析AI说没问题

    原作Simon Brandon  Root 编译自 World Economic Forum 量子位 出品 | 公众号 QbitAI 2014年有恶作剧的人不停打给美国海岸警卫队报假警.那些人以为,没 ...

  6. 从〇开始可微神经搜索DARTS分析第〇章:意义与基础结构

    可微神经搜索DARTS(全称Differentiable Architecture Search),是神经架构搜索NAS(全称Nerual Architcture Search)的分支,首先简要介绍N ...

  7. 程序员带你一步步分析AI如何玩Flappy Bird

    以下内容来源于一次部门内部的分享,主要针对AI初学者,介绍包括CNN.Deep Q Network以及TensorFlow平台等内容.由于笔者并非深度学习算法研究者,因此以下更多从应用的角度对整个系统 ...

  8. 《西游记》主要人物的阶层分析及取经的本质意义

    朱金灿 近日看<西游记>,发现了一些新东西,与诸君共享.呵呵,易中天先生品三国,这里我也附庸风雅一把,来个品西游. 我发现西游记的五个主要人物:唐僧.孙悟空.猪八戒.沙僧和白龙马可以分为三 ...

  9. 一步步分析AI如何玩Flappy Bird

    一.Flappy Bird 游戏展示 在介绍模型.算法前先来直接看下效果,上图是刚开始训练的时候,画面中的小鸟就像无头苍蝇一样乱飞,下图展示的是在本机(后面会给出配置)训练超过10小时后(训练步数超过 ...

最新文章

  1. 详解MariaDB数据库的触发器
  2. UITableViewCell 添加长按手势
  3. Android面试题(五) --重要
  4. iOS ARC环境下dealloc的使用
  5. [Java][JavaScript]字符串数组与字符串之间的互转(join/split)(转)
  6. 面试 - 要不简单聊一下你对MySQL索引的理解?
  7. 【译】《学习JavaScript设计模式》(二)
  8. 一个家系突变分析一篇 SCI | 文章解析
  9. 一套完整的基于随机森林的机器学习流程(特征选择、交叉验证、模型评估))...
  10. 美团架构师熬夜整理:Netty权威指南2.0版+英雄传说项目
  11. 中小型企业网络IP地址规划案例
  12. IntelliJ Idea设置护眼浅绿色背景方法
  13. 程序员不能只会敲代码还要会投资理财
  14. 输出电阻与反馈网络的关系以及计算
  15. MySQL无法连接/端口被占用[解决记录]
  16. Go error--cannot find package
  17. 软考笔记——1.1、计算机硬件组成、数据的进制转换、校验码
  18. Marlin架构解析
  19. 洁净间的环境监测项目与频次,看看你们的是否也一样?
  20. @WebFilter不拦截 action

热门文章

  1. Boost:可移植地自定义boost :: hash的测试程序
  2. ITK:获取图像中标记区域的几何属性
  3. OpenCV cv :: UMat与DirectX9ex曲面的互操作性的实例(附完整代码)
  4. OpenCV线特征Line Features
  5. Qt Designer的小部件编辑模式
  6. C语言dijkstra最短距离的算法(附完整源码)
  7. C++decltype关键字
  8. QT的QItemSelection类的使用
  9. QT的QDesignerCustomWidgetCollectionInterface类的使用
  10. c++类与类的聚合(Aggregation)关系