原文名称:7 tools to fire up Spark's big data engine

Spark正在数据处理领域卷起一场风暴。让我们通过本篇文章,看看为Spark的大数据平台起到推波助澜的几个重要工具。

Spark生态系统众生相

Apache Spark不仅仅让大数据处理起来更快,还让大数据处理起来更简单、功能更强大、更方便。Spark并非只是一项技术,它结合了诸多部分,新的功能和性能改进不断添加进来,每个部分都在不断完善之中。

本文介绍了Spark生态系统的每个主要部分:每个部分的功能,为什么很重要,是如何发展的,在哪方面不尽如人意,以及可能会往哪个方向发展。

Spark Core

Spark的核心是恰如其名的Spark Core。除了协调和调度作业外,Spark Core还为Spark中的数据处理提供了基本的抽象机制,名为弹性分布式数据集(RDD)。

RDD对数据执行两个动作:转换和操作。前者转换数据,并将它们作为刚创新的RDD来提供;后者根据现有的RDD(比如对象数量)来计算结果。

Spark的速度很快,原因是转换和操作都保存在内存中。操作慢腾腾地评估,这意味着只有需要相关的数据时,才执行操作;然而,很难搞清楚什么在缓慢运行。

Spark的速度在不断提高。Java的内存管理往往给Spark带来问题,于是Project Tungsten计划避开JVM的内存和垃圾收集子系统,以此提高内存效率。

Spark API

Spark主要是用Scala编写的,所以Spark的主要API长期以来也支持Scala。不过另外三种使用广泛得多的语言同样得到支持:Java(Spark也依赖它)、Python和R.

总的来说,你最好选择自己最擅长的那种语言,因为你需要的功能特性很可能在该语言中直接得到支持。只有一个例外:相比之下,SparkR中对机器学习的支持不大给力,目前只有一小批算法可供使用。不过将来这种情况势必会发生变化。

Spark SQL

千万不要低估了能够对批量数据执行SQL查询的能力或便利。Spark SQL提供了对Spark提供的数据执行SQL查询(并且请求列式DataFrame)的一种通用机制,包括通过ODBC/JDBC连接件进行管道处理的查询。你甚至不需要正规的数据源。Spark 1.6中添加了这一功能:支持以一种得到支持的格式查询扁平文件,就像Apache Drill那样。

Spark SQL其实并不用于更新数据,因为那与Spark的整个意义相悖。可以将因而生成的数据写回成新的Spark数据源(比如新的Parquet表),但是UPDATE查询并不得到支持。别指望诸如此类的功能特性很快就会推出;着眼于Spark SQL的改进大多数用于提升其性能,因为它也成了Spark Streaming的基础。

Spark Streaming

Spark的设计让它得以支持许多处理方法,包括流处理――Spark Streaming因此得名。关于Spark Steaming的传统观点是,它还半生不熟,这意味着只有你不需要瞬间延迟,或者如果你还没有投入到另一种流数据处理解决方案(比如说Apache Storm),你才会使用它。

但是Storm在逐渐失去人气;长期使用Storm的推特此后已改用了自己的项目Heron。此外,Spark 2.0承诺会推出一种新的“结构化数据流”模式,以便对实时数据进行交互式Spark SQL查询,包括使用Spark​的机器学习库。至于其性能是否高得足以击败竞争对手仍需拭目以待,不过它值得认真考虑。

MLlib(机器学习)

机器学习技术素有既神奇,又困难之称。Spark让你可以对Spark中的数据运行许多常见的机器学习算法,从而使这些类型的分析容易得多,也更容易被Spark用户所使用。

MLlib中的可用算法数量众多,该框架每推出一个修订版,就会随之增多。话虽如此,一些类型的算法还是没有――比如说,涉及深度学习的任何算法。第三方正在利用Spark的人气来填补这一空白;比如说,雅虎可以借助CaffeOnSpark执行深度学习,它通过Spark充分利用了Caffe深度学习系统。

GraphX​​(图形计算)

描绘数百万实体之间的关系通常需要图形,这种数据构件描述了那些实体之间的相互关系。Spark的GraphX​​ API让你可以使用Spark的一套方法,对数据执行图形操作,于是构建和转换这类图形的繁重任务卸载到了Spark。GraphX​​还包括用于处理数据的几种常见算法,比如PageRank或标签传播(label propagation)。

从目前来看,GraphX的​​一个主要限制是,它最适合静态图形。处理添加了新顶点的图形会严重影响性能。此外,如果你已经在使用一种成熟的图形数据库解决方案,GraphX还​​不太可能取代它。

SparkR(Spark上的R)

R语言为进行统计数值分析和机器学习工作提供了一种环境。Spark在2015年6月添加了支持R的功能,以匹配其支持Python和Scala的功能。

除了为潜在的Spark开发人员多提供一种语言外,SparkR还让R程序员们可以做之前做不了的许多事情,比如访问超过单一机器的内存容量的数据集,或者同时轻松地使用多个进程或在多个机器上运行分析。

SparkR还让R程序员可以充分利用Spark中的MLlib机器学习模块,创建一般的线性模型。遗憾的是,并非所有的MLlib功能在SparkR中得到支持,不过Spark每推出一个后续的修订版,都在填补R支持方面的差距。

作者:布加迪编译来源:51CTO.com

引爆Spark大数据引擎的七大工具相关推荐

  1. spark 动态预加载数据_热门大数据引擎/组件概要

    热门大数据引擎/组件概要 TeraData 老牌数仓公司,已经上市十几年,数仓领导者地位(from Gartner),目前在向云端发力.主要提供一体机,MPP架构,运行稳定,之前工行用的是TD的系统, ...

  2. 阿里开发者们的第15个感悟:做一款优秀大数据引擎,要找准重点解决的业务场景

    2015年12月20日,云栖社区上线.2018年12月20日,云栖社区3岁. 阿里巴巴常说"晴天修屋顶". 在我们看来,寒冬中,最值得投资的是学习,是增厚的知识储备. 所以社区特别 ...

  3. 基于Hadoop架构下的FineBI大数据引擎技术原理

    随着各个业务系统的不断增加,以及各业务系统数据量不断激增,业务用户的分析诉求越来越多且变化很快,IT数据支撑方的工作变得越来越复杂. 1.数据来自多个不同的系统,存在需要跨数据源分析,需要对接各种不同 ...

  4. Spark大数据技术与应用期末总结大题

    PySpark启动以Local,yarn,standalone,mesos2.控制日志级别,有效的日志级别包括:ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE, ...

  5. Spark大数据技术与应用 第一章Spark简介与运行原理

    Spark大数据技术与应用 第一章Spark简介与运行原理 1.Spark是2009年由马泰·扎哈里亚在美国加州大学伯克利分校的AMPLab实验室开发的子项目,经过开源后捐赠给Aspache软件基金会 ...

  6. 2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》 畅销书籍 清华大学出版社发行上市!

    2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作<SPARK大数据商业实战三部曲>畅销书籍 清华大学出版社发行上市! 本书基于Spark 2.2.0新版本,以Spark商业案例实战 ...

  7. 阿里开发者们的第15个感悟:做一款优秀大数据引擎,要找准重点解决的业务场景...

    1月10日,做一款优秀大数据引擎,要找准重点解决的业务场景.这是我们送给开发者的第15个感悟. 沐远在社区分享了他的博文,<使用spark分析云HBase的数据><hive数据导入云 ...

  8. Ronald Van Loon/Greg White带你领略Hadoop/Spark大数据CCA175认证(一)

    目录 圣普伦Simplilearn课程概述: 圣普伦的Hadoop/Spark大数据CCA175认证培训课程特点: 上课模式: 预修课程: 适合人群 主要学习成果: 认证考试: 认证条件: 课程设置: ...

  9. 大数据时代:大数据引擎或改变大数据竞争格局

    对于传统企业而言,无需任何繁杂的技术手段,只需要接入百度大数据引擎,即可利用大数据去帮助现有业务进行升级和创新了.峰哥认为百度此举是在加大此次大数据台风的风力.换一种角度看,这也是百度为了快速丰富各行 ...

  10. mSystems:苏晓泉、徐健-基于大数据引擎的全球微生物组转化网络

    一个无标度.完全关联的全球转化网络是已知微生物组多样性的基础 A Scale-Free, Fully Connected Global Transition Network Underlies Kno ...

最新文章

  1. lua 循环语句 实例
  2. 快速操作Linux终端命令行的快捷键…
  3. java数组实验报告_Java实验一实验报告
  4. JS校验身份证号码的有效性
  5. java生成xml_java 生成xml
  6. Java程序员需要掌握的计算机底层知识(二):操作系统、内核、用户态与内核态、系统调用的执行过程
  7. BYOD时代,如何在企业中保护移动消息传递?
  8. 关闭惠普计算机通电启动注册表,惠普10代cpu电脑装win7卡logo(安装程序正在更新注册表设置)解决方法...
  9. 记一次海洋cms任意代码执行漏洞拿shell(url一句话)
  10. java怎么让遮罩层下面滚动_vue项目弹出层后禁止body底层的滚动事件
  11. java中的命名空间_XPath与Java中的命名空间
  12. 输入银行卡号匹配银行名称
  13. 图片alt属性添加方法
  14. 一位仁兄对于项目管理的精辟见解
  15. 全国计算机等级考试c语言编程题,全国计算机等级考试C语言编程题(附答案)
  16. 用户如何向计算机安装软件,按计算机安装同步应用
  17. 高管激励的有效手段----股权激励
  18. 达美乐中国IPO遇挫:延迟全球发售 原计划上周上市敲钟
  19. 4.Tableau的数据预处理
  20. Github实用Android开源项目推荐(一)

热门文章

  1. 《淘宝技术这十年》读书笔记
  2. java计算机毕业设计小小银动漫网站源码+lw文档+系统+数据库
  3. dell 2420 bios 降级文件,可以用回独立显卡
  4. CentOS 6.4 安装D-Link 525(RT5360)无线网卡驱动
  5. ios睡眠分析 卧床 睡眠_使用Swift在HealthKit中进行睡眠分析
  6. c语言最短线性路径算法,巧用Excel规划求解最短路径
  7. 景格虚拟教具混合动力汽车动力系统虚拟结构原理展示台复制狗
  8. OpenEmu for mac(苹果系统原生游戏模拟软件)中文版
  9. CRM-数据权限设计
  10. 五、BD09(百度坐标系)