Spark大数据计算平台包含许多子模块,构成了整个Spark的生态系统,其中Spark为核心。
伯克利将整个Spark的生态系统称为伯克利数据分析栈(BDAS),其结构如图1-1所示。

图1-1 伯克利数据分析栈的结构

以下简要介绍BDAS的各个组成部分。

1. Spark Core

Spark Core是整个BDAS的核心组件,是一种大数据分布式处理框架,不仅实现了MapReduce的算子map函数和reduce函数及计算模型,还提供如filter、join、groupByKey等更丰富的算子。
Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。其底层采用Scala函数式语言书写而成,并且深度借鉴Scala函数式的编程思想,提供与Scala类似的编程接口。

2. Mesos

Mesos是Apache下的开源分布式资源管理框架,被称为分布式系统的内核,提供了类似YARN的功能,实现了高效的资源任务调度。

3. Spark Streaming

Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。其吞吐量能够超越现有主流流处理框架Storm,并提供丰富的API用于流数据计算。

4. MLlib

MLlib是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。MLlib目前支持4种常见的机器学习问题:二元分类、回归、聚类以及协同过滤,还包括一个底层的梯度下降优化基础算法。

5. GraphX

GraphX是Spark中用于图和图并行计算的API,可以认为是GraphLab和Pregel在Spark (Scala)上的重写及优化,与其他分布式图计算框架相比,GraphX最大的贡献是,在Spark上提供一栈式数据解决方案,可以方便、高效地完成图计算的一整套流水作业。

6. Spark SQL

Shark是构建在Spark和Hive基础之上的数据仓库。它提供了能够查询Hive中所存储数据的一套SQL接口,兼容现有的Hive QL语法。熟悉Hive QL或者SQL的用户可以基于Shark进行快速的Ad-Hoc、Reporting等类型的SQL查询。由于其底层计算采用了Spark,性能比Mapreduce的Hive普遍快2倍以上,当数据全部存储在内存时,要快10倍以上。2014年7月1日,Spark社区推出了Spark SQL,重新实现了SQL解析等原来Hive完成的工作,Spark SQL在功能上全覆盖了原有的Shark,且具备更优秀的性能。

7. Alluxio

Alluxio(原名Tachyon)是一个分布式内存文件系统,可以理解为内存中的HDFS。为了提供更高的性能,将数据存储剥离Java Heap。用户可以基于Alluxio实现RDD或者文件的跨应用共享,并提供高容错机制,保证数据的
可靠性。

8. BlinkDB

BlinkDB是一个用于在海量数据上进行交互式SQL的近似查询引擎。它允许用户在查询准确性和查询响应时间之间做出权衡,执行相似查询。

spark生态及各个功能相关推荐

  1. Hadoop/Spark生态圈里的新气象

    令人惊讶的是,Hadoop在短短一年的时间里被重新定义.让我们看看这个火爆生态圈的所有主要部分,以及它们各自具有的意义. 对于Hadoop你需要了解的最重要的事情就是,它不再是原来的Hadoop. 这 ...

  2. Spark生态顶级项目汇总

    2019独角兽企业重金招聘Python工程师标准>>> 现在Apache Spark已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具.后面主要给出5个使用广泛的第三方项目 ...

  3. Spark生态之Spark Streaming

    批处理 & 流处理 为什么需要流处理---更多场景需要? 越来越多的应用需要大规模数据下的实时计算能力 实时舆情分析 Spark Core & RDD本质上是离线运算 val conf ...

  4. Spark常见面试题及解答

    Spark 通常来说,Spark与MapReduce相比,Spark运行效率更高.请说明效率更高来源于Spark内置的哪些机制? hadoop和spark使用场景? spark如何保证宕机迅速恢复? ...

  5. 大规模数据分析统一引擎Spark入门实战

    文章目录 概述 定义 Hadoop与Spark的关系与区别 特点与关键特性 组件 集群概述 集群术语 部署 概述 环境准备 Local模式 Standalone部署 Standalone模式 配置历史 ...

  6. 5W字总结Spark(建议收藏)

    点击上方 "大数据肌肉猿"关注, 星标一起成长 后台回复[加群],进入高质量学习交流群 2021年大数据肌肉猿公众号奖励制度 本文目录: 一.Spark 基础 二.Spark Co ...

  7. 大数据---spark和mr的区别

    首先最核心的两点:内存和磁盘的区别:job中途失败重新计算的区别. ---spark最核心的概念是RDD(弹性分布式数据集),它的所有rdd在并行运算过程程中,可以做到数据共享,也就是可以重复使用mr ...

  8. Spark面试题汇总及答案(推荐收藏)

    一.面试题 Spark 通常来说,Spark与MapReduce相比,Spark运行效率更高.请说明效率更高来源于Spark内置的哪些机制? hadoop和spark使用场景? spark如何保证宕机 ...

  9. 大数据开发面试题总结-超详细

    1.文件上传: 总结: 客户端上传请求--->namenode检查,返回响应--->客户端真正的文件上传请求,包括文件名,文件大小--->namenode返回上传节点--->客 ...

最新文章

  1. 一文解读苹果 M1 芯片电脑上的开源软件
  2. 求两个datetime之间相差的天数
  3. bupt summer training for 16 #2 ——计算几何
  4. ICCV2017: Unlabeled Samples Generated by GAN Improve the Person Re-Identification Baseline in Vitro
  5. 1006. Sign In and Sign Out (25)
  6. 7.1 定义关键指标KPI
  7. MVC表示层框架——Velocity技术
  8. 低代码平台,JeecgBoot v3.0版本发布—新里程牌开始,迎接VUE3版本到来
  9. 利用ssh-copy-id无需密码登录远程服务器
  10. 丁香园 (http://www.dxy.cn)这个名字听着
  11. 手机摄像头采集并推流_助力网上广交会—OBS直播推流软件简易教程
  12. 创业维艰-公司业务解决方案推荐!
  13. 如何压缩照片大小,压缩照片大小的方法
  14. ACM第四站————最小生成树(普里姆算法)
  15. Modem analyze by T32 tool.
  16. 【巴什博弈 抢夺资源】
  17. 二级c语言标学教育,标学教育软件下载-标学教育 安卓版v2.9.0-PC6安卓网
  18. lambda的peek(流元素操作),filter(过滤),map(映射),limit(截断),skip(跳过),collect,distinct(去重)函数使用
  19. 神器集合!这12个免费工具可以让您的工作更高效
  20. 1:使用递归函数计算1到n之和

热门文章

  1. Promise API 简介
  2. Shell脚本学习-阶段二十八-shell练习二
  3. vijos1153猫狗大战
  4. Unity中Web.Config文件的配置与调用
  5. Linux下设置文件权限
  6. 【VS Code配置matlab】手把手教学,matlab也能自动补全+瞬间启动+代码整理!
  7. oracle+dg常用命令,DG 日常管理命令汇总
  8. Failed to execute goal org.apache.maven.plugins:maven-deploy-plugin:2.8.2:deploy
  9. 2020-08-21 Qt+MSVC 强制中文UTF-8编码
  10. GDAL\OGR读取数据示例 C#版本