2019独角兽企业重金招聘Python工程师标准>>>

现在Apache Spark已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出5个使用广泛的第三方项目。

Spark官方构建了一个非常紧凑的生态系统组件,提供各种处理能力。 下面是Spark官方给出的生态系统组件(引自Spark官方文档)

  1. Spark DataFrames:列式存储的分布式数据组织,类似于关系型数据表。

  2. Spark SQL:可以执行SQL查询,包括基本的SQL语法和HiveQL语法。读取的数据源包括Hive表、Parquent文件、JSON数据、关系数据库(MySQL等)等。

  3. Spark Streaming:Spark Streaming是Spark核心API,易扩展、高吞吐量、流式数据容错。

  4. MLlib:Spark的机器学习库,由常规的机器学习算法和基础构成,包括但不限于分类算法、回归算法、聚类算法、协调过滤算法、降维算法等。

  5. GraphX:Spark GraphX是一个分布式图处理框架,基于Spark平台提供对图计算和图挖掘的接口,方便用户对分布式图处理的需求。

  6. Spark Core API:Spark提供多种语言的API,包括R、SQL、Python、Scala和Java。

除了上述官方的Spark组件外,还有些是在某种情形下必用的项目。以下只是简单的列出这些重量级 项目,而不涉及一些性能指标。

  1. Mesos

  2. Mesos是开源的资源统一管理和调度平台。抽象物理机的CPU、内存、存储和计算资源,再由框架自身的调度器决定资源的使用者。

  3. Mesos是Master/Slave结构,由Mesos-master,Mesos-slave,Framework和executor四个组件构成。

  4. 为什么官方选用Mesos,而不是Spark standalone模式或者基于Yarn框架?由Spark开发者所写的书《Learning Spark》:Mesos优于其它两个资源框架是因为Mesos的细粒度调度,这样可让多用户运行Spark shell占有更少的CPU。

  5. Spark Cassandra Connector

  6. Cassandra是一个易扩展、高性能的数据库。 Spark Cassandra Connector现在是Spark和Cassandra表间直接交互的连接器,高度活跃的开源软件。 Spark Cassandra Connector库让你读Cassandra表就如同Spark RDD一样,同样可以写Spark RDD到Cassandra表,并可以在Spark程序中执行CQL语句。

  7. ZepellinZepellin是一个集成IPythoon notebook风格的Spark应用。Zepellin可以基于Spark和Scala,允许用户很简单直接的在他们的博客或者网站发布代码执行的结果。Zepellin也支持其它语言插件,包括Scala和Spark,Python和Spark,SparkSQL,HIve,Markdown和Shell。

  1. Spark Job ServerSpark Job Server提供RESTful接口来提交和管理Spark jobs,jar包和job上下文。Spark Job Server提供Spark任务相关的运行健康信息。

  2. Alluxio

  3. Alluxio是一个分布式内存文件系统,它在减轻Spark内存压力的同时,也赋予Spark内存快速读写海量数据的能力。Alluxio以前叫做Tachyon,即钨丝。Spark jobs可以不做任何改变即可运行在Alluxio上,并能得到极大的性能优化。Alluxio宣称:“百度使用Alluxio可以提高30倍多数据处理能力”。

转载于:https://my.oschina.net/css1111/blog/632465

Spark生态顶级项目汇总相关推荐

  1. RocketMQ Apache顶级项目之路

    序言 \\ 2016年11月,阿里将RocketMQ捐献给Apache软件基金会,正式成为孵化项目.至此,RocketMQ 开启了迈向全球顶级开源软件的新征程.通过社区半年多的努力.9 月 25 日, ...

  2. 国人主导研发的 HAWQ® 成 Apache® 顶级项目

    百度智能云 云生态狂欢季 热门云产品1折起>>>   北京时间8月22日,在美国马萨诸塞州的韦克菲尔德,全球著名软件基金会 Apache® 正式宣布: Apache® HAWQ® 毕 ...

  3. 官宣!DolphinScheduler 毕业成为 Apache 软件基金会顶级项目

    全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于北京时间 2021 年 4 月 9 日在官方渠道宣布 Apache DolphinScheduler 毕业成为 Apach ...

  4. Apache基金会正式宣布新一代分布式对象存储Ozone成为顶级项目

    刚刚获悉,Apache基金董事会通过一致表决,正式批准分布式文件对象存储Ozone从Hadoop社区孵化成功,成为独立的Apache顶级开源项目.这意味着,作为腾讯大数据团队首个参与和主导的开源项目, ...

  5. 盘点 35 个 Apache 顶级项目,我拜服了…

    原文 盘点 35 个 Apache顶级项目 文章目录 Apache 软件基金会 顶级开源项目 基础组件项目 1.Apache(httpd) 2.Tomcat 3.Commons 4.POI 5.Htt ...

  6. 官宣!Apache Doris 从 Apache 孵化器毕业,正式成为 Apache 顶级项目!

    全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于美国时间 2022 年 6 月 16 日 宣布,Apache Doris 成功从 Apache 孵化器毕业,正式成为 Ap ...

  7. 龙举云兴|顶级项目 Apache InLong 核心技术探秘

    Apache 软件基金会(即 Apache Software Foundation,简称为 ASF)于近日正式宣布,Apache InLong(应龙) 从孵化器成功毕业,成为基金会顶级项目! Apac ...

  8. 官宣!Apache Doris 从 Apache 孵化器毕业,正式成为 Apache 顶级项目

    官宣!Apache Doris 从 Apache 孵化器毕业,正式成为 Apache 顶级项目! 全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于美国时间 2022 年 ...

  9. 开源雨林 | 从高校中走出的 Apache 顶级项目 —— IoTDB 核心成员黄向东访谈实录...

    本文转载自开源雨林(ID:Huawei-KKYL),作者王瑶 本文共3000字,建议阅读10分钟本文为大家带来参与Apache顶级项目的核心成员黄向东访谈实录. 本期访谈嘉宾:黄向东 Apache 顶 ...

最新文章

  1. 数据结构第二章线性表学习笔记
  2. Pinpoint【环境搭建 01】JDK\HBase\Pinpoint Collector+Web 最新版 2.3.3 安装配置运行验证及脚本文件分享(避坑指南捷径指北)
  3. 封属于旋转轴密封件吗_氧化铝95瓷属于普通型的一种吗?
  4. android getwindow 在fragment不能使用,Android Fragment 布局使用 fitsSystemWindows = true 无效解决方案...
  5. 科学数字_七年级数学上册:科学记数法、有效数字记住这点中考分可定拿得到...
  6. ESP8266使用方法
  7. mapxtreme java manger web 应用程序牛刀小试
  8. 真传x深度学习第一课:环境配置搭建
  9. eclipse如何开发python
  10. 计算机没有光驱降无法启动,windows 未能启动 原因可能是最近更改了硬件或软件 没有光驱怎么办...
  11. java 多线程 银行排队_3.采用多线程模拟银行排队叫号
  12. PICkit 3编程器错误
  13. python制作猜拳游戏代码_用python制作猜拳小游戏
  14. submit事件监听问题
  15. 在Robot FrameWork中引用自定义关键字的过程
  16. 全国天气预报api接口
  17. 太平洋电脑网论坛关闭了
  18. 【区块链论文阅读】A Weak Consensus Algorithm and Its Applic
  19. 癌症有哪些数据集_癌症
  20. Math中和角度,弧长,tan等相关的算法

热门文章

  1. 【译】如何使用索引视图和一个只有2行的表限制业务规则
  2. 微云存照片会变模糊吗_保存照片的最佳方式是网盘、硬盘、SSD还是光盘?
  3. 【Android Gradle 插件】settings.gradle 配置文件 ( 配置基本作用 | include 函数用法 | 目录层级配置 | 修改 Module 模块构建脚本名称 )
  4. 【Android 逆向】Android 进程注入工具开发 ( 注入代码分析 | 远程调用 目标进程中 libc.so 动态库中的 mmap 函数 一 | mmap 函数简介 )
  5. 【Android 逆向】Android 系统文件分析 ( 外部存储设备文件 | sbin 命令程序目录 | dev 字符设备目录 )
  6. 【Netty】Netty 异步任务模型 及 Future-Listener 机制
  7. 【JetPack】ViewBinding 视图绑定组件 ( 启用模块 | 视图绑定定制 | 绑定类名称生成规则 | 绑定类字段生成规则 | 绑定类获取根视图 | 绑定类获取布局组件 )
  8. 线程中的yield()
  9. sql 跟踪工具sql profiler使用
  10. redis分布式锁-基本概念与实现方式对比