Spark生态顶级项目汇总
2019独角兽企业重金招聘Python工程师标准>>>
现在Apache Spark已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出5个使用广泛的第三方项目。
Spark官方构建了一个非常紧凑的生态系统组件,提供各种处理能力。 下面是Spark官方给出的生态系统组件(引自Spark官方文档)
Spark DataFrames:列式存储的分布式数据组织,类似于关系型数据表。
Spark SQL:可以执行SQL查询,包括基本的SQL语法和HiveQL语法。读取的数据源包括Hive表、Parquent文件、JSON数据、关系数据库(MySQL等)等。
Spark Streaming:Spark Streaming是Spark核心API,易扩展、高吞吐量、流式数据容错。
MLlib:Spark的机器学习库,由常规的机器学习算法和基础构成,包括但不限于分类算法、回归算法、聚类算法、协调过滤算法、降维算法等。
GraphX:Spark GraphX是一个分布式图处理框架,基于Spark平台提供对图计算和图挖掘的接口,方便用户对分布式图处理的需求。
Spark Core API:Spark提供多种语言的API,包括R、SQL、Python、Scala和Java。
除了上述官方的Spark组件外,还有些是在某种情形下必用的项目。以下只是简单的列出这些重量级 项目,而不涉及一些性能指标。
Mesos
Mesos是开源的资源统一管理和调度平台。抽象物理机的CPU、内存、存储和计算资源,再由框架自身的调度器决定资源的使用者。
Mesos是Master/Slave结构,由Mesos-master,Mesos-slave,Framework和executor四个组件构成。
为什么官方选用Mesos,而不是Spark standalone模式或者基于Yarn框架?由Spark开发者所写的书《Learning Spark》:Mesos优于其它两个资源框架是因为Mesos的细粒度调度,这样可让多用户运行Spark shell占有更少的CPU。
Spark Cassandra Connector
Cassandra是一个易扩展、高性能的数据库。 Spark Cassandra Connector现在是Spark和Cassandra表间直接交互的连接器,高度活跃的开源软件。 Spark Cassandra Connector库让你读Cassandra表就如同Spark RDD一样,同样可以写Spark RDD到Cassandra表,并可以在Spark程序中执行CQL语句。
ZepellinZepellin是一个集成IPythoon notebook风格的Spark应用。Zepellin可以基于Spark和Scala,允许用户很简单直接的在他们的博客或者网站发布代码执行的结果。Zepellin也支持其它语言插件,包括Scala和Spark,Python和Spark,SparkSQL,HIve,Markdown和Shell。
Spark Job ServerSpark Job Server提供RESTful接口来提交和管理Spark jobs,jar包和job上下文。Spark Job Server提供Spark任务相关的运行健康信息。
Alluxio
Alluxio是一个分布式内存文件系统,它在减轻Spark内存压力的同时,也赋予Spark内存快速读写海量数据的能力。Alluxio以前叫做Tachyon,即钨丝。Spark jobs可以不做任何改变即可运行在Alluxio上,并能得到极大的性能优化。Alluxio宣称:“百度使用Alluxio可以提高30倍多数据处理能力”。
转载于:https://my.oschina.net/css1111/blog/632465
Spark生态顶级项目汇总相关推荐
- RocketMQ Apache顶级项目之路
序言 \\ 2016年11月,阿里将RocketMQ捐献给Apache软件基金会,正式成为孵化项目.至此,RocketMQ 开启了迈向全球顶级开源软件的新征程.通过社区半年多的努力.9 月 25 日, ...
- 国人主导研发的 HAWQ® 成 Apache® 顶级项目
百度智能云 云生态狂欢季 热门云产品1折起>>> 北京时间8月22日,在美国马萨诸塞州的韦克菲尔德,全球著名软件基金会 Apache® 正式宣布: Apache® HAWQ® 毕 ...
- 官宣!DolphinScheduler 毕业成为 Apache 软件基金会顶级项目
全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于北京时间 2021 年 4 月 9 日在官方渠道宣布 Apache DolphinScheduler 毕业成为 Apach ...
- Apache基金会正式宣布新一代分布式对象存储Ozone成为顶级项目
刚刚获悉,Apache基金董事会通过一致表决,正式批准分布式文件对象存储Ozone从Hadoop社区孵化成功,成为独立的Apache顶级开源项目.这意味着,作为腾讯大数据团队首个参与和主导的开源项目, ...
- 盘点 35 个 Apache 顶级项目,我拜服了…
原文 盘点 35 个 Apache顶级项目 文章目录 Apache 软件基金会 顶级开源项目 基础组件项目 1.Apache(httpd) 2.Tomcat 3.Commons 4.POI 5.Htt ...
- 官宣!Apache Doris 从 Apache 孵化器毕业,正式成为 Apache 顶级项目!
全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于美国时间 2022 年 6 月 16 日 宣布,Apache Doris 成功从 Apache 孵化器毕业,正式成为 Ap ...
- 龙举云兴|顶级项目 Apache InLong 核心技术探秘
Apache 软件基金会(即 Apache Software Foundation,简称为 ASF)于近日正式宣布,Apache InLong(应龙) 从孵化器成功毕业,成为基金会顶级项目! Apac ...
- 官宣!Apache Doris 从 Apache 孵化器毕业,正式成为 Apache 顶级项目
官宣!Apache Doris 从 Apache 孵化器毕业,正式成为 Apache 顶级项目! 全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于美国时间 2022 年 ...
- 开源雨林 | 从高校中走出的 Apache 顶级项目 —— IoTDB 核心成员黄向东访谈实录...
本文转载自开源雨林(ID:Huawei-KKYL),作者王瑶 本文共3000字,建议阅读10分钟本文为大家带来参与Apache顶级项目的核心成员黄向东访谈实录. 本期访谈嘉宾:黄向东 Apache 顶 ...
最新文章
- 数据结构第二章线性表学习笔记
- Pinpoint【环境搭建 01】JDK\HBase\Pinpoint Collector+Web 最新版 2.3.3 安装配置运行验证及脚本文件分享(避坑指南捷径指北)
- 封属于旋转轴密封件吗_氧化铝95瓷属于普通型的一种吗?
- android getwindow 在fragment不能使用,Android Fragment 布局使用 fitsSystemWindows = true 无效解决方案...
- 科学数字_七年级数学上册:科学记数法、有效数字记住这点中考分可定拿得到...
- ESP8266使用方法
- mapxtreme java manger web 应用程序牛刀小试
- 真传x深度学习第一课:环境配置搭建
- eclipse如何开发python
- 计算机没有光驱降无法启动,windows 未能启动 原因可能是最近更改了硬件或软件 没有光驱怎么办...
- java 多线程 银行排队_3.采用多线程模拟银行排队叫号
- PICkit 3编程器错误
- python制作猜拳游戏代码_用python制作猜拳小游戏
- submit事件监听问题
- 在Robot FrameWork中引用自定义关键字的过程
- 全国天气预报api接口
- 太平洋电脑网论坛关闭了
- 【区块链论文阅读】A Weak Consensus Algorithm and Its Applic
- 癌症有哪些数据集_癌症
- Math中和角度,弧长,tan等相关的算法
热门文章
- 【译】如何使用索引视图和一个只有2行的表限制业务规则
- 微云存照片会变模糊吗_保存照片的最佳方式是网盘、硬盘、SSD还是光盘?
- 【Android Gradle 插件】settings.gradle 配置文件 ( 配置基本作用 | include 函数用法 | 目录层级配置 | 修改 Module 模块构建脚本名称 )
- 【Android 逆向】Android 进程注入工具开发 ( 注入代码分析 | 远程调用 目标进程中 libc.so 动态库中的 mmap 函数 一 | mmap 函数简介 )
- 【Android 逆向】Android 系统文件分析 ( 外部存储设备文件 | sbin 命令程序目录 | dev 字符设备目录 )
- 【Netty】Netty 异步任务模型 及 Future-Listener 机制
- 【JetPack】ViewBinding 视图绑定组件 ( 启用模块 | 视图绑定定制 | 绑定类名称生成规则 | 绑定类字段生成规则 | 绑定类获取根视图 | 绑定类获取布局组件 )
- 线程中的yield()
- sql 跟踪工具sql profiler使用
- redis分布式锁-基本概念与实现方式对比