汇总运行在Hadoop YARN上的开源系统

本文汇总了目前正在进行中的一些尝试将系统运行在YARN上的项目（很多项目狠不完善，有兴趣的可以参与进去，这是机会。），这些项目涉及分布式领域各个方面的系统，包括离线处理、在线计算、图算法、迭代式算法等，从这些项目可以看出来，在将来，YARN将变成一个轻量级的IAAS层，统一管理和调度各种系统，进而逐步实现所谓的“大集群理念”。

1. MapReduce On YARN：YARN天生支持，目前已非常完善（从YARN将要发布2.1.0-beta版可看出，较之前版本，这一块基本没有修改）。

2. Tez On YARN：一个DAG计算框架，直接修改自MapReduce，继承了MapReduce的扩展性好和容错性好等优点，https://issues.apache.org/jira/browse/TEZ。

3. Storm On YARN：实时计算框架Storm运行在YARN上，https://github.com/yahoo/storm-yarn ，项目状态：开发进行中，已发布一个版本。

4. Spark On YARN：实时/内存计算框架Spark运行在YARN上：https://github.com/tweetmagik/spark-yarn ，项目状态：已可用。

5. BSP On YARN：BSP模型在YARN上的实现：https://github.com/jpatanooga/KnittingBoar ，项目状态：发布一个实验版本。

6. HBase On YARN：HBase运行在YARN上，https://issues.apache.org/jira/browse/HBASE-4329，项目状态：进行中，Hortonworks开源的Hoya：http://hortonworks.com/blog/introducing-hoya-hbase-on-yarn/，项目状态：进行中。

7. Kafka On YARN：Kafka运行在YARN上，https://github.com/kkasravi/kafka-yarn，项目状态：进行中。

8. Giraph On YARN：图算法库运行在YARN上，https://issues.apache.org/jira/browse/GIRAPH-13 ，项目状态：进行中。

9. MPI on YARN：MPI运行在YARN上，https://issues.apache.org/jira/browse/MAPREDUCE-2911 ，项目状态：进行中（该项目是所有项目中最难的，简单将mpich移植打破YARN上，比如这个实现：mpich2-yarn，意义不大，YARN当前的调度模型决定了难以将MPI移植到YARN上，同时保证MPI本身的各种优化机制不丢失）。

直接在YARN上编写和管理应用程序是比较麻烦的，因此在这两方面，也有一些项目在进行中：

10. YARN Application Management：http://continuuity.github.io/weave/ ，项目状态：已可用。

11. Write application on YARN：https://github.com/cloudera/kitten ，项目状态：已可用。

原创文章，转载请注明：转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/run-systems-on-hadoop-yarn/

汇总运行在Hadoop YARN上的开源系统相关推荐

在Hadoop Yarn上运行pyspark-summit程序
** 在Hadoop Yarn上运行pyspark-summit程序 ** 出现以下错误: 19/02/22 18:24:13 ERROR SparkContext: Error initializi ...
linux运行U盘,构建运行在U盘上的LINUX系统
构建运行在U盘上的LINUX系统一背景在wireless projector项目中需要构建一个图形linux系统,由于嵌入式系统的存储空间太小,所以通过USB口挂接USB存储设备扩展空间,我们的 ...
Spark 在YARN上运行
在YARN上运行Spark 安全在YARN上启动Spark 添加其他JAR 准备工作组态调试您的应用程序 Spark特性重要笔记的Kerberos YARN特定的Kerberos配置 Ker ...
经典MapReduce作业和Yarn上MapReduce作业运行机制
一.经典MapReduce的作业运行机制如下图是经典MapReduce作业的工作原理: 1.1 经典MapReduce作业的实体经典MapReduce作业运行过程包含的实体: 客户端,提交MapR ...
【Hadoop】伪分布式安装---MapReduce程序运行到YARN上，编写MapReduce程序---HDFS yarn
在我的虚拟机(Linux)上安装的Hadoop是2.7.3版本的,安装过程可以参考这个网站,也可以下载. http://hadoop.apache.org/docs/r2.7.6/hadoop-pro ...
java spark yarn_《Spark官方文档》在YARN上运行Spark
原文链接 Spark在 0.6.0版本后支持在YARN(hadoop NextGen)上运行,并且在后续版本中不断改进. 在YARN上启动Spark 首先,确认 HADOOP_CONF_DIR或YAR ...
Spark利用（idea+maven+scala）创建wordcount打包jar并在spark on yarn上运行——Spark的开发
今天的你不付昨天的辛苦,今天的辛苦定会拥抱明日的幸福, 每一次的成长,都要给自己以鼓励,每一次的突破,都给自己以信心,万花丛中我不是最美,但我有我的自信 ------------送给一直努力的你今天 ...
Spark Standalone -- 独立集群模式、Spark 提交任务的两种模式、spark在yarn上运行的环境搭建、自己写的spark代码如何提交到yarn上并运行...
目录 Spark Standalone -- 独立集群模式 Standalone 架构图 Standalone 的搭建 1.上传.解压.重命名 2.配置环境变量 3.修改配置文件 conf 4.同步到 ...
Spark在Yarn上运行Wordcount程序
过往记忆专注于Hadoop.Spark.Hive.Flume.Hbase,QQ交流群:138615359 首页 Hadoop Spark Hive Hbase Flume 面试题面试题数据结构算 ...

汇总运行在Hadoop YARN上的开源系统

汇总运行在Hadoop YARN上的开源系统相关推荐

最新文章

热门文章