本文汇总了目前正在进行中的一些尝试将系统运行在YARN上的项目(很多项目狠不完善,有兴趣的可以参与进去,这是机会。),这些项目涉及分布式领域各个方面的系统,包括离线处理、在线计算、图算法、迭代式算法等,从这些项目可以看出来,在将来,YARN将变成一个轻量级的IAAS层,统一管理和调度各种系统,进而逐步实现所谓的“大集群理念”。
1. MapReduce On YARN:YARN天生支持,目前已非常完善(从YARN将要发布2.1.0-beta版可看出,较之前版本,这一块基本没有修改)。
2. Tez On YARN:一个DAG计算框架,直接修改自MapReduce,继承了MapReduce的扩展性好和容错性好等优点,https://issues.apache.org/jira/browse/TEZ。
3. Storm On YARN:实时计算框架Storm运行在YARN上,https://github.com/yahoo/storm-yarn ,项目状态:开发进行中,已发布一个版本。
4. Spark On YARN:实时/内存计算框架Spark运行在YARN上:https://github.com/tweetmagik/spark-yarn ,项目状态:已可用。
5. BSP On YARN:BSP模型在YARN上的实现:https://github.com/jpatanooga/KnittingBoar ,项目状态:发布一个实验版本。
6. HBase On YARN:HBase运行在YARN上,https://issues.apache.org/jira/browse/HBASE-4329,项目状态:进行中,Hortonworks开源的Hoya:http://hortonworks.com/blog/introducing-hoya-hbase-on-yarn/,项目状态:进行中。
7. Kafka On YARN:Kafka运行在YARN上,https://github.com/kkasravi/kafka-yarn,项目状态:进行中。
8. Giraph On YARN:图算法库运行在YARN上,https://issues.apache.org/jira/browse/GIRAPH-13 ,项目状态:进行中。
9. MPI on YARN:MPI运行在YARN上,https://issues.apache.org/jira/browse/MAPREDUCE-2911 ,项目状态:进行中(该项目是所有项目中最难的,简单将mpich移植打破YARN上,比如这个实现:mpich2-yarn,意义不大,YARN当前的调度模型决定了难以将MPI移植到YARN上,同时保证MPI本身的各种优化机制不丢失)。
直接在YARN上编写和管理应用程序是比较麻烦的,因此在这两方面,也有一些项目在进行中:
10. YARN Application Management:http://continuuity.github.io/weave/ ,项目状态:已可用。
11. Write application on YARN:https://github.com/cloudera/kitten ,项目状态:已可用。

原创文章,转载请注明: 转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/run-systems-on-hadoop-yarn/

汇总运行在Hadoop YARN上的开源系统相关推荐

  1. 在Hadoop Yarn上运行pyspark-summit程序

    ** 在Hadoop Yarn上运行pyspark-summit程序 ** 出现以下错误: 19/02/22 18:24:13 ERROR SparkContext: Error initializi ...

  2. linux运行U盘,构建运行在U盘上的LINUX系统

    构建运行在U盘上的LINUX系统 一 背景 在wireless projector项目中需要构建一个图形linux系统,由于嵌入式系统的存储空间太小,所以通过USB口挂接USB存储设备扩展空间,我们的 ...

  3. Spark 在YARN上运行

    在YARN上运行Spark 安全 在YARN上启动Spark 添加其他JAR 准备工作 组态 调试您的应用程序 Spark特性 重要笔记 的Kerberos YARN特定的Kerberos配置 Ker ...

  4. 经典MapReduce作业和Yarn上MapReduce作业运行机制

    一.经典MapReduce的作业运行机制 如下图是经典MapReduce作业的工作原理: 1.1 经典MapReduce作业的实体 经典MapReduce作业运行过程包含的实体: 客户端,提交MapR ...

  5. 【Hadoop】伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn

    在我的虚拟机(Linux)上安装的Hadoop是2.7.3版本的,安装过程可以参考这个网站,也可以下载. http://hadoop.apache.org/docs/r2.7.6/hadoop-pro ...

  6. java spark yarn_《Spark官方文档》在YARN上运行Spark

    原文链接 Spark在 0.6.0版本后支持在YARN(hadoop NextGen)上运行,并且在后续版本中不断改进. 在YARN上启动Spark 首先,确认 HADOOP_CONF_DIR或YAR ...

  7. Spark利用(idea+maven+scala)创建wordcount打包jar并在spark on yarn上运行——Spark的开发

    今天的你不付昨天的辛苦,今天的辛苦定会拥抱明日的幸福, 每一次的成长,都要给自己以鼓励,每一次的突破,都给自己以信心,万花丛中我不是最美,但我有我的自信 ------------送给一直努力的你 今天 ...

  8. Spark Standalone -- 独立集群模式、Spark 提交任务的两种模式、spark在yarn上运行的环境搭建、自己写的spark代码如何提交到yarn上并运行...

    目录 Spark Standalone -- 独立集群模式 Standalone 架构图 Standalone 的搭建 1.上传.解压.重命名 2.配置环境变量 3.修改配置文件 conf 4.同步到 ...

  9. Spark在Yarn上运行Wordcount程序

    过往记忆专注于Hadoop.Spark.Hive.Flume.Hbase,QQ交流群:138615359 首页 Hadoop Spark Hive Hbase Flume 面试题 面试题 数据结构 算 ...

最新文章

  1. 给Scrum Master的十个建议,你值得拥有((转自scrum中文网))
  2. 法拉利虚拟学院2010 服务器,法拉利虚拟学院2010
  3. 极致真实感受 无边硬屏即将登场
  4. The DVMM Lab at Columbia University
  5. SQL Server FOR XML PATH 语句的应用
  6. hdu-3625 Examining the Rooms(斯特灵数第一类)
  7. Linux 信号量 生产者消费者小例题
  8. 前端学习(2661):生命周期
  9. ArrayList和LinkedList类的用法及区别
  10. Excel表哥表姐如何突破职业天花板?我有两个忠告
  11. 程序员到底是一种什么样的存在?
  12. 在ubuntu系统下cocos2dx移植到android平台
  13. JQuery Jcrop—JQuery Jcrop 图像裁剪工具学习
  14. 基于图像gist特征的NWPU-RESISC45数据分类实战
  15. kdj买卖指标公式源码_炒股秘籍——KDJ你所不知道的绝密用法(附指标公式源码)...
  16. S40后台运行权限破解详尽图文
  17. 在腾讯云上搭建基于Nodejs的网站
  18. Oracle EBS 付款后无法创建会计科目
  19. 你也遇到JSONException:create instance error, null...问题啦?
  20. 在java中如何产生随机数

热门文章

  1. 算法与数据结构(冒泡排序,选择排序和插入排序的总结)
  2. 并发编程-23J.U.C组件拓展之阻塞队列BlockingQueue 和 线程池
  3. java excel api xlsx_Java 解析Excel(xls、xlsx两种格式)
  4. 同一事务多次加for_Synchronized锁在Spring事务管理下,为啥还线程不安全?
  5. 错误:Subquery returns more than 1 row 表示子查询返回了多行数据
  6. linux文件历史,Linux文件系统的历史透视
  7. plsql如何连接oracle11g_PLSQL连接Oracle11G图文教程(含PLSQL配置文件)
  8. 断网python第三方库安装_断网环境下利用pip安装Python离线安装包(转载)
  9. pyqt5知识:如何接受密码输入?
  10. ROS知识【7】:ubuntu环境如何卸载ROS