Apache Spark源码走读之8 -- Spark on Yarn
欢迎转载,转载请注明出处,徽沪一郎。
概要
Hadoop2中的Yarn是一个分布式计算资源的管理平台,由于其有极好的模型抽象,非常有可能成为分布式计算资源管理的事实标准。其主要职责将是分布式计算集群的管理,集群中计算资源的管理与分配。
Yarn为应用程序开发提供了比较好的实现标准,Spark支持Yarn部署,本文将就Spark如何实现在Yarn平台上的部署作比较详尽的分析。
Spark Standalone部署模式回顾
上图是Spark Standalone Cluster中计算模块的简要示意,从中可以看出整个Cluster主要由四种不同的JVM组成
- Master 负责管理整个Cluster,Driver Application和Worker都需要注册到Master
- Worker 负责某一个node上计算资源的管理,如启动相应的Executor
- Executor RDD中每一个Stage的具体执行是在Executor上完成
- Driver Application driver中的schedulerbackend会因为部署模式的不同而不同
换个角度来说,Master对资源的管理是在进程级别,而SchedulerBackend则是在线程的级别。
启动时序图
YARN的基本架构和工作流程
YARN的基本架构如上图所示,由三大功能模块组成,分别是1) RM (ResourceManager) 2) NM (Node Manager) 3) AM(Application Master)
作业提交
- 用户通过Client向ResourceManager提交Application, ResourceManager根据用户请求分配合适的Container,然后在指定的NodeManager上运行Container以启动ApplicationMaster
- ApplicationMaster启动完成后,向ResourceManager注册自己
- 对于用户的Task,ApplicationMaster需要首先跟ResourceManager进行协商以获取运行用户Task所需要的Container,在获取成功后,ApplicationMaster将任务发送给指定的NodeManager
- NodeManager启动相应的Container,并运行用户Task
实例
上述说了一大堆,说白了在编写YARN Application时,主要是实现Client和ApplicatonMaster。实例请参考github上的simple-yarn-app.
Spark on Yarn
结合Spark Standalone的部署模式和YARN编程模型的要求,做了一张表来显示Spark Standalone和Spark on Yarn的对比。
Standalone | YARN | Notes |
---|---|---|
Client | Client | standalone请参考spark.deploy目录 |
Master | ApplicationMaster | |
Worker | ExecutorRunnable | |
Scheduler | YarnClusterScheduler | |
SchedulerBackend | YarnClusterSchedulerBackend |
作上述表格的目的就是要搞清楚为什么需要做这些更改,与之前Standalone模式间的对应关系是什么。代码走读时,分析的重点是ApplicationMaster, YarnClusterSchedulerBackend和YarnClusterScheduler
一般来说,在Client中会显示的指定启动ApplicationMaster的类名,如下面的代码所示
ContainerLaunchContext amContainer =Records.newRecord(ContainerLaunchContext.class);amContainer.setCommands(Collections.singletonList("$JAVA_HOME/bin/java" +" -Xmx256M" +" com.hortonworks.simpleyarnapp.ApplicationMaster" +" " + command + " " + String.valueOf(n) + " 1>" + ApplicationConstants.LOG_DIR_EXPANSION_VAR + "/stdout" + " 2>" + ApplicationConstants.LOG_DIR_EXPANSION_VAR + "/stderr" ) );
但在yarn.Client中并没有直接指定ApplicationMaster的类名,是通过ClientArguments进行了封装,真正指定启动类的名称的地方在ClientArguments中。构造函数中指定了amClass的默认值是org.apache.spark.deploy.yarn.ApplicationMaster
实例说明
将SparkPi部署到Yarn上,下述是具体指令。
$ SPARK_JAR=./assembly/target/scala-2.10/spark-assembly-0.9.1-hadoop2.0.5-alpha.jar \./bin/spark-class org.apache.spark.deploy.yarn.Client \--jar examples/target/scala-2.10/spark-examples-assembly-0.9.1.jar \ --class org.apache.spark.examples.SparkPi \ --args yarn-standalone \ --num-workers 3 \ --master-memory 4g \ --worker-memory 2g \ --worker-cores 1
从输出的日志可以看出, Client在提交的时候,AM指定的是org.apache.spark.deploy.yarn.ApplicationMaster
13/12/29 23:33:25 INFO Client: Command for starting the Spark ApplicationMaster: $JAVA_HOME/bin/java -server -Xmx4096m -Djava.io.tmpdir=$PWD/tmp org.apache.spark.deploy.yarn.ApplicationMaster --class org.apache.spark.examples.SparkPi --jar examples/target/scala-2.9.3/spark-examples-assembly-0.8.1-incubating.jar --args 'yarn-standalone' --worker-memory 2048 --worker-cores 1 --num-workers 3 1> /stdout 2> /stderr
小结
spark在提交时,所做的资源申请是一次性完成的,也就是说对某一个具体的Application,它所需要的Executor个数是一开始就是计算好,整个Cluster如果此时能够满足需求则提交,否则进行等待。而且如果有新的结点加入整个cluster,已经运行着的程序并不能使用这些新的资源。缺少rebalance的机制,这点上storm倒是有。
参考资料
- Launch Spark On YARN http://spark.apache.org/docs/0.9.1/running-on-yarn.html
- Getting started Writing YARN Application http://hortonworks.com/blog/getting-started-writing-yarn-applications/
- 《Hadoop技术内幕 深入解析YARN架构设计与实现原理》 董西成著
- YARN应用开发流程 http://my.oschina.net/u/1434348/blog/193374 强烈推荐!!!
转载于:https://www.cnblogs.com/downtjs/p/3815300.html
Apache Spark源码走读之8 -- Spark on Yarn相关推荐
- Apache Spark源码走读之16 -- spark repl实现详解
欢迎转载,转载请注明出处,徽沪一郎. 概要 之所以对spark shell的内部实现产生兴趣全部缘于好奇代码的编译加载过程,scala是需要编译才能执行的语言,但提供的scala repl可以实现代码 ...
- Apache Spark源码走读(九)如何进行代码跟读使用Intellij idea调试Spark源码
<一>如何进行代码跟读 概要 今天不谈Spark中什么复杂的技术实现,只稍为聊聊如何进行代码跟读.众所周知,Spark使用scala进行开发,由于scala有众多的语法糖,很多时候代码跟着 ...
- Apache Spark源码走读之6 -- 存储子系统分析
Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析Spark中存储子系统的构成,并以数据写入和数据读取为例,讲述清楚存储子系统中各部件的交互 ...
- Spark源码走读概述
Spark代码量 --Spark:20000loc --Hadoop 1.0:90000loc --Hadoop 2.0:220000loc Spark生态系统代码量 Spark生态系统 概述 --构 ...
- Apache Spark源码走读之4 -- DStream实时流数据处理
欢迎转载,转载请注明出处,徽沪一郎. Spark Streaming能够对流数据进行近乎实时的速度进行数据处理.采用了不同于一般的流式数据处理模型,该模型使得Spark Streaming有非常高的处 ...
- Spark源码走读1——RDD
RDD全称Resilient Distributed DataSets,弹性的分布式数据集.是Spark的核心内容. RDD是只读的,不可变的数据集,也拥有很好的容错机制.他有5个主要特性 -A li ...
- Spark源码走读10——Spark On Yarn
首先需要修改配置文件spark-env.sh.在这个文件中需要添加两个属性: Export HADOOP_HOME=/../hadoop.. ExportHADOOP_CONF_DIR=/../had ...
- spark源码(三)spark 如何进行driver、executor任务的调度,以及executor向driver的注册
上篇文章我们介绍到,SparkContext初始化的时候,在TaskScheduler启动阶段会向Master发送RegisterApplication事件,下面我们进入Master主类,从它接收到该 ...
- Apache Spark源码走读之22 -- 浅谈mllib中线性回归的算法实现
欢迎转载,转载请注明出处,徽沪一郎. 概要 本文简要描述线性回归算法在Spark MLLib中的具体实现,涉及线性回归算法本身及线性回归并行处理的理论基础,然后对代码实现部分进行走读. 线性回归模型 ...
最新文章
- SimCSE:用于句子嵌入的对比学习
- building a software for what?
- 红橙Darren视频笔记 IOC注解框架 自己写个注解框架
- WORD常用版式保存为模板?
- X Window Messing With The Mouse Cursor
- 模糊pid控制的温度系统matlab源代码_模糊PID控制系统(二)对比分析
- Win7下 OpenCV+Qt开发环境搭建
- Picture Box(1) 修正版
- QCSPCChart SPC控制图工具软件是面向对象的工具包
- 【路径生成--绘制的方法】矢量地图巡线式路径探索
- 软件测试基础知识思维导图,测试基础思维导图.pdf
- 桌面计算机图标无法显示属性,Win7系统桌面图标显示异常的解决方法大全
- 【软考软件评测师】2016年下案例分析历年真题
- 误码率matlab,关于误码率的问题 急!!!!!
- KO88冲销内部订单结算的操作参考
- Java_7.1 ArrayList应用点名器
- 全同胞家系如何计算遗传力及育种值
- 深入理解Java虚拟机(周志明第三版)- 第十二章:Java内存模型与线程
- PAT-Day1-挖掘机技术哪家强
- 入门和进阶机械结构设计_如何找到相应的装配图并更快出SolidWorks图
热门文章
- 数据持久化框架为什么放弃Hibernate、JPA、Mybatis,最终选择JDBCTemplate!
- Redis的7000字笔记总结,超详细!
- SpringBoot第二十四篇: springboot整合docker
- 数据分析师在岗3年小结!
- 我在交大的数学建模经验!
- 剑指offer_第9题_变态跳台阶
- 《Nature》发文:好导师的16个标准
- 钟南山: 疫情可能一周或10天达到高峰! 李兰娟院士:拿到疫苗株可能还要一个月!...
- 给程序员的几条建议,精彩配图!
- 爬取了 48048 条评论数据,解读 9.3 分的《毒液》是否值得一看?