Hadoop——Yarn（4）

文章目录

1.Yarn基础架构
2.Yarn工作机制
3.作业提交全过程
4.调度器和调度算法
- 4.1先进先出调度器(FIFO)
- 4.2容量调度器(Capacity Scheduler)
- 4.3公平调度器(Fair Scheduler)
5.Yarn生产环境核心参数

1.Yarn基础架构

Yarn主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。

2.Yarn工作机制

(1)MR程序提交到客户端所在的节点.
(2)YarnRunner向ResourceManager申请一个Application
(3)Rm将应用程序的资源路径返回给YarnRunner
(4)该程序将运行所需资源提交到HDFS上
(5)程序资源提交完毕后，申请运行mrAppMaster
(6)RM将用户的请求初始化成一个Task
(7)其中一个NodeManager领取到Task任务
(8)该NodeManager创建容器Container，并产生MRAppmaster
(9)Container从HDFS上拷贝资源到本地
(10)MRAppmaster 向 RM 申请运行 MapTask 资源。
(11)RM 将运行 MapTask 任务分配给另外两个NodeManager，另两个 NodeManager分别领取任务并创建容器。
(12)MR 向两个接收到任务的 NodeManager 发送程序启动脚本，这两个 NodeManager分别启动 MapTask，MapTask 对数据分区排序。
(13)MrAppMaster 等待所有 MapTask 运行完毕后，向 RM 申请容器，运行 ReduceTask。
(14)ReduceTask 向 MapTask 获取相应分区的数据。
(15)程序运行完毕后，MR 会向 RM 申请注销自己。

3.作业提交全过程

（1）作业提交
第 1 步：Client 调用 job.waitForCompletion 方法，向整个集群提交 MapReduce 作业。
第 2 步：Client 向 RM 申请一个作业 id。
第 3 步：RM 给 Client 返回该 job 资源的提交路径和作业 id。
第 4 步：Client 提交 jar 包、切片信息和配置文件到指定的资源提交路径。
第 5 步：Client 提交完资源后，向 RM 申请运行 MrAppMaster。（2）作业初始化
第 6 步：当 RM 收到 Client 的请求后，将该 job 添加到容量调度器中。
第 7 步：某一个空闲的 NM 领取到该 Job。
第 8 步：该 NM 创建 Container，并产生 MRAppmaster。
第 9 步：下载 Client 提交的资源到本地。（3）任务分配
第 10 步：MrAppMaster 向 RM 申请运行多个 MapTask 任务资源。
第 11 步：RM 将运行 MapTask 任务分配给另外两个 NodeManager，另两个 NodeManager
分别领取任务并创建容器。（4）任务运行
第 12 步：MR 向两个接收到任务的 NodeManager 发送程序启动脚本，这两个
NodeManager 分别启动 MapTask，MapTask 对数据分区排序。
第13步：MrAppMaster等待所有MapTask运行完毕后，向RM申请容器，运行ReduceTask。
第 14 步：ReduceTask 向 MapTask 获取相应分区的数据。
第 15 步：程序运行完毕后，MR 会向 RM 申请注销自己。（5）进度和状态更新
YARN 中的任务将其进度和状态(包括 counter)返回给应用管理器, 客户端每秒(通过
mapreduce.client.progressmonitor.pollinterval 设置)向应用管理器请求进度更新, 展示给用户。（6）作业完成
除了向应用管理器请求作业进度外, 客户端每 5 秒都会通过调用 waitForCompletion()来
检查作业是否完成。时间间隔可以通过 mapreduce.client.completion.pollinterval 来设置。作业
完成之后, 应用管理器和 Container 会清理工作状态。作业的信息会被作业历史服务器存储
以备之后用户核查。

4.调度器和调度算法

目前Hadoop作业调度器主要有三种：FIFO，容量（Capacity Scheduler）和公平（Fair Scheduler）
Apache Hadoop3.13默认：Capacity Scheduler
CDH框架默认调度器是：Fair Scheduler

4.1先进先出调度器(FIFO)

4.2容量调度器(Capacity Scheduler)

Yahoo开发的多用户调度器

4.3公平调度器(Fair Scheduler)

Facebook开发的多用户调度器

5.Yarn生产环境核心参数

Hadoop——Yarn（4）相关推荐

Hadoop学习（二）——MapReduce\Yarn架构
其他更多java基础文章: java基础学习(目录) 学习资料理解Hadoop YARN架构本文先讲MapReduce 1.x的框架.再讲MapReduce 1.x升级改进后MapReduce 2 ...
Hadoop生态圈（九）YARN架构深入学习
1. YARN框架概述 1.1 YARN产生和发展简史 1.1.1 Hadoop演进阶段数据.程序.运算资源(内存.cpu)三者组在一起,完成了数据的计算处理过程.在单机环境下,这些都不是太大问题. ...
Hadoop入门（二）集群安装
一.集群安装条件前置在虚拟机上先准备一个机子按用前面[安装单机hadoop] 已完成安装jdk,hadoop和ssh.网络等配置环境等. 虚拟机和操作系统环境:ubuntu14 + hadoo ...
大数据常见面试题 Hadoop篇（2）
大数据常见面试题 Hadoop篇(1)_后季暖的博客-CSDN博客1)序列化和反序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输.反序列化就是将收到字 ...
大数据常见面试题 Hadoop篇（1）
目录 1.描述一下hdfs的写流程读流程? 2.详细讲解一下hdfs的体系结构 3.如果一个datanode出现宕机,恢复流程是什么样的? 4.通常你是如何解决Haddop的NameNode宕机的, ...
Hadoop学习（1）--Hadoop介绍
1. Hadoop的简单介绍 1.1 狭义 Hadoop指的是Apache软件基金会的一款开源软件,允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理. Hadoop核心组件 Had ...
HIVE学习系列——windows Hadoop安装（上）
文章目录整体流程概览 jre环境 jre安装 jre环境变量配置 Hadoop安装与配置官网下载步骤清华镜像下载步骤 Hadooponwindows下载配置系统变量 hadoop初始文件配置 ...
【大数据】Hadoop 体系（一）
Hadoop 一.大数据导论 1. 数据是什么? 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质.状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的.抽象的符号. ...
hadoop系列（一）概念、组件介绍、安装环境、配置
hadoop系列(一)概念.组件介绍.安装环境.配置一.大数据概念概念大数据:解决海量数据的采集.存储.分析计算的能力大数据特点 Volume(大量) Velocity(高速) Variety ...

Hadoop——Yarn（4）

文章目录

1.Yarn基础架构

2.Yarn工作机制

3.作业提交全过程

4.调度器和调度算法

4.1先进先出调度器(FIFO)

4.2容量调度器(Capacity Scheduler)

4.3公平调度器(Fair Scheduler)

5.Yarn生产环境核心参数

Hadoop——Yarn（4）相关推荐

最新文章

热门文章