yarn可为各类计算框架提供资源的管理和调度

主要用于

  1. 管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)
  2. 调度运行在yarn上面的各种任务。
    yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管理(ResourceManager,RM),以及每个应用程序对应一个的应用管理器(ApplicationMaster,AM)

yarn组成

YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成

ResourceManager(RM)

负责1.处理客户端请求,2.对各NM上的资源进行统一管理和调度。3.给ApplicationMaster分配空闲的Container 启动运行并监控其运行状态。主要由两个组件构成:调度器应用程序管理器

调度器(Scheduler):

调度器根据容量、队列等限制条件,将系统中的资源分配给各个正在运行的应用程序。调度器仅根据各个应用程序的资源需求进行资源分配,而资源分配单位是Container。Shceduler不负责监控或者跟踪应用程序的状态。总之,调度器根据应用程序的资源要求,以及集群机器的资源情况,为应用程序分配封装在Container中的资源。

应用程序管理器(Applications Manager):

应用程序管理器负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以启动ApplicationMaster 、监控ApplicationMaster运行状态并在失败时重新启动等,跟踪分给的Container的进度、状态也是其职责。

NodeManager (NM)

1.NodeManager 是每个节点上的资源和任务管理器。
2. 处理来自ResourceManager的命令——它会定时地向ResourceManager汇报本节点上的资源使用情况和各个Container的运行状态;
3. 处理来自ApplicationMaster 的命令——同时会接收并处理来自
ApplicationMaster 的Container 启动/停止等请求。

ApplicationMaster (AM):

用户提交的应用程序均包含一个ApplicationMaster ,负责应用的监控,跟踪应用执行状态,重启失败任务等。ApplicationMaster是应用框架,它负责向ResourceManager协调资源,并且与NodeManager协同工作完成Task的执行和监控。

Container:

Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当ApplicationMaster向ResourceManager申请资源时,ResourceManager为ApplicationMaster 返回的资源便是用Container表示的。

yarn 工作机制

HDFS YARN MapReduce
DataNode
NameNode
ResourceManager
NodeManager
ApplicationMaster
Container
MrAppMaster:负责整个程序的过程调度及状态协调。
MapTask:负责Map阶段的整个数据处理流程。
ReduceTask:负责Reduce阶段的整个数据处理流程。

作业提交全过程详解
(1)作业提交
第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。
第2步:Client向RM申请一个作业id。
第3步:RM给Client返回该job资源的提交路径和作业id。
第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。
第5步:Client提交完资源后,向RM申请运行MrAppMaster。
(2)作业初始化
第6步:当RM收到Client的请求后,将该job添加到容量调度器中。
第7步:某一个空闲的NM领取到该Job。
第8步:该NM创建Container,并产生MRAppmaster。
第9步:下载Client提交的资源到本地。
(3)任务分配
第10步:MrAppMaster向RM申请运行多个MapTask任务资源。
第11步:RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。
(4)任务运行
第12步:MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序。
第13步:MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask。
第14步:ReduceTask向MapTask获取相应分区的数据。
第15步:程序运行完毕后,MR会向RM申请注销自己。
(5)进度和状态更新
YARN中的任务将其进度和状态(包括counter)返回给应用管理器, 客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户。
(6)作业完成
除了向应用管理器请求作业进度外, 客户端每5秒都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。作业完成之后, 应用管理器和Container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。

Hadop—yarn相关推荐

  1. centos 安装 node12以及yarn

    安装node 12 curl -sL https://rpm.nodesource.com/setup_12.x | bash - yum install nodejs 安装yarn curl -sL ...

  2. 2021年大数据Hadoop(二十九):​​​​​​​关于YARN常用参数设置

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 关于yarn常用参数设置 设置container分配最小内 ...

  3. 2021年大数据Hadoop(二十七):YARN运行流程

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn运行流程 本系列历史文章 2021年大数据Hado ...

  4. 2021年大数据Hadoop(二十六):YARN三大组件介绍

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 Yarn三大组件介绍 ResourceManager No ...

  5. 2021年大数据Hadoop(二十五):YARN通俗介绍和基本架构

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 YARN通俗介绍和基本架构 Yarn通俗介绍 Yarn基本 ...

  6. 2021年大数据Flink(六):Flink On Yarn模式

    目录 Flink On Yarn模式 原理 为什么使用Flink On Yarn? Flink如何和Yarn进行交互? 两种方式 操作 1.关闭yarn的内存检查 2.同步 3.重启yarn 测试 S ...

  7. 2021年大数据Spark(九):Spark On Yarn两种模式总结

    目录 Spark On Yarn两种模式 引入 一.当一个MR应用提交运行到Hadoop YARN上时 二.当一个Spark应用提交运行在集群上时 注意 client 模式 cluster 模式 总结 ...

  8. spark提交到yarn_详细总结spark基于standalone、yarn集群提交作业流程

    最近总结了一些关于spark core的内容,今天先来和大家分享一下spark的运行模式. spark运行模式 (1)local:在本地eclipse.IDEA中写spark代码运行程序,一般用于测试 ...

  9. 【JavaScript】Ubuntu16.04安装vscode+npm+yarn

    一.安装vscode vscode官网(https://code.visualstudio.com/)下载linux deb文件 下载deb后,使用dpkg -i 命令安装 sudo dpkg -i ...

最新文章

  1. Tensorflow nmt源码解析
  2. c++设置单元格填充色_更改数据后单元格自动填充颜色,从此以后再也不用核对数据了...
  3. 五花八门的bug跟踪工具
  4. 用localStorage实现登录时记住密码的功能
  5. 【数据分析】Python数据分析指南(全)
  6. linux基础命令学习(四)用户与群组
  7. 全网最新Spring Boot2.5.1整合Activiti5.22.0企业实战教程<网关篇>
  8. vue快速复制快捷键_vue快捷键与基础指令详解
  9. Can‘t resolve ‘core-js NPM 引入 core js 失败 解决
  10. 用户故事与敏捷方法知识点梳理
  11. win10计算机策略配置文件,Win10系统如何打开组策略?打开组策略的具体方法
  12. Kattis - battleship【模拟】
  13. Intel无线网卡linux,Gentoo 安装之intel无线网卡篇
  14. Python数据可视化——散点图
  15. 2020年的数据工程
  16. matlab中alw,MATLAB环境下遗传算法优化工具箱的应用_刘万林
  17. 协方差,协方差矩阵,矩阵特征值
  18. 【第十二届蓝桥杯国赛真题】2021年第12届蓝桥杯JAVA B组国赛真题
  19. oracle 对象不在回收站中,Oracle 10G 中的回收站
  20. 佛祖保佑,永无bug——springboot启动图案的修改方法

热门文章

  1. CSDN实训 - 通过Java修改游戏存档
  2. 诺基亚再裁员Lumia表现不佳
  3. 我的文章让老婆看到了……
  4. 压缩文件如何设置密码?/ 如何破解压缩文件密码?
  5. 全景图转小行星视角投影原理详解
  6. 韩国电商平台 smelchi 店铺开店 数据批量采集上传
  7. QQ,MSN,skype,goolge TALK,雅虎通,贸易通,淘宝旺旺在线客服代码
  8. 如果你看见这个舞女是顺时针转,说明你用的是右脑;耶鲁大学耗时5年的研究成果。左脑?右脑?
  9. 「镁客早报」世界产权组织称:2018年国际专利申请华为排名第一;微软股价大涨,市值超9000亿美元...
  10. 用于视觉语言导航的自监督三维语义表示学习