一、简介

YARN(Yet Another Resource Negotiator)是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度。

其核心出发点是为了分离资源管理与作业调度/监控,实现分离的做法是拥有一个全局的资源管理器(ResourceManager,RM),以及每个应用程序对应一个的应用管理器(ApplicationMaster,AM),应用程序由一个作业(Job)或者Job的有向无环图(DAG)组成。

YARN可以将多种计算框架(如离线处理MapReduce、在线处理的Storm、迭代式计算框架Spark、流式处理框架S4等) 部署到一个公共集群中,共享集群的资源。并提供如下功能:

1、资源的统一管理和调度:

集群中所有节点的资源(内存、CPU、磁盘、网络等)抽象为Container。计算框架需要资源进行运算任务时需要向YARN申请Container, YARN按照特定的策略对资源进行调度进行Container的分配。

2、资源隔离:

YARN使用了轻量级资源隔离机制Cgroups进行资源隔离以避免相互干扰,一旦Container使用的资源量超过事先定义的上限值,就将其杀死。

YARN是对Mapreduce V1重构得到的,有时候也成为MapReduce V2。

YARN可以看成一个云操作系统,由一个ResourceManager和多个NodeManager组成, 它负责管理所有NodeManger上多维度资源, 并以Container(启动一个Container相当于启动一个进程)方式分配给应用程序启动ApplicationMaster(相当于主进程中运行逻辑) 或运行ApplicationMaster切分的各Task(相当于子进程中运行逻辑)。

一、Yarn体系结构

ARN架构如下图所示:

YARN总体上是Master/Slave结构,主要由ResourceManager、NodeManager、 ApplicationMaster和Container等几个组件构成。

  • ResourceManager(RM)

负责对各NM上的资源进行统一管理和调度。将AM分配空闲的Container运行并监控其运行状态。对AM申请的资源请求分配相应的空闲Container。主要由两个组件构成:调度器和应用程序管理器:

  1. 调度器(Scheduler):调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序。调度器仅根据各个应用程序的资源需求进行资源分配,而资源分配单位是Container,从而限定每个任务使用的资源量。Shceduler不负责监控或者跟踪应用程序的状态,也不负责任务因为各种原因而需要的重启(由ApplicationMaster负责)。总之,调度器根据应用程序的资源要求,以及集群机器的资源情况,为应用程序分配封装在Container中的资源。

调度器是可插拔的,例如CapacityScheduler、FairScheduler。具体看下文的调度算法。

  1. 应用程序管理器(Applications Manager):应用程序管理器负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以启动AM、监控AM运行状态并在失败时重新启动等,跟踪分给的Container的进度、状态也是其职责。

  2. 框架架构图

  • NodeManager (NM)

NM是每个节点上的资源和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;同时会接收并处理来自AM的Container 启动/停止等请求。

框架架构图:

  • ApplicationMaster (AM):

用户提交的应用程序均包含一个AM,负责应用的监控,跟踪应用执行状态,重启失败任务等。ApplicationMaster是应用框架,它负责向ResourceManager协调资源,并且与NodeManager协同工作完成Task的执行和监控。MapReduce就是原生支持的一种框架,可以在YARN上运行Mapreduce作业。有很多分布式应用都开发了对应的应用程序框架,用于在YARN上运行任务,例如Spark,Storm等。如果需要,我们也可以自己写一个符合规范的YARN application。

  • Container:

Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当AM向RM申请资源时,RM为AM返回的资源便是用Container 表示的。 YARN会为每个任务分配一个Container且该任务只能使用该Container中描述的资源。

三、YARN应用工作流程

如下图所示用户向YARN中提交一个应用程序后,YARN将分两个阶段运行该应用程序:

启动AM ,如下步骤1~3;

由AM创建应用程序为它申请资源并监控它的整个运行过程,直到运行完成,如下步骤4~7。

四、YARN资源调度模型

YARN提供了一个资源管理平台能够将集群中的资源统一进行管理。所有节点上的多维度资源都会根据申请抽象为一个个Container。

YARN采用了双层资源调度模型:

  • RM中的资源调度器将资源分配给各个AM:资源分配过程是异步的。资源调度器将资源分配给一个应用程序后,它不会立刻push给对应的AM,而是暂时放到一个缓冲区中,等待AM通过周期性的心跳主动来取;

  • AM领取到资源后再进一步分配给它内部的各个任务:不属于YARN平台的范畴,由用户自行实现。

也就是说,ResourceManager分配集群资源的时候,以抽象的Container形式分配给各应用程序,至于应用程序的子任务如何使用这些资源,由应用程序自行决定。

YARN目前采用的资源分配算法有三种。但真实的调度器实现中还对算法做了一定程度的优化。

1、 Capacity Scheduler:该调度器用于在共享、多租户(multi-tenant)的集群环境中运行Hadoop应用,对运营尽可能友好的同时最大化吞吐量和效用。

该调度器保证共享集群的各个组织能够得到容量的保证,同时可以超额使用集群中暂时没有人使用的资源。Capacity Scheduler为了实现这些目标,抽象了queue的概念,queue通常由管理员配置。为了进一步细分容量的使用,调度器支持层级化的queue(hierarchical queues),使得在特定组织内部,可以进一步有效利用集群资源。

Capacity调度器支持的一些特性如下:

  • 层级队列(Hierarchical Queues)

  • 容量保证

  • 安全性:每个队列都有队列的访问权限控制(ACL)

  • 弹性: 空闲资源可以额外分配给任何需要的队列

  • 多租户

  • 基于资源的调度(resouce-based scheduling): 对资源敏感的应用程序,可以有效地控制资源情况

  • 支持用户(组)到queue的映射:基于用户组提交作业到对应queue。

  • 运营支持:支持运行时配置队列的容量,ACL等。也可以在运行时停止queue阻止进一步往queue提交作业。

要使用该调度器,在conf/yarn-site.xml配置如下:

<property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value></property>

2、Fair Scheduler:公平调度FAIR,该算法的思想是尽可能地公平调度,即已分配资源量少的优先级高。也就是说,在考虑如何分配资源时,调度器尽可能使得每个应用程序都能够得到大致相当的资源。默认情况下,公平性只通过内存来衡量,但是可以配置成内存和CPU。

这种策略使得运行时间短的应用能够尽快结束,而不至于在等待资源时被饿死。另外,也可以为应用程序配置优先级,优先级用于决定资源使用量的占比。

要使用Fair Scheduler,在conf/yarn-site.xml中如下配置:

<property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value></property>

转载于:https://blog.51cto.com/2951890/2148844

2018-07-21期 Hadoop Yarm体系结构剖析相关推荐

  1. 【跃迁之路】【531天】程序员高效学习方法论探索系列(实验阶段288-2018.07.21)...

    @(跃迁之路)专栏 [跃迁之路]奖励金计划正式开始 从2018.7.1起,[跃迁之路]奖励金计划正式起航,从今以后,每月1日,我会将自己个人上月收入的1%计入[跃迁之路]奖励金池,积累到足够金额后,将 ...

  2. 《强化学习周刊》第21期:EMNLP 2020-2021强化学习的最新研究与应用

    No.21 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.并且诸多研究成果发表于EMNLP 2020 ...

  3. 2018.01.21.一周机器学习周记

    时间:2018.01.21.一周 主要内容 1.整理前期关于决策树的一个小型实践项目文档(实践进行中) 2.搭建TensorFlow环境(进行中) 3.拓展:实践Python的自动化模块pyautog ...

  4. Hadoop的体系结构

    Hadoop的体系结构:都是主从结构 一.HDFS的体系结构 1.NameNode:主节点 http://192.168.160.111:50070 (1)职责:管理维护HDFS 接收客户端的请求:上 ...

  5. 2018.07.19 仿优酷网页小项目

    时间:2018.07.19 大一下学期暑假 地点:成都-实习 项目类型:HTML+CSS仿优酷网页 制作时间:两天 网页源码: <!doctype html> <html> & ...

  6. python全栈第21期_2019 Python最新基础入门(全栈21期)

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 2019 Python最新基础入门(全栈21期) 01s21开班仪式 开班入学必听Alex大神讲行业前景1 .mp4 开班入学必听Alex大神讲行业前景2 ...

  7. RedHat6.5虚拟机架设Redis和Kafka伪集群(2018.8.21最新重要补充!)

    架设Redis: 虚拟机架设,桥接模式下要保证实体机能上网,这样虚拟机才会分配到一个ip(这里是192.168.43.105),方便下面的集群配置每个节点ip,伪集群都设置成一个, 但要保证这个ip网 ...

  8. Neutrino追问AMA第21期 | DECENT 中国区创始人王晓敏:区块链可构建更加公平的内容分发网络

    在4月24日晚举行的第21期 Neutrino 追问 AMA中,特邀嘉宾 DECENT 中国区创始人王晓敏表示,通过区块链技术,创作内容的相关权利人可以共同在链上进行确权,多方收益可以在事先通过智能合 ...

  9. 2星|《快公司》2018年2-3期:商业人物访谈集

    快公司2018年2期/2018年3期:乐观派领导力 本期杂志基本是一些商业人物的访谈集.大部分商业人物都是国内读者不熟悉的美国小公司的领导. 总体评价2星,参考价值不大. 以下是书中一些内容的摘抄,# ...

最新文章

  1. efficientdet
  2. php获得前一天,php 获取前一天、后一天等日期的方法
  3. 毕业论文 | 基于单片机的多功能智能小车设计论文(电路+程序+论文)
  4. win10 笔记本猎豹WiFi无法打开
  5. SQL Server - SQL Server 2016新特性之 --- Query Store
  6. 推荐一个中文mda网站
  7. XJOI 3266 Dyeing 染色 题解
  8. linux调度器(二)——CFS模型
  9. java 常用汉字_中国常用汉字有多少
  10. 神经网络数据分析案例题,神经网络模型数据处理
  11. 为什么选择浙工大计算机专业,研途生活 | 亲爱的你,当初是为什么选择浙工大...
  12. 非网页版微信机器人-Wechaty
  13. 微信支付分700分,有什么好处?
  14. 犹豫两年,我还是重回大厂996了:还是得先搞钱
  15. 算法第四版课后习题答案 西安电子科技大学 计算机学院 算法课
  16. 生产制造追溯系统-通过微信小程序实现移动端报表平台
  17. 【对讲机的那点事】玩对讲机,数字对讲机DMR制式模块你了解多少?(下)
  18. 鲁大师5月新机性能/流畅榜:中兴Axon 40 Ultra性能夺冠,特供版新机扎堆了!
  19. JS+CSS实现漂亮实用的红色导航菜单
  20. PCIE协议解析 synopsys IP Power Management Capability 读书笔记(10)

热门文章

  1. 在Excel中更改默认图表类型
  2. 01 Hive SQL基础知识
  3. 【机房重构】C#与数据库访问技术之ExecuteNonQuery方法介绍及实例、SQL注入问题
  4. 如何彻底删除nodejs ?
  5. 小米8se android q,小米8 SE开始测试安卓Q系统, 国产第一款
  6. 看蓝鲸标准运维如何编排一切
  7. 普安特:猫鼻炎都会有哪些症状?
  8. 王者服务器维护什么时间结束s20,王者荣耀s20赛季还有多久结束?s20赛季结束时间介绍[多图]...
  9. 有机农产品稀缺昂贵-农业大健康·万祥军:靠谱的功能农业
  10. python读取文件编码报错解决