【MR】剖析YARN中uber模式

在看《Hadoop权威指南》时，看到关于uber模式的介绍
一，什么是uber模式
Uber模式简单地可以理解成JVM重用，该模式是Hadoop2.x开始引入的；以Uber模式运行MR作业，所有的Map任务和Reduce任务将会在Application Master所在的容器（container）中运行，也就是说整个MR作业运行的过程只会启动AM container，因为不需要启动mapper containers和 reducer containers。
这是一种针对MR小作业的优化机制。即如果作业足够小，则所有任务在一个JVM中完成要比为每个任务启动一个JVM更划算。

那什么任务算是小任务？
默认情况下，小任务就是小于10个mapper且只有1个reducer，并且输入分片大小小于一个HDFS块的大小。

二，uber模式原理
Yarn的默认配置会禁用uber组件，即不允许JVM重用。
首先，Resource Manager里的Application Manager会为每一个application(比如一个用户提交的MapReduce Job)在NodeManager里面申请一个container，然后在该container里面启动一个Application Master。container在Yarn中是分配资源的容器(内存、cpu、硬盘等)，它启动时便会相应启动一个JVM。此时，Application Master便陆续为application包含的每一个任务(Map t任务和Reduce任务)向Resource Manager申请一个container。等每得到一个container后，便要求该container所属的NodeManager将此container启动，然后就在这个container里面执行相应的任务。等这个任务执行完后，这个container便会被NodeManager收回，而container所拥有的JVM也相应地被退出。在这种情况下，可以看出每一个JVM仅会执行一个任务， JVM并未被重用。

当uber功能被启用时
首先，Resource Manager里的Application Manager会为每一个application在NodeManager里面申请一个container，然后在该container里面启动一个Application Master。containe启动时便会相应启动一个JVM。此时，如果uber功能被启用，并且该application被认为是一个“小的application”，那么Application Master便会将该application包含的每一个任务依次在这个container里的JVM里顺序执行，直到所有任务被执行完。这样Application Master便不用再为每一个任务向Resource Manager去申请一个单独的container，最终达到了JVM重用（资源重用）的目的。

三，uber模式配置
在yarn-site.xml文件中，改变一下几个参数的配置即可启用uber模式。
mapreduce.job.ubertask.enable；默认值false；true启用user功能。
uber的默认配置
mapreduce.job.ubertask.maxmaps 最大map数，默认值：9
mapreduce.job.ubertask.maxreduces 最大reduce数，默认值：1

【MR】剖析YARN中uber模式相关推荐

阿里中间件seata源码剖析六：TCC模式中2阶段提交实现
目录 TM通知TC事务状态 TC通知RM分支事务提交 RM处理TC提交事务请求总结上篇文章中,我们以TCC模式的demo为例,讲解了seata中全局事务的开启.在这个demo中,TM作为一个全局事 ...
Yarn 监控 - 监控任务运行状态（包括Spark，MR 所有在Yarn中运行的任务）
目录 Maven pom引用配置文件代码平时开发中可以在yarn的web页面查看应用程序运行状态,如下图下面代码实现了,代码监控Yarn运行程序,可以对部分任务进行实时监控 Maven pom ...
MapReduce作业Uber模式
大家在提交MapReduce作业的时候肯定看过如下的输出: 17/04/17 14:00:38 INFO mapreduce.Job: Running job: job_1472052053889_0 ...
Hadoop2.6.0运行mapreduce之Uber模式验证
前言在有些情况下,运行于Hadoop集群上的一些mapreduce作业本身的数据量并不是很大,如果此时的任务分片很多,那么为每个map任务或者reduce任务频繁创建Container,势必会增加H ...
2021年大数据Spark（九）：Spark On Yarn两种模式总结
目录 Spark On Yarn两种模式引入一.当一个MR应用提交运行到Hadoop YARN上时二.当一个Spark应用提交运行在集群上时注意 client 模式 cluster 模式总结 ...
Spark on YARN cluster client 模式作业运行全过程分析
一.Spark:Yarn-Cluster 与 Yarn-Client 的区别与联系我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和ya ...
spark中local模式与cluster模式使用场景_Spark 知识点 ( 架构 RDD Task )
1. Spark介绍 Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一 ...
uber模式_Uber和Lyft的商业模式可能已经死了。好。
uber模式重点 (Top highlight) Uber is less a business than a constellation of fantasies. The same goes f ...
源码状态机_阿里中间件seata源码剖析七：saga模式实现
saga模式是分布式事务中使用比较多的一种模式,他主要应用在长流程的服务,对一个全局事务,如果某个节点抛出了异常,则从这个节点往前依次回滚或补偿事务.今天我们就来看看它的源码实现. 状态机初始化在之 ...

【MR】剖析YARN中uber模式

【MR】剖析YARN中uber模式

【MR】剖析YARN中uber模式相关推荐

最新文章

热门文章