Hadoop架构-YARN

hadoop 1.x 架构

MRv1中各角色的作用：

JobTracker：

核心，主，单点
调度所有的作业
监控整个集群的资源负载

TaskTracker：

从，自身节点资源管理
和JobTracker心跳，汇报资源，获取Task

Client：

作业为单位
规划作业计算分布
提交作业资源到HDFS
最终提交作业到JobTracker

Job Tracker和Task Tracker是MR框架的长服务。Job Tracker干的事情就是：调度作业 & 资源使用情况的管理

Client做了两件事：

1.根据路径计算文件切片清单，同时取出切片对block的位置信息
核心：切片清单是很重要的，计算向数据移动，getfileblocklocations得到文件所有的块，得到位置信息。有了文件，就可以并行计算。jar包+切片清单+配置信息，作为分布式计算的资源
2.资源上传到hdfs

Client做完这两件事，告诉Job Tracker我这要作业要跑，你给调度一下。Job Tracker优先从HDFS拿回清单文件、参考资源、调度任务。最终Task Tracker通过3s心跳询问到Job Tracker有没有任务要做。之后Task Tracker就知道做哪个任务（里面有jar包、路径）。下载jar包到本地，开jvm跑Map Task或者Reduce Task。

MRv1的架构中，存在着很大的弊端：

JobTracker：负载过重，单点故障
资源管理与计算调度强耦合，其他计算框架需要重复实现资源管理
不同框架对资源不能全局管理

Hadoop 2.x架构

Hadoop 2.x架构中最大的改变，就是引入了YARN（Yet Another Resource Negotiator）。从MRv1进化到MRv2，就是引入了资源管理系统。核心思想就是将Job Tracker的两大功能（任务调度、资源管理）拆开，“分权”给ResourceManager和ApplicationMaster。使RM负责整个集群的资源管理，使ApplicationMaster负责任务调度。

同时，YARN的引入，使得多个计算框架可以运行在同一个集群中（MapReduce、Spark、Storm等），每个应用程序对应一个ApplicationMaster。

MRv2中各角色的作用：

YARN：解耦资源与计算

1.ResourceManager
- 主，核心
- 集群节点资源管理
2.NodeManager
- 与RM汇报资源
- 管理Container生命周期
- 计算框架中的角色都以Container表示
3.Container：【节点NM，CPU,MEM,I/O大小，启动命令】
- 默认NodeManager启动线程监控Container大小，超出申请资源额度，kill
- 支持Linux内核的Cgroup
3.MR ：
- MR-ApplicationMaster-Container
  - 作业为单位，避免单点故障，负载到不同的节点
  - 创建Task需要和RM申请资源（Container）
- Task-Container
4.Client：
- RM-Client：请求资源创建AM
- AM-Client：与AM交互

Client将写好的程序打成jar包，上传给ResourceManager(后面统称为“RM”)。RM监控着所有NodeManager的资源情况（内存、CPU、磁盘io等），因此RM就知道哪个NodeManager（后面统称为“NM”，和DataNode站在一起的。NodeManager和RM做心跳，NodeManager负责统计本节点资源情况并汇报给RM。如此，RM就能采集到整个集群的资源使用情况了）是空闲的。

假设NodeManager2的资源是足够的，RM就会在NM2上创建一个Application Master进程（调度功能，因为它“不忙”，所以才挑选它）。然后NM2中的ApplicationMaster进程运行jar包程序，就知道要对哪个数据进行计算。既然拥有调度功能，就可以从HDFS拿回切片清单。

ApplicationMaster进程首先对数据切片，假如切5个片段，app mstr就会根据切片的位置信息，去RM申请5个map任务的资源（App Mstr对RM说：我这可能有xx个map任务、xx个reduce任务要跑，你根据你的资源情况，给我分配一下看看在哪跑比较合适）。

RM按照就近原则（也就是优先分配数据所在节点的资源），比如AppMstr有3个map任务要跑，RM就会根据实际情况返回3个combiner容器，并告诉AppMstr你就让3个map任务在这3个combiner容器里面跑就行了。app mstr收到通知后，就会通知各个combiner容器对应所在的NodeManager启动Combiner。combiner启动成功后会向AppMstr注册，然后AppMstr根据曾经RM下达的命令，将几个map任务放在combiner中去跑了。之后，combiner中就会启动YarnChild进程，YarnChild进程就会创建对应的MapTask线程来跑map任务了。

当所有map任务跑完了，就申请reduce任务的资源（按照就近原则、资源空闲原则）。

就近原则带来的好处，就是数据没有移动，避免了大量IO。如果想充分利用就近原则，就尽可能多的设置副本数。

总结：

将MapReduce作业直接运行在YARN上，而不是由JobTracker和TaskTracker构建的MRv1系统中。

基本功能模块：

YARN：负责资源管理和调度
MRAppMaster：负责任务切分、任务调度、任务监控和容错等
MapTask/ReduceTask：任务驱动引擎，与MRv1一致

每个MapRduce作业对应一个MRAppMaster

MRAppMaster任务调度
YARN将资源分配给MRAppMaster
MRAppMaster进一步将资源分配给内部的任务

MRAppMaster容错

失败后，由YARN重新启动
*任务失败后，MRAppMaster重新申请资源