2019独角兽企业重金招聘Python工程师标准>>>

本文介绍Hadoop YARN最近版本中增加的几个非常有用的特性,包括:

(1)ResourceManager HA

在apache hadoop 2.4或者CDH5.0.0版本之后,增加了ResourceManger HA特性,支持基于Zookeeper的热主备切换,具体配置参数可以参考Cloudera的文档:ResourceManager HA配置。

需要注意的是,ResourceManager HA只完成了第一个阶段的设计,即备ResourceManager启动后,会杀死之前正在运行的Application,然后从共享存储系统中读取这些Application的元数据信息,并重新提交这些Application。启动ApplicationMaster后,剩下的容错功能就交给ApplicationMaster实现了,比如MapReduce的ApplicationMaster会不断地将完成的任务信息写到HDFS上,这样,当它重启时,可以重新读取这些日志,进而只需重新运行那些未完成的任务。ResourceManager HA第二个阶段的任务是,备ResourceManager接管主ResourceManager后,无需杀死那些正在运行的Application,让他们像任何事情没有发生一样运行下去。

(2) 磁盘容错

在apache hadoop 2.4或者CDH5.0.0版本之后,增加了几个对多磁盘非常友好地参数,这些参数允许YARN更好地使用NodeManager上的多块磁盘,相关jira为:YARN-1781,主要新增了三个参数:

yarn.nodemanager.disk-health-checker.min-healthy-disks:NodeManager上最少保证健康磁盘比例,当健康磁盘比例低于该值时,NodeManager不会再接收和启动新的Container,默认值是0.25,表示25%;

yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage:一块磁盘的最高使用率,当一块磁盘的使用率超过该值时,则认为该盘为坏盘,不再使用该盘,默认是100,表示100%,可以适当调低;

yarn.nodemanager.disk-health-checker.min-free-space-per-disk-mb:一块磁盘最少保证剩余空间大小,当某块磁盘剩余空间低于该值时,将不再使用该盘,默认是0,表示0MB。

(3)资源调度器

Fair Scheduler:Fair Scheduler增加了一个非常有用的新特性,允许用户在线将一个应用程序从一个队列转移到另外一个队列,比如将一个重要作业从一个低优先级队列转移到高优先级队列,操作命令是:bin/yarn application -movetoqueue appID -queue targetQueueName,相关jira为:YARN-1721。

Capacity Scheduler:Capacity Scheduler中资源抢占功能经过了充分的测试,可以使用了。

转载于:https://my.oschina.net/u/1169079/blog/263702

Hadoop YARN最近几个新特性相关推荐

  1. 将 Hadoop YARN 发扬广大

    大数据不断在演变,因而它的处理框架也在不断演变.Apache Hadoop 于 2005 年推出,提供了核心的 MapReduce 处理引擎来支持大规模数据工作负载的分布式处理.7 年后的今天,Had ...

  2. 深入理解Hadoop YARN中的Container概念

    在学习Hadoop  YARN-Hadoop 2.0新引入的通用资源管理系统过程中,总会遇到Container这一概念,由于中文资料的缺乏,很多人对Container这一概念仍非常的模糊.它与Linu ...

  3. Apache Spark 1.5发布,新特性一览

    Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一.Apache Spa ...

  4. Hadoop3.0的新特性

    转载:http://blog.csdn.net/sinat_31726559/article/details/52103229  点击阅读原文 ---------------------------- ...

  5. hadoop3.0新特性介绍

    hadoop3.0新特性介绍 1. 基于jdk1.8(最低版本要求) 2. mr采用基于内存的计算,提升性能(快spark 10倍) 3. hdfs 通过最近black块计算,加快数据获取速度(块大小 ...

  6. Hadoop YARN学习之核心概念(2)

    Hadoop YARN学习之核心概念(2) 1. Hadoop 2.X YARN引入的新服务 1.1 新的ResourceManager纯碎作为资源调度器,是集群资源的唯一仲裁者: 1.2 用户应用程 ...

  7. 社区活动 | Apache Flink 1.9 版本即将发布,新版本有哪些新特性?

    6 月 29 号,Apache Flink 社区 Meetup 北京站即将到来,此次 Meetup 一如既往地邀请了社区多位 Flink 技术专家现场分享.伴随着 Apache Flink 1.9 版 ...

  8. Hadoop3x,Hadoop2x新特性

    一.Hadoop2x的新特性 1.集群间的数据拷贝 (1)scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop100:/user/zheng/hello.tx ...

  9. HDFS(下):NameNode和SecondaryNameNode、HDFS工作机制、故障处理、集群安全模式、服役退役节点、集群黑白名单、DataNode多目录详解、HDFS2.x新特性

    接上篇,上篇文章传送门:HDFS(上):HDFS优缺点.HDFS操作.HDFS客户端操作.HDFS的API.HDFS数据流.HDFS的IO流.HDFS读写数据流程.HDFS文件处理详解.windows ...

  10. Apache Hadoop YARN:另一个资源协调者

    文章目录 摘要 1. 引言 2. 历史和基本原理 2.1 专用集群的时代 2.2 Hadoop on Demand的缺点 2.3 共享集群 3. 架构 3.1 概述 3.2 Resource Mana ...

最新文章

  1. Excel表格快速将公式运用到一整列
  2. 添加/移除事件处理程序
  3. 「多图」图解10大CNN架构
  4. lettuce--Advanced Redis client
  5. MySQL修改存储过程
  6. 录音文件下载_苹果手机录音常见问题解答
  7. html模块化标签,jq load()方法实现html 模块化。
  8. 【渝粤教育】广东开放大学 行政管理 形成性考核 (35)
  9. hadoop元数据mysql中表字段_hive mysql元数据表说明
  10. (王道408考研数据结构)第六章图-第四节7:关键路径(最早发生时间、最迟发生时间)
  11. 【C语言】利用二维数组输出成绩
  12. 持续集成[代码流水线管理及Jenkins和gitlab集成]-自动化部署05
  13. 与时间有关的10个短语
  14. Spring_02 注入类型值、利用引用注入类型值、spring表达式、与类相关的注解、与依赖注入相关的注解、注解扫描...
  15. 嵌入式Linux--全志V3s--NOR Flash的使用(二)移植Nor Flash
  16. 成功解决H5画布图片跨域,详解 uniapp H5 画布自定义海报实现长按识别,分享,转发
  17. 通过ssh访问docker容器的办法 亲测可行
  18. CanOpen通信协议python实现
  19. MySQL权限与安全管理之权限表与账户管理
  20. win10安装vivado + vitis 2019.2 教程

热门文章

  1. oracle 10g 安装完成后,无法登陆EM的解决办法
  2. 几个非常实用性的在线学习Ethical Hacking的网站
  3. 应用程序热补丁(二):自动生成热补丁
  4. java 数组随机抽取_Java利用数组随机抽取幸运观众
  5. 1951-2021年至今全国气象数据(逐日、逐月、逐年)
  6. 龙虎斗 详解(C++)
  7. linux开机启动服务,Linux开机启动服务
  8. php将开始日期与结束日期组成数组,php根据开始日期和结束日期得到时间数组
  9. mysql注入多语句执行_MySQL注入总结MySQL暴错注入方法整理
  10. centos 7 yum php swoole_自动化部署技能—搭建企业级YUM仓库