Hadoop YARN最近几个新特性
2019独角兽企业重金招聘Python工程师标准>>>
本文介绍Hadoop YARN最近版本中增加的几个非常有用的特性,包括:
(1)ResourceManager HA
在apache hadoop 2.4或者CDH5.0.0版本之后,增加了ResourceManger HA特性,支持基于Zookeeper的热主备切换,具体配置参数可以参考Cloudera的文档:ResourceManager HA配置。
需要注意的是,ResourceManager HA只完成了第一个阶段的设计,即备ResourceManager启动后,会杀死之前正在运行的Application,然后从共享存储系统中读取这些Application的元数据信息,并重新提交这些Application。启动ApplicationMaster后,剩下的容错功能就交给ApplicationMaster实现了,比如MapReduce的ApplicationMaster会不断地将完成的任务信息写到HDFS上,这样,当它重启时,可以重新读取这些日志,进而只需重新运行那些未完成的任务。ResourceManager HA第二个阶段的任务是,备ResourceManager接管主ResourceManager后,无需杀死那些正在运行的Application,让他们像任何事情没有发生一样运行下去。
(2) 磁盘容错
在apache hadoop 2.4或者CDH5.0.0版本之后,增加了几个对多磁盘非常友好地参数,这些参数允许YARN更好地使用NodeManager上的多块磁盘,相关jira为:YARN-1781,主要新增了三个参数:
yarn.nodemanager.disk-health-checker.min-healthy-disks:NodeManager上最少保证健康磁盘比例,当健康磁盘比例低于该值时,NodeManager不会再接收和启动新的Container,默认值是0.25,表示25%;
yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage:一块磁盘的最高使用率,当一块磁盘的使用率超过该值时,则认为该盘为坏盘,不再使用该盘,默认是100,表示100%,可以适当调低;
yarn.nodemanager.disk-health-checker.min-free-space-per-disk-mb:一块磁盘最少保证剩余空间大小,当某块磁盘剩余空间低于该值时,将不再使用该盘,默认是0,表示0MB。
(3)资源调度器
Fair Scheduler:Fair Scheduler增加了一个非常有用的新特性,允许用户在线将一个应用程序从一个队列转移到另外一个队列,比如将一个重要作业从一个低优先级队列转移到高优先级队列,操作命令是:bin/yarn application -movetoqueue appID -queue targetQueueName,相关jira为:YARN-1721。
Capacity Scheduler:Capacity Scheduler中资源抢占功能经过了充分的测试,可以使用了。
转载于:https://my.oschina.net/u/1169079/blog/263702
Hadoop YARN最近几个新特性相关推荐
- 将 Hadoop YARN 发扬广大
大数据不断在演变,因而它的处理框架也在不断演变.Apache Hadoop 于 2005 年推出,提供了核心的 MapReduce 处理引擎来支持大规模数据工作负载的分布式处理.7 年后的今天,Had ...
- 深入理解Hadoop YARN中的Container概念
在学习Hadoop YARN-Hadoop 2.0新引入的通用资源管理系统过程中,总会遇到Container这一概念,由于中文资料的缺乏,很多人对Container这一概念仍非常的模糊.它与Linu ...
- Apache Spark 1.5发布,新特性一览
Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一.Apache Spa ...
- Hadoop3.0的新特性
转载:http://blog.csdn.net/sinat_31726559/article/details/52103229 点击阅读原文 ---------------------------- ...
- hadoop3.0新特性介绍
hadoop3.0新特性介绍 1. 基于jdk1.8(最低版本要求) 2. mr采用基于内存的计算,提升性能(快spark 10倍) 3. hdfs 通过最近black块计算,加快数据获取速度(块大小 ...
- Hadoop YARN学习之核心概念(2)
Hadoop YARN学习之核心概念(2) 1. Hadoop 2.X YARN引入的新服务 1.1 新的ResourceManager纯碎作为资源调度器,是集群资源的唯一仲裁者: 1.2 用户应用程 ...
- 社区活动 | Apache Flink 1.9 版本即将发布,新版本有哪些新特性?
6 月 29 号,Apache Flink 社区 Meetup 北京站即将到来,此次 Meetup 一如既往地邀请了社区多位 Flink 技术专家现场分享.伴随着 Apache Flink 1.9 版 ...
- Hadoop3x,Hadoop2x新特性
一.Hadoop2x的新特性 1.集群间的数据拷贝 (1)scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop100:/user/zheng/hello.tx ...
- HDFS(下):NameNode和SecondaryNameNode、HDFS工作机制、故障处理、集群安全模式、服役退役节点、集群黑白名单、DataNode多目录详解、HDFS2.x新特性
接上篇,上篇文章传送门:HDFS(上):HDFS优缺点.HDFS操作.HDFS客户端操作.HDFS的API.HDFS数据流.HDFS的IO流.HDFS读写数据流程.HDFS文件处理详解.windows ...
- Apache Hadoop YARN:另一个资源协调者
文章目录 摘要 1. 引言 2. 历史和基本原理 2.1 专用集群的时代 2.2 Hadoop on Demand的缺点 2.3 共享集群 3. 架构 3.1 概述 3.2 Resource Mana ...
最新文章
- Excel表格快速将公式运用到一整列
- 添加/移除事件处理程序
- 「多图」图解10大CNN架构
- lettuce--Advanced Redis client
- MySQL修改存储过程
- 录音文件下载_苹果手机录音常见问题解答
- html模块化标签,jq load()方法实现html 模块化。
- 【渝粤教育】广东开放大学 行政管理 形成性考核 (35)
- hadoop元数据mysql中表字段_hive mysql元数据表说明
- (王道408考研数据结构)第六章图-第四节7:关键路径(最早发生时间、最迟发生时间)
- 【C语言】利用二维数组输出成绩
- 持续集成[代码流水线管理及Jenkins和gitlab集成]-自动化部署05
- 与时间有关的10个短语
- Spring_02 注入类型值、利用引用注入类型值、spring表达式、与类相关的注解、与依赖注入相关的注解、注解扫描...
- 嵌入式Linux--全志V3s--NOR Flash的使用(二)移植Nor Flash
- 成功解决H5画布图片跨域,详解 uniapp H5 画布自定义海报实现长按识别,分享,转发
- 通过ssh访问docker容器的办法 亲测可行
- CanOpen通信协议python实现
- MySQL权限与安全管理之权限表与账户管理
- win10安装vivado + vitis 2019.2 教程
热门文章
- oracle 10g 安装完成后,无法登陆EM的解决办法
- 几个非常实用性的在线学习Ethical Hacking的网站
- 应用程序热补丁(二):自动生成热补丁
- java 数组随机抽取_Java利用数组随机抽取幸运观众
- 1951-2021年至今全国气象数据(逐日、逐月、逐年)
- 龙虎斗 详解(C++)
- linux开机启动服务,Linux开机启动服务
- php将开始日期与结束日期组成数组,php根据开始日期和结束日期得到时间数组
- mysql注入多语句执行_MySQL注入总结MySQL暴错注入方法整理
- centos 7 yum php swoole_自动化部署技能—搭建企业级YUM仓库