Hadoop Failover

YARN - Failover

失败类型

  1. 程序问题
  2. 进程崩溃
  3. 硬件问题

失败处理

任务失败

  1. 运行时异常或者JVM退出都会报告给ApplicationMaster
  2. 通过心跳来检查挂住的任务(timeout),会检查多次(可配置)才判断该任务是否失效
  3. 一个作业的任务失败率超过配置,则认为该作业失败
  4. 失败的任务或作业都会有ApplicationMaster重新运行

ApplicationMaster失败

  1. ApplicationMaster定时发送心跳信号到ResourceManager,通常一旦ApplicationMaster失败,则认为失败,但也可以通过配置多次后才失败
  2. 一旦ApplicationMaster失败,ResourceManager会启动一个新的ApplicationMaster
  3. 新的ApplicationMaster负责恢复之前错误的ApplicationMaster的状态(yarn.app.mapreduce.am.job.recovery.enable=true),这一步是通过将应用运行状态保存到共享的存储上来实现的,ResourceManager不会负责任务状态的保存和恢复
  4. Client也会定时向ApplicationMaster查询进度和状态,一旦发现其失败,则向ResouceManager询问新的ApplicationMaster

NodeManager失败

  1. NodeManager定时发送心跳到ResourceManager,如果超过一段时间没有收到心跳消息,ResourceManager就会将其移除
  2. 任何运行在该NodeManager上的任务和ApplicationMaster都会在其他NodeManager上进行恢复
  3. 如果某个NodeManager失败的次数太多,ApplicationMaster会将其加入黑名单(ResourceManager没有),任务调度时不在其上运行任务

ResourceManager失败

  1. 通过checkpoint机制,定时将其状态保存到磁盘,然后失败的时候,重新运行
  2. 通过zookeeper同步状态和实现透明的HA

可以看出,一般的错误处理都是由当前模块的父模块进行监控(心跳)和恢复。而最顶端的模块则通过定时保存、同步状态和zookeeper来ֹ实现HA

Hadoop Failover相关推荐

  1. 一篇文看懂Hadoop

    我们很荣幸能够见证Hadoop十年从无到有,再到称王.感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天.今天和明天,憧憬下一个十年. 本文分为技术篇.产业篇.应用篇.展望篇四部分 技 ...

  2. hadoop 2 java hdfs_Hadoop2.6.0学习笔记(二)HDFS访问

    鲁春利的工作笔记,谁说程序员不能有文艺范? 通过hadoop shell与java api访问hdfs 工作笔记之Hadoop2.6集群搭建已经将集群环境搭建好了,下面来进行一些HDFS的操作 1.H ...

  3. Hadoop集群搭建(五:Hadoop HA集群模式的安装)

    实验 目的 要求 目的: 1.Hadoop的高可用完全分布模式的安装和验证 要求: 完成Hadoop的高可用完全分布模式的安装: Hadoop的相关服务进程能够正常的启动: HDFS能够正常的使用: ...

  4. 基于Hadoop的大数据平台实施记——整体架构设计[转]

    http://blog.csdn.net/jacktan/article/details/9200979 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底 ...

  5. 基于ZooKeeper的Hadoop HA集群搭建

    集群的规划 Zookeeper集群: 192.168.142.12 (bigdata12) 192.168.142.13 (bigdata13) 192.168.142.14 (bigdata14) ...

  6. 大数据处理——Hadoop解析(一)

    概述 这个时代被称之为大数据时代,各行各业生产的数据量呈现爆发性增长,并且基于这些爆发性增长的数据做深层次的数据挖掘.分析.因此,我们可以很容易的感觉到,在这样一个大数据的时代,我们很多做事情的方法正 ...

  7. [Hadoop][笔记]4个节点搭建Hadoop2.x HA测试集群

    为什么80%的码农都做不了架构师?>>>    搭建Hadoop2.x HA 1.机器准备 虚拟机 4台 10.211.55.22 node1 10.211.55.23 node2 ...

  8. Hadoop的HA机制原理解析,与HA高可用集群环境搭建

    2019独角兽企业重金招聘Python工程师标准>>> Hadoop的HA工作机制示意图 下面我们开始搭建这一套高可用集群环境 hadoop2.0已经发布了稳定版本了,增加了很多特性 ...

  9. 配置高可用的Hadoop平台

    1.概述 在Hadoop2.x之后的版本,提出了解决单点问题的方案--HA(High Available 高可用).这篇博客阐述如何搭建高可用的HDFS和YARN,执行步骤如下: 创建hadoop用户 ...

  10. Hadoop完全分布式HA环境搭建

    一.前提准备 实验环境下准备4台虚拟机,必须安装好jdk并配置好环境变量.(点击查看jdk的安装配置) 二.节点规划 NN1 NN2 DN ZK ZKFC JN node1 * * * node2 * ...

最新文章

  1. NYOJ 745 蚂蚁的难题(二)
  2. 《模式识别与机器学习》学习笔记:2.2 多项变量
  3. excel匹配_Excel中的数据匹配和查找
  4. 利刃 MVVMLight 3:双向数据绑定
  5. E: 无法获得锁 /var/lib/dpkg/lock-frontend - open (11: 资源暂时不可用) E: 无法获取 dpkg 前端锁 (/var/lib/dpkg/lock-front
  6. #1064 - You have an error in your SQL syntax; version for the right syntax to use near '' at line
  7. C#实现HttpUtility.UrlEncode输出大写字母
  8. CCF NOI1012 变换密码
  9. vector迭代器的使用
  10. 在线图片编辑器/在线视频剪辑器/在线批量加水印网站源码
  11. Spring注解注入原理
  12. Java实现对称密钥算法
  13. Java判断上海自来水来自海上_JavaAPI
  14. 微信自定义菜单java_java微信开发API第四步 微信自定义个性化菜单实现
  15. openstreetmap-server-ubuntu-16-04+GraphHopper搭建离线地图服务器和离线路径规划
  16. True Type 文件格式规范
  17. 全球顶级企业和工程师荣获首届数字工程奖
  18. known_hosts to get rid of this message问题
  19. nginx-2-讲解与使用
  20. python取矩阵的某一行_Pythonnumpy提取矩阵的某一行或某一列的实例

热门文章

  1. Ubuntu20与win10共享文件夹
  2. EL表达式的语法、用法及说明
  3. Python爬取豆瓣电影top250(附全部源码)
  4. SC2Rank 星际2天梯排行榜 SpringMVC + Spring + Mybatis + Mysql + Maven java web项目
  5. 闲鱼商品选投实时性优化
  6. Java生成word表单|勾选框
  7. 试题 基础练习 序列求和
  8. 蓝凌OA前台任意文件读取漏洞利用
  9. NS2中GOD的使用
  10. SOAP Action介绍