规划出一个集群日常维护系列,分享各种奇葩案例,集群运维事故,欢迎大家交流投稿。集群的运维故障排查是一个任重而道远的事情。

1.集群故障现象

Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: java.io.IOException:
All datanodes DatanodeInfoWithStorage[10.21.131.179:50010,DS-6fca3fba-7b13-4855-b483-342df8432e2a,DISK] are bad. Aborting...
at org.apache.hadoop.hive.ql.exec.mr.ExecReducer.reduce(ExecReducer.java:265) at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:444) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:392) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1835) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158) Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: java.io.IOException: All datanodes DatanodeInfoWithStorage[10.21.131.179:50010,DS-6fca3fba-7b13-4855-b483-342df8432e2a,DISK] are bad. Aborting...at org.apache.hadoop.hive.ql.exec.FileSinkOperator.processOp(FileSinkOperator.java:731) at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:815) at

这种报错,在高负载集群经常会出现,尤其是大任务,两个小时以上的任务,失败的概率很高。这种报错是什么原因造成的呢?

其实本质很简单,task挂在了Reduce阶段Failed。因为reduce需要从各个MAP所在的节点拉取数据,通过HTTP请求形式从该节点指定目录下载数据。如果请求下载失败,就会标记该主机磁盘异常。,DS-aa55b1c5-4964-4161-8e36-322f29401ca1,DISK] are bad. Aborting

 出现这种情况一般是主机短暂时间掉线,从集群脱离,和NM失去了联系。直接CDH的监控是监控不到的,看主机一切正常。需要单独监控各个节点与NM的通信情况,通信超时则告警。

看了一下监控告警邮件,果然如此。

集群运维:All datanodes DatanodeInfoWithStorage[10.21.131.179:50010,DS-6fca3fba-7b13-4855-b483-342df8432e相关推荐

  1. etcd 集群运维实践

    [编者的话]etcd 是 Kubernetes 集群的数据核心,最严重的情况是,当 etcd 出问题彻底无法恢复的时候,解决问题的办法可能只有重新搭建一个环境.因此围绕 etcd 相关的运维知识就比较 ...

  2. 阿里巴巴大规模神龙裸金属 Kubernetes 集群运维实践

    戳蓝字"CSDN云计算"关注我们哦! 导读:值得阿里巴巴技术人骄傲的是 2019 年阿里巴巴 双11 核心系统 100% 以云原生的方式上云,完美支撑了 54.4w 峰值流量以及 ...

  3. 管理大规模容器集群能力包括_阿里巴巴大规模神龙裸金属 Kubernetes 集群运维实践...

    导读:值得阿里巴巴技术人骄傲的是 2019 年阿里巴巴 双11 核心系统 100% 以云原生的方式上云,完美支撑了 54.4w 峰值流量以及 2684 亿的成交量.背后承载海量交易的计算力就是来源于容 ...

  4. 第二课 ceph基础学习-OSD扩容换盘和集群运维

    第二课 ceph基础学习-OSD扩容换盘和集群运维 文章目录 第二课 ceph基础学习-OSD扩容换盘和集群运维 第一节 OSD扩容 1.1 扩容背景 1.2 横向扩容 1.3 纵向扩容 1.4 数据 ...

  5. Kafka的灵魂伴侣Logi-KafkaManger(4)之运维管控–集群运维(数据迁移和集群在线升级)

    推荐一款非常好用的kafka管理平台,kafka的灵魂伴侣 滴滴开源Logi-KafkaManager 一站式Kafka监控与管控平台 技术交流 有想进滴滴LogI开源用户群的加我个人微信: jjdl ...

  6. 阿里云注册集群+Prometheus 解决多云容器集群运维痛点

    作者:左知 容器集群可观测现状 随着 Kubernetes(K8s)容器编排工具已经成为事实上行业通用技术底座,容器集群监控经历多种方案实践后,Prometheus 最终成为容器集群监控的事实标准. ...

  7. 升腾威讯怎么恢复集群_PB级大规模Elasticsearch集群运维与调优实践

    导语 | 腾讯云Elasticsearch 被广泛应用于日志实时分析.结构化数据分析.全文检索等场景中,本文将以情景植入的方式,向大家介绍与腾讯云客户合作过程中遇到的各种典型问题,以及相应的解决思路与 ...

  8. PB 级大规模 Elasticsearch 集群运维与调优实践

    作者:bellen,腾讯云大数据研发工程师. 腾讯云 Elasticsearch 被广泛应用于日志实时分析.结构化数据分析.全文检索等场景中,本文将以情景植入的方式,向大家介绍与腾讯云客户合作过程中遇 ...

  9. quarts集群 运维_精讲Elastic-job + Quartz实现企业级定时任务

    掌握分布式集群方式的定时任务框架,可以弥补企业中常用的单点任务的缺点,以更高的性能更好的稳定性处理分布式定时任务服务:本课程带你掌握分布式框架Elastic-Job和Quartz,在以多种方式开发定时 ...

最新文章

  1. vs安装一直在提取文件_Visual Studio 2019下载及安装教程
  2. react中使用构建缓存_通过构建海滩度假胜地网站,了解如何使用React,Contentful和Netlify...
  3. audio type多种类型_http content-type常见文件格式类型
  4. [小改进]Blog页面导航调整
  5. 全球及中国家庭用空气净化器行业供需分析及发展营利模式预测报告2022-2027年
  6. Reat学习01——初步接触与安装
  7. CodeForces - 1334D Minimum Euler Cycle(构造+模拟)
  8. 大数据基础系列 5:Hadoop 实验——熟悉常用的 HDFS 目录操作和文件操作
  9. HTML+CSS+JS实现 ❤️贪吃蛇游戏、你能吃过我?❤️【源码送给你一起来玩-建议收藏】
  10. 岗位po是什么意思_劳务派遣是什么意思,劳务派遣和正式员工区别在哪
  11. ERROR: No matching distribution found for mysqlclient==2.0.3
  12. sql server 2008 的安装
  13. 两个pv挂一个vg_SKT前教练结婚,发布婚前感言,SKT和VG队员发来祝福
  14. C++实现整数值转中文大写
  15. ue4 中KismetProceduralMeshLibrary SliceProceduralMesh的原理
  16. 其实我(微笑哥)是个正经男人!
  17. 移动App测试中的最佳做法
  18. u8g2库 汉字速查表
  19. c语言怎么加中文注释,谁能对我的C语言程序作出中文注释
  20. 输入两个正整数,求其最大公约数。

热门文章

  1. 数据库 1---初识数据库系统
  2. 1970年计算的时间转日期
  3. html5论坛苹果三星再次谈判
  4. ( 题解 )第六届蓝桥杯决赛试题 -- 完美正方形 (线段树 + 深搜)
  5. Efficient Frontier of Two Risky Assets(两种证券组合的有效边界)
  6. ip-san 服务器 虚拟化,IP-SAN与IB-SAN网络存储的异同点分析
  7. 【文档】字体 / Font
  8. 项目管理的SDCA环、PDCA环
  9. FFmpeg(5) -- 相关工具类
  10. 沈阳计算机维修,联想电脑维修站查询_沈阳维修电脑_东莞维修电脑