1.zookeeper报错

2017-12-13 16:47:55,968 [myid:] - INFO  [main-SendThread(localhost:2181):ClientCnxn$SendThread@975] - Opening socket connection to server localhost/127.0.0.1:2181. Will not attempt to authenticate using SASL (unknown error)
2017-12-13 16:47:55,968 [myid:] - WARN  [main-SendThread(localhost:2181):ClientCnxn$SendThread@1102] - Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect
java.net.ConnectException: Connection refused
    at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
    at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717)
    at org.apache.zookeeper.ClientCnxnSocketNIO.doTransport(ClientCnxnSocketNIO.java:350)
    at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1081)

原因:zookeeper节点挂了,启动即可

2.kafka消费报错:Job aborted due to stage failure:kafka.common.OffsetOutOfRangeException

Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0, localhost): kafka.common.OffsetOutOfRangeException
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)

kafka message过期时间log.retention.hours=168

解决:问题原因是,cosumer-group消费的offset已早于kafka存储的最早的message。参考blog里面有更详尽的解释

获取topic mysqlslowlog的offset的最小值

./kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list=node:9092 --topic topic_name --time -2

获取topic:mysqlslowlog的offset的最大值

./kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list=node:9092 --topic topic_name--time -1

在zk上更新topic partition的offset

#查partition  0最小值

get /rootdir/consumers/[cousumer_group]/offsets/mysqlslowlog/0

#更新partition  0最小值

set /rootdir/consumers/[cousumer_group]/offsets/mysqlslowlog/0 3546232

或者可以使用如下命令批量更新为最小值

./kafka-run-class.sh kafka.tools.UpdateOffsetsInZK earliest

参考:

http://blog.csdn.net/xueba207/article/details/51135423
http://blog.csdn.net/xueba207/article/details/51174818

3.重启hbase regionserver节点报错:

Server ...,1514436003346 has been rejected; Reported time is too far out of sync with master.  Time difference of 136758ms > max allowed of 30000ms

一般是因为hmaster 节点和 regionserver节点时间不一致导致。同步时间,重启节点即可。

4.摘除hdfs  datanode节点,datanode节点一直处于Decommission In Progress状态

通过WEB UI查看:

#低于副本数要求的blocks
Under replicated blocks :2979
#没有副本的blocks
Blocks with no live replicas: 0
#低于副本数要求的blocks,且正在创建中
Under Replicated Blocks In files under construction:1

或者通过../bin/hadoop dfsadmin -report命令查看datanode的状态。

副本数为:2,当Under replicated blocks是越来越低,等于0时,应该就会完全摘除。

另外,因为同一个rack的datanode节点一般会有一个副本,因此,可以通过修改副本数的方式,快速下线datanode

#查看集群状态

./bin/hadoop fsck / -blocks -locations -files

#修改副本数(当Blocks with no live replicas为0时可以操作)

./bin/hadoop fs -setrep -R 1 /

#关闭datanode节点,

./sbin/hadoop-daemon.sh stop datanode

#从slaves列表和rack列表中删掉对应节点

#freshnode或者依次重启namenode

./bin/hdfs dfsadmin -refreshNodes
./bin/yarn rmadmin -refreshNodes

5.摘除hdfs的datanode节点

Failed to add xxxxxxxx:50010: You cannot have a rack and a non-rack node at the same level of the network topology.

解决:

通过 ./bin/hdfs dfsadmin -printTopology查看rack list

刷新

./bin/hdfs dfsadmin -refreshNodes
./bin/yarn rmadmin -refreshNodes

不管用,
(1)页面依然显示状态为dead的datanode,
(2)依然报You cannot have a rack and a non-rack node at the same level of the network topology.

依次重启namenode,生效

./sbin/hadoop-daemon.sh stop namenode
./sbin/hadoop-daemon.sh start namenode

通过

./bin/hdfs dfsadmin -printTopology

查看rack信息,应该被摘掉的节点也不再显示

转载于:https://www.cnblogs.com/wyett/p/8146044.html

hadoop集群运维碰到的问题汇总相关推荐

  1. 集群运维:All datanodes DatanodeInfoWithStorage[10.21.131.179:50010,DS-6fca3fba-7b13-4855-b483-342df8432e

    规划出一个集群日常维护系列,分享各种奇葩案例,集群运维事故,欢迎大家交流投稿.集群的运维故障排查是一个任重而道远的事情. 1.集群故障现象 Error: java.lang.RuntimeExcept ...

  2. etcd 集群运维实践

    [编者的话]etcd 是 Kubernetes 集群的数据核心,最严重的情况是,当 etcd 出问题彻底无法恢复的时候,解决问题的办法可能只有重新搭建一个环境.因此围绕 etcd 相关的运维知识就比较 ...

  3. Kafka的灵魂伴侣Logi-KafkaManger(4)之运维管控–集群运维(数据迁移和集群在线升级)

    推荐一款非常好用的kafka管理平台,kafka的灵魂伴侣 滴滴开源Logi-KafkaManager 一站式Kafka监控与管控平台 技术交流 有想进滴滴LogI开源用户群的加我个人微信: jjdl ...

  4. 阿里巴巴大规模神龙裸金属 Kubernetes 集群运维实践

    戳蓝字"CSDN云计算"关注我们哦! 导读:值得阿里巴巴技术人骄傲的是 2019 年阿里巴巴 双11 核心系统 100% 以云原生的方式上云,完美支撑了 54.4w 峰值流量以及 ...

  5. 管理大规模容器集群能力包括_阿里巴巴大规模神龙裸金属 Kubernetes 集群运维实践...

    导读:值得阿里巴巴技术人骄傲的是 2019 年阿里巴巴 双11 核心系统 100% 以云原生的方式上云,完美支撑了 54.4w 峰值流量以及 2684 亿的成交量.背后承载海量交易的计算力就是来源于容 ...

  6. 第二课 ceph基础学习-OSD扩容换盘和集群运维

    第二课 ceph基础学习-OSD扩容换盘和集群运维 文章目录 第二课 ceph基础学习-OSD扩容换盘和集群运维 第一节 OSD扩容 1.1 扩容背景 1.2 横向扩容 1.3 纵向扩容 1.4 数据 ...

  7. 阿里云注册集群+Prometheus 解决多云容器集群运维痛点

    作者:左知 容器集群可观测现状 随着 Kubernetes(K8s)容器编排工具已经成为事实上行业通用技术底座,容器集群监控经历多种方案实践后,Prometheus 最终成为容器集群监控的事实标准. ...

  8. 升腾威讯怎么恢复集群_PB级大规模Elasticsearch集群运维与调优实践

    导语 | 腾讯云Elasticsearch 被广泛应用于日志实时分析.结构化数据分析.全文检索等场景中,本文将以情景植入的方式,向大家介绍与腾讯云客户合作过程中遇到的各种典型问题,以及相应的解决思路与 ...

  9. PB 级大规模 Elasticsearch 集群运维与调优实践

    作者:bellen,腾讯云大数据研发工程师. 腾讯云 Elasticsearch 被广泛应用于日志实时分析.结构化数据分析.全文检索等场景中,本文将以情景植入的方式,向大家介绍与腾讯云客户合作过程中遇 ...

最新文章

  1. FragmentTabHost中子项Fragment加载题
  2. BZOJ4818 [SDOI2017] 序列计数 【矩阵快速幂】
  3. Effective C# 原则35:选择重写函数而不是使用事件句柄(译)
  4. python库路径_如何设置本地python库目录/ PYTHONPATH?
  5. 卡扇区数据教程_分享一款硬盘分区和数据恢复软件
  6. 程序员下班回家,路上被拦…
  7. 李彦宏:百度智能汽车预计2023年和大家见面
  8. Enterprise Library Step By Step系列(十六):使用AppSetting Application Block
  9. Linux系统安全防护加固
  10. mega软件 linux,Linux系统下使用MegaCli软件对磁盘阵列进行操作
  11. php fpm 关闭,php-fpm的启动、关闭、重启
  12. 长江存储推全新3D NAND架构 挑战三星存储
  13. iOS根据图片比例计算显示大小
  14. Python 大作业
  15. 双开助手多开分身版 v5.1.8
  16. 一个大牛的acm历程(看着就要颤抖
  17. [计算机基础]整理计算机的数据计量单位
  18. 年度矫情大剧-2017回忆文
  19. WordPress网站如何开启Gzip压缩快速传输
  20. 《“透视”个人大数据》项目开发小记 --(二)网络服务端,邮箱验证和手机验证(C#,Java)

热门文章

  1. 还在直接操作 Redis?赶快来试试这个
  2. 2021最新版 SpringBoot 速记教程
  3. 2020 最烂密码 TOP 200 大曝光!
  4. 超美观的 Vue+Element 开源后台管理 UI
  5. 10个重构小技巧,去掉代码中的S味
  6. 大白话带你认识Kafka
  7. 图神经网络的解释性综述!
  8. 气氛拉满!高校补办2020届毕业典礼,这些专属礼物太戳心......
  9. 数据科学中常见的9种距离度量方法
  10. 抛弃注意力,比EfficientNet快3.5倍,类Transformer新模型跨界视觉任务实现新SOTA