hadoop集群运维碰到的问题汇总
1.zookeeper报错
2017
-
12
-
13
16
:
47
:
55
,
968
[myid:] - INFO [main-SendThread(localhost:
2181
):ClientCnxn$SendThread
@975
] - Opening socket connection to server localhost/
127.0
.
0.1
:
2181
. Will not attempt to authenticate using SASL (unknown error)
2017
-
12
-
13
16
:
47
:
55
,
968
[myid:] - WARN [main-SendThread(localhost:
2181
):ClientCnxn$SendThread
@1102
] - Session
0x0
for
server
null
, unexpected error, closing socket connection and attempting reconnect
java.net.ConnectException: Connection refused
at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:
717
)
at org.apache.zookeeper.ClientCnxnSocketNIO.doTransport(ClientCnxnSocketNIO.java:
350
)
at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:
1081
)
原因:zookeeper节点挂了,启动即可
2.kafka消费报错:Job aborted due to stage failure:kafka.common.OffsetOutOfRangeException
Exception in thread
"main"
org.apache.spark.SparkException: Job aborted due to stage failure: Task
0
in stage
0.0
failed
1
times, most recent failure: Lost task
0.0
in stage
0.0
(TID
0
, localhost): kafka.common.OffsetOutOfRangeException
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
kafka message过期时间log.retention.hours=168
解决:问题原因是,cosumer-group消费的offset已早于kafka存储的最早的message。参考blog里面有更详尽的解释
获取topic mysqlslowlog的offset的最小值
./kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list=node:9092 --topic topic_name --time -2
获取topic:mysqlslowlog的offset的最大值
./kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list=node:9092 --topic topic_name--time -1
在zk上更新topic partition的offset
#查partition 0最小值
get /rootdir/consumers/[cousumer_group]/offsets/mysqlslowlog/0
#更新partition 0最小值
set /rootdir/consumers/[cousumer_group]/offsets/mysqlslowlog/0 3546232
或者可以使用如下命令批量更新为最小值
./kafka-run-class.sh kafka.tools.UpdateOffsetsInZK earliest
参考:
http://blog.csdn.net/xueba207/article/details/51135423
http://blog.csdn.net/xueba207/article/details/51174818
3.重启hbase regionserver节点报错:
Server ...
,
1514436003346
has been rejected; Reported time is too far out of sync with master. Time difference of 136758ms > max allowed of 30000ms
一般是因为hmaster 节点和 regionserver节点时间不一致导致。同步时间,重启节点即可。
4.摘除hdfs datanode节点,datanode节点一直处于Decommission In Progress状态
通过WEB UI查看:
#低于副本数要求的blocks
Under replicated blocks :2979
#没有副本的blocks
Blocks with no live replicas: 0
#低于副本数要求的blocks,且正在创建中
Under Replicated Blocks In files under construction:1
或者通过../bin/hadoop dfsadmin -report命令查看datanode的状态。
副本数为:2,当Under replicated blocks是越来越低,等于0时,应该就会完全摘除。
另外,因为同一个rack的datanode节点一般会有一个副本,因此,可以通过修改副本数的方式,快速下线datanode
#查看集群状态
./bin/hadoop fsck / -blocks -locations -files
#修改副本数(当Blocks with no live replicas为0时可以操作)
./bin/hadoop fs -setrep -R 1 /
#关闭datanode节点,
./sbin/hadoop-daemon.sh stop datanode
#从slaves列表和rack列表中删掉对应节点
#freshnode或者依次重启namenode
./bin/hdfs dfsadmin -refreshNodes
./bin/yarn rmadmin -refreshNodes
5.摘除hdfs的datanode节点
Failed to add xxxxxxxx
:
50010
: You cannot have a rack and a non-rack node at the same level of the network topology.
解决:
通过 ./bin/hdfs dfsadmin -printTopology查看rack list
刷新
./bin/hdfs dfsadmin -refreshNodes
./bin/yarn rmadmin -refreshNodes
不管用,
(1)页面依然显示状态为dead的datanode,
(2)依然报You cannot have a rack and a non-rack node at the same level of the network topology.
依次重启namenode,生效
./sbin/hadoop-daemon.sh stop namenode
./sbin/hadoop-daemon.sh start namenode
通过
./bin/hdfs dfsadmin -printTopology
查看rack信息,应该被摘掉的节点也不再显示
转载于:https://www.cnblogs.com/wyett/p/8146044.html
hadoop集群运维碰到的问题汇总相关推荐
- 集群运维:All datanodes DatanodeInfoWithStorage[10.21.131.179:50010,DS-6fca3fba-7b13-4855-b483-342df8432e
规划出一个集群日常维护系列,分享各种奇葩案例,集群运维事故,欢迎大家交流投稿.集群的运维故障排查是一个任重而道远的事情. 1.集群故障现象 Error: java.lang.RuntimeExcept ...
- etcd 集群运维实践
[编者的话]etcd 是 Kubernetes 集群的数据核心,最严重的情况是,当 etcd 出问题彻底无法恢复的时候,解决问题的办法可能只有重新搭建一个环境.因此围绕 etcd 相关的运维知识就比较 ...
- Kafka的灵魂伴侣Logi-KafkaManger(4)之运维管控–集群运维(数据迁移和集群在线升级)
推荐一款非常好用的kafka管理平台,kafka的灵魂伴侣 滴滴开源Logi-KafkaManager 一站式Kafka监控与管控平台 技术交流 有想进滴滴LogI开源用户群的加我个人微信: jjdl ...
- 阿里巴巴大规模神龙裸金属 Kubernetes 集群运维实践
戳蓝字"CSDN云计算"关注我们哦! 导读:值得阿里巴巴技术人骄傲的是 2019 年阿里巴巴 双11 核心系统 100% 以云原生的方式上云,完美支撑了 54.4w 峰值流量以及 ...
- 管理大规模容器集群能力包括_阿里巴巴大规模神龙裸金属 Kubernetes 集群运维实践...
导读:值得阿里巴巴技术人骄傲的是 2019 年阿里巴巴 双11 核心系统 100% 以云原生的方式上云,完美支撑了 54.4w 峰值流量以及 2684 亿的成交量.背后承载海量交易的计算力就是来源于容 ...
- 第二课 ceph基础学习-OSD扩容换盘和集群运维
第二课 ceph基础学习-OSD扩容换盘和集群运维 文章目录 第二课 ceph基础学习-OSD扩容换盘和集群运维 第一节 OSD扩容 1.1 扩容背景 1.2 横向扩容 1.3 纵向扩容 1.4 数据 ...
- 阿里云注册集群+Prometheus 解决多云容器集群运维痛点
作者:左知 容器集群可观测现状 随着 Kubernetes(K8s)容器编排工具已经成为事实上行业通用技术底座,容器集群监控经历多种方案实践后,Prometheus 最终成为容器集群监控的事实标准. ...
- 升腾威讯怎么恢复集群_PB级大规模Elasticsearch集群运维与调优实践
导语 | 腾讯云Elasticsearch 被广泛应用于日志实时分析.结构化数据分析.全文检索等场景中,本文将以情景植入的方式,向大家介绍与腾讯云客户合作过程中遇到的各种典型问题,以及相应的解决思路与 ...
- PB 级大规模 Elasticsearch 集群运维与调优实践
作者:bellen,腾讯云大数据研发工程师. 腾讯云 Elasticsearch 被广泛应用于日志实时分析.结构化数据分析.全文检索等场景中,本文将以情景植入的方式,向大家介绍与腾讯云客户合作过程中遇 ...
最新文章
- FragmentTabHost中子项Fragment加载题
- BZOJ4818 [SDOI2017] 序列计数 【矩阵快速幂】
- Effective C# 原则35:选择重写函数而不是使用事件句柄(译)
- python库路径_如何设置本地python库目录/ PYTHONPATH?
- 卡扇区数据教程_分享一款硬盘分区和数据恢复软件
- 程序员下班回家,路上被拦…
- 李彦宏:百度智能汽车预计2023年和大家见面
- Enterprise Library Step By Step系列(十六):使用AppSetting Application Block
- Linux系统安全防护加固
- mega软件 linux,Linux系统下使用MegaCli软件对磁盘阵列进行操作
- php fpm 关闭,php-fpm的启动、关闭、重启
- 长江存储推全新3D NAND架构 挑战三星存储
- iOS根据图片比例计算显示大小
- Python 大作业
- 双开助手多开分身版 v5.1.8
- 一个大牛的acm历程(看着就要颤抖
- [计算机基础]整理计算机的数据计量单位
- 年度矫情大剧-2017回忆文
- WordPress网站如何开启Gzip压缩快速传输
- 《“透视”个人大数据》项目开发小记 --(二)网络服务端,邮箱验证和手机验证(C#,Java)