项目场景:

hadoop集群搭建,主节点hadoop01无法启动datanode


要注意的是:它们同时也都是DataNode节点。


问题描述:

执行查看出错日志:

cd /home/hadoop/apps/hadoop-2.7.7/logs/

因为日志内容是追加的,我们查看后100行就好:

tail -100 hadoop-hadoop-datanode-hadoop01.log

[hadoop@hadoop01 logs]$ tail -100 hadoop-hadoop-datanode-hadoop01.log

2020-09-09 09:21:22,113 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool (Datanode Uuid unassigned) service to hadoop01/127.0.0.1:9000 starting to offer service
2020-09-09 09:21:22,136 INFO org.apache.hadoop.ipc.Server: IPC Server Responder: starting
2020-09-09 09:21:22,139 INFO org.apache.hadoop.ipc.Server: IPC Server listener on 50020: starting
2020-09-09 09:21:23,067 INFO org.apache.hadoop.hdfs.server.common.Storage: Using 1 threads to upgrade data directories (dfs.datanode.parallel.volumes.load.threads.num=1, dataDirs=1)
2020-09-09 09:21:23,097 INFO org.apache.hadoop.hdfs.server.common.Storage: Lock on /home/hadoop/data/hadoopdata/data/in_use.lock acquired by nodename 3028@localhost
2020-09-09 09:21:23,099 WARN org.apache.hadoop.hdfs.server.common.Storage: Failed to add storage directory [DISK]file:/home/hadoop/data/hadoopdata/data/
java.io.IOException: Incompatible clusterIDs in /home/hadoop/data/hadoopdata/data: namenode clusterID = CID-0f9e986e-1234-4742-92bd-e19d053ed284; datanode clusterID = CID-905fd4fb-483b-4c42-9763-f016e8b55fb0
at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:777)
at org.apache.hadoop.hdfs.server.datanode.DataStorage.loadStorageDirectory(DataStorage.java:300)
at org.apache.hadoop.hdfs.server.datanode.DataStorage.loadDataStorage(DataStorage.java:416)
at org.apache.hadoop.hdfs.server.datanode.DataStorage.addStorageLocations(DataStorage.java:395)
at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:573)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:1393)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:1358)
at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:313)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:216)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:637)
at java.lang.Thread.run(Thread.java:745)
2020-09-09 09:21:23,112 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool (Datanode Uuid unassigned) service to hadoop01/127.0.0.1:9000. Exiting.
java.io.IOException: All specified directories are failed to load.
at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:574)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:1393)
at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:1358)
at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:313)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:216)
at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:637)
at java.lang.Thread.run(Thread.java:745)
2020-09-09 09:21:23,112 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Ending block pool service for: Block pool (Datanode Uuid unassigned) service to hadoop01/127.0.0.1:9000
2020-09-09 09:21:23,114 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Removed Block pool (Datanode Uuid unassigned)
2020-09-09 09:21:25,114 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Exiting Datanode
2020-09-09 09:21:25,118 INFO org.apache.hadoop.util.ExitUtil: Exiting with status 0
2020-09-09 09:21:25,123 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down DataNode at localhost/127.0.0.1
************************************************************/


原因分析:

namenode与datanode的clusterID在重新格式化namenode以后已经不再匹配,datanode无法启动。

另外:
此错误会导致在hive导入数据时发生如下错误(由于metadata不存在hdfs中,故create table并无报错):
hive> load data local inpath ‘/root/dbfile’ overwrite into table employees PARTITION (country=‘US’, state=‘IL’);
Loading data to table default.employees partition (country=US, state=IL)
Failed with exception Unable to move source file:/root/dbfile to destination hdfs://localhost:9000/user/hive/warehouse/employees/country=US/state=IL/dbfile
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTas

参考来源:hdfs datanode 启动失败


解决方案:

1, 停止hadoop
先停止hadoop(条件允许的话,在所有节点同时执行):

stop-all.sh

如果是想在单个节点依次停止,可以执行如:
stop-dfs.sh(所有节点都要执行)
stop-yarn.sh(在ResourceManager节点执行)

2,删除存储数据
将hdfs存储数据的所在目录删掉:


在主节点删除data目录,(如果条件允许,在所有节点都执行也行),重新格式化以后,data目录会自动生成的。

rm -rf data

3, 重新格式化hdfs(相关参数:dfs.name.dir dfs.data.dir):
一般千万不能再格式化,就像实际的硬盘格式化一样,之前的所有数据基本都会被删除
先在主节点hadoop01上执行格式化:

hadoop namenode -format

4, 重新启动hadoop

在主节点上NameNode (hadoop01)执行:

start-dfs.sh


然后在ResourceManager (hadoop03)节点执行:

start-yarn.sh

5,查看所有节点集群是否成功:

jps


注意:它们同时也DataNode节点。
到此,DataNode重启成功。


hadoop启动后某些节点未启动,hadoop主节点无法启动datanode DataNode相关推荐

  1. hp计算机开机提示硬盘,找不到启动设备错误或未检测到硬盘的启动报错

    ​ "找不到启动设备"错误或"未检测到硬盘"的启动报错 可以将 BIOS 配置为指定电脑访问可用的可启动硬件设备的顺序. 最常见的可启动设备是: 内置硬件驱动器 ...

  2. 本地计算机上的用友通服务启动后又停止了,用友通服务启动后又停止了?

    问题现象:右击桌面"我的电脑"图标 - 依次点击"管理"- "服务和应用程序"-"服务"- 启动"用友通服务& ...

  3. sq服务启动后又停止_SQL SERVER SQL Agent  服务启动后又停止的解决办法

    查看事件查看器.应用程序日志.报错的显示. 无法加载 DLL xplog70.dll 或它引用的一个 DLL.原因: 126(找不到指定的模块.). 安全起见,我更名了sqlserver bin下的x ...

  4. EasyDSS启动后443端口未被占用,访问不了https网页是什么原因?

    我们在此前的文章中和大家分享过关于EasyDSS出现服务无法启动情况的解决办法,感兴趣的用户可以翻阅我们往期的文章进行了解.EasyDSS视频直播点播平台支持Flash.H5播放,可兼容多操作系统,搭 ...

  5. websphere 启动出错 检查节点 上服务器的日志_启动Redis Sentinel哨兵

    仅作为Shane个人笔记 上一篇文章Shane记录了自己用TP6操作Redis集群的过程 一篇Shane准备记录启动Redis哨兵 复制配置文件 cd /etc 会在etc下看到redis-senti ...

  6. linux程序启动后查不到进程,Linux应用程序 启动流程

    工作了这么久, 现在也终于有时间来写写这几年在程序世界中的感受.一时之间并不知道从哪里开始.想来想去,还是从大学入学开始吧.记得那是一个风和日丽的下午,一堆大学生抱着书跑进教室,那个时候并没有那么多逃 ...

  7. U启动后计算机能看到原系统文件吗,u启动一键急救系统使用

    腾讯视频/爱奇艺/优酷/外卖 充值4折起 提问一:什么是u启动一键急救系统? 回答一:一键急救系统是u启动的又一新生产品,所谓一键,就是很方便很快捷.急救系统,就是当您的系统崩溃或者其他原因导致无法启 ...

  8. 我遇到的在VS2019中使用Android设备管理器创建模拟器点击启动后提示 系统映像不完整,无法启动 问题的解决办法

    我在按照文档使用 Android Device Manager 管理虚拟设备 - Xamarin | Microsoft Docs创建了一个模拟器,然后点击启动的时候一直提示 "系统映像不完 ...

  9. 启动HBase抛出org.apache.hadoop.hbase.ClockOutOfSyncException异常:hmaster正常,节点hregionserver启动失败

    启动HBase抛出org.apache.hadoop.hbase.ClockOutOfSyncException异常 原因 节点间时间不一致,时间同步出了问题: 解决 进行时间同步: [root@cm ...

最新文章

  1. 探究rh6上mysql5.6的主从、半同步、GTID多线程、SSL认证主从复制
  2. 硬盘重装Ubuntu12.04的感受
  3. 推荐八款.Net优秀的开源CMS 内容管理系统
  4. 4G EPS 中的小区选择
  5. USTC English Club Note20171014(2)
  6. saltstack的安装(转载连接)
  7. python判断文件是否存在 中文_python如何判断文件是否存在
  8. java反射获取实现类_Java介绍通过反射获取类的信息
  9. busybox的编译和使用
  10. vs2013 使用vs调试器,发现调试器显示的数据错误。查看内存,发现内存是正确的。...
  11. Django model 设置数据库 字段 编码
  12. EasyRecovery15绿色版免安装数据恢复软件
  13. 微信公众号url接口配置,使微信公众号更多功能化(python简单解决)
  14. 谈谈古典的《拆掉思维里的墙》
  15. 和合信诺牵手招行私人银行,构建智能合规知识引擎
  16. 二叉查找树的平衡(DSW)
  17. javax.crypto.Cipher类--加密和解密
  18. Linux中EOF用法
  19. podman加速配置、harbor镜像仓库部署
  20. not attached to window manager问题解决

热门文章

  1. postgis转换简单geometry
  2. about hashCode again understand
  3. ICMP协议之tracert实现
  4. 计算机考试题 实操,计算机考试实操题.doc
  5. 解决 cannot connect to 192.168.1.136:5555: 由于目标计算机积极拒绝,无法连接。 (10061)
  6. 如何安装Java JDK
  7. 如何更改vmware的网络模式
  8. NeatUpload 网络上传大文件的web.config配置问题
  9. windows系统删除无用的服务
  10. LTR|怎么理解基于机器学习“四大支柱”划分的学习排序方法