1. 背景

在服务器断电重启后，重新启动HDFS, 访问http://bigdata001:9870不能访问，而http://bigdata002:9870和http://bigdata003:9870是可以访问的

之后查看bigdata001上的/opt/hadoop-3.3.1/logs/hadoop-root-namenode-bigdata001.log，查看具体的问题如下：

2021-11-12 07:31:34,852 INFO org.apache.hadoop.hdfs.server.namenode.RedundantEditLogInputStream: Fast-forwarding stream 'http://bigdata003:8480/getJournal?jid=nnha&segmentTxId=229381&storageInfo=-66%3A1932109354%3A1628776937801%3ACID-d8b16624-7370-4346-b0e4-a10ba44a8c26&inProgressOk=true' to transaction ID 130043
2021-11-12 07:31:34,977 WARN org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Encountered exception loading fsimage
java.io.IOException: There appears to be a gap in the edit log.  We expected txid 130043, but got txid 229381.at org.apache.hadoop.hdfs.server.namenode.MetaRecoveryContext.editLogLoaderPrompt(MetaRecoveryContext.java:95)at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadEditRecords(FSEditLogLoader.java:268)at org.apache.hadoop.hdfs.server.namenode.FSEditLogLoader.loadFSEdits(FSEditLogLoader.java:182)at org.apache.hadoop.hdfs.server.namenode.FSImage.loadEdits(FSImage.java:915)at org.apache.hadoop.hdfs.server.namenode.FSImage.loadFSImage(FSImage.java:762)at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:339)at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFSImage(FSNamesystem.java:1197)at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.loadFromDisk(FSNamesystem.java:779)at org.apache.hadoop.hdfs.server.namenode.NameNode.loadNamesystem(NameNode.java:677)at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:764)at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:1018)at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:991)at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1767)at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1832)
2021-11-12 07:31:34,983 INFO org.eclipse.jetty.server.handler.ContextHandler: Stopped o.e.j.w.WebAppContext@4397ad89{hdfs,/,null,STOPPED}{file:/opt/hadoop-3.3.1/share/hadoop/hdfs/webapps/hdfs}

2. 解决办法

将bigdata002的/opt/hadoop-3.3.1/journalnode/nnha/current上最新的edits文件，如：edits_0000000000000249666-0000000000000249667，用scp命令复制到bigdata001对应的目录下

[root@bigdata002 current]#
[root@bigdata002 current]# pwd
/opt/hadoop-3.3.1/journalnode/nnha/current
[root@bigdata002 current]#
[root@bigdata002 current]# ll -t | head
总用量 45388
-rw-r--r--  1 root root 1048576 11月 12 06:34 edits_inprogress_0000000000000249668
-rw-r--r--. 1 root root       8 11月 12 06:34 committed-txid
-rw-r--r--  1 root root      42 11月 12 06:34 edits_0000000000000249666-0000000000000249667
-rw-r--r--  1 root root       2 11月 12 06:32 last-writer-epoch
drwxr-xr-x. 2 root root       6 11月 12 06:32 paxos
-rw-r--r--  1 root root       2 11月 12 06:32 last-promised-epoch
-rw-r--r--  1 root root 1048576 11月 12 06:29 edits_0000000000000249665-0000000000000249665
-rw-r--r--  1 root root 1048576 11月 12 06:26 edits_0000000000000249664-0000000000000249664
-rw-r--r--  1 root root      42 11月 12 06:26 edits_0000000000000249662-0000000000000249663
[root@bigdata002 current]#
[root@bigdata002 current]# scp edits_0000000000000249666-0000000000000249667 root@bigdata001:/opt/hadoop-3.3.1/journalnode/nnha/current
edits_0000000000000249666-0000000000000249667                                                                                            100%   42    45.0KB/s   00:00
[root@bigdata002 current]#

然后在bigdata001上执行

[root@bigdata001 ~]#
[root@bigdata001 ~]# hdfs zkfc -formatZK
[root@bigdata001 ~]#

在bigdata001上执行以下命令

[root@bigdata001 bin]#
[root@bigdata001 bin]# pwd
/opt/hadoop-3.3.1/bin
[root@bigdata001 bin]#
[root@bigdata001 bin]# ./hadoop namenode -recover
[root@bigdata001 bin]#

后面的选项选择y，之后再选择c

最后用start-dfs.sh重启HDFS就可以了

Hadoop HDFS启动报异常：We expected txid 130043, but got txid 229381相关推荐

HDFS启动报错Expected to be able to read up until at least txid but unable to find any edit logs
现象 Hadoop集群出现了异常断电后,HDFS启动报错,报错信息截图如下, 解决 Hadoop NN中的元数据包括: fsimage:包含某个时间点的文件系统的完整状态 edit logs:包含在最 ...
ambari hdfs 启动报错_HDFS 运维常见问题处理
腾讯游戏CROS体系的DBA维护着多套互娱数据平台的核心HDFS集群,积累了不少维护经验. 1. 定期block全盘扫描,引起dn心跳超时而脱离集群 hdfs有一个目录扫描机制,默认6小时会全盘扫描一 ...
JAVA程序连接hadoop HDFS服务报无法连接。
2019独角兽企业重金招聘Python工程师标准>>> 在虚拟机部署hadoop的HDFS系统,在centos系统中敲各种操作命令,对文件读取.上传.删除等都没什么问题.但用JAVA ...
ambari hdfs 启动报错_Ambari 1.6 自动安装hadoop 2.2.0 在Ambari启动namenode时报错
展开全部 lib/ambari-agent/data/, ',587 - Modifying group nobody 2015-03-11 09;cache/:34:49;python2: Fals ...
Tomcat启动报异常:com.sun.org.apache.xerces.internal.util.URI$MalformedURIException: Path contains invalid
报错 com.sun.org.apache.xerces.internal.util.URI$MalformedURIException: Path contains invalid characte ...
Hadoop分布式启动报错ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
今天启动集群的时候报了一个错误,看一下 [root@hadloop2 hadoop-3.3.0]# sbin/start-dfs.sh Starting namenodes on [hadoop2] ...
Idea Tomcat启动报异常CannotLoadBeanClassException
一.现象展现 Idea配置占用了C磁盘的所有空间,删除Idea配置目录后,改为D磁盘存储Idea配置. 由于idea的Artifact(war explode包)在没有整个项目重新构建情况下没有执行热 ...
启动报异常：org.yaml.snakeyaml.parser.ParserException: while parsing a block mapping
目录异常信息异常原因解决结果异常信息 17:20:38.414 [main] ERROR o.s.b.SpringApplication - [reportFailure,870] - App ...
hadoop 报错 there appears to be a gap in the edit log. we expected txitd 1, but got txid 14444
hadoop 报错 there appears to be a gap in the edit log. we expected txitd 1, but got txid 14444 原因: na ...

Hadoop HDFS启动报异常：We expected txid 130043, but got txid 229381

目录

1. 背景

2. 解决办法

Hadoop HDFS启动报异常：We expected txid 130043, but got txid 229381相关推荐

最新文章

热门文章