1. 今天遇到一个情况,就是alluxio不能正常访问,经过日志查看,发现下面错误。

2018-05-14 03:35:58,680 ERROR logger.type (HdfsUnderFileSystem.java:open) - 4 try to open hdfs://sandy-bridge/user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001 : Cannot obtain block length for LocatedBlock{BP-1941630157-10.16.13.73-1486732586674:blk_1322900685_252817168; getBlockSize()=254; corrupt=false; offset=0; locs=[10.16.13.189:1019, 10.16.13.84:1019, 10.16.13.128:1019]; storageIDs=[DS-30126b4d-afdf-449a-8de1-e479c1abf33d, DS-ed2e905e-fa43-4f51-801f-3305da180d2a, DS-0e1946c8-dccb-4143-8d74-c11d8d429d02]; storageTypes=[DISK, DISK, DISK]}
java.io.IOException: Cannot obtain block length for LocatedBlock{BP-1941630157-10.16.13.73-1486732586674:blk_1322900685_252817168; getBlockSize()=254; corrupt=false; offset=0; locs=[10.16.13.189:1019, 10.16.13.84:1019, 10.16.13.128:1019]; storageIDs=[DS-30126b4d-afdf-449a-8de1-e479c1abf33d, DS-ed2e905e-fa43-4f51-801f-3305da180d2a, DS-0e1946c8-dccb-4143-8d74-c11d8d429d02]; storageTypes=[DISK, DISK, DISK]}
at org.apache.hadoop.hdfs.DFSInputStream.readBlockLength(DFSInputStream.java:400)
at org.apache.hadoop.hdfs.DFSInputStream.fetchLocatedBlocksAndGetLastBlockLength(DFSInputStream.java:305)
at org.apache.hadoop.hdfs.DFSInputStream.openInfo(DFSInputStream.java:242)
at org.apache.hadoop.hdfs.DFSInputStream.<init>(DFSInputStream.java:235)
at org.apache.hadoop.hdfs.DFSClient.open(DFSClient.java:1487)
at org.apache.hadoop.hdfs.DistributedFileSystem$3.doCall(DistributedFileSystem.java:302)
at org.apache.hadoop.hdfs.DistributedFileSystem$3.doCall(DistributedFileSystem.java:298)
at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
at org.apache.hadoop.hdfs.DistributedFileSystem.open(DistributedFileSystem.java:298)
at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:766)
at alluxio.underfs.hdfs.HdfsUnderFileSystem.open(HdfsUnderFileSystem.java:387)
at alluxio.underfs.BaseUnderFileSystem.open(BaseUnderFileSystem.java:124)
at alluxio.master.journal.JournalReader.getNextInputStream(JournalReader.java:114)
at alluxio.master.journal.JournalTailer.processNextJournalLogFiles(JournalTailer.java:118)
at alluxio.master.AbstractMaster.start(AbstractMaster.java:140)
at alluxio.master.file.FileSystemMaster.start(FileSystemMaster.java:419)
at alluxio.master.DefaultAlluxioMaster.startMasters(DefaultAlluxioMaster.java:263)
at alluxio.master.FaultTolerantAlluxioMaster.start(FaultTolerantAlluxioMaster.java:91)
at alluxio.ServerUtils.run(ServerUtils.java:38)

2. 首先是怀疑文件log.00000000000000000001损坏,经过hfs fsck的检查,并没有发现corruption,但是Total size: 0,这是个问题。

[hdfs@hdfs-namenode hdfs]$ hdfs fsck /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001
Connecting to namenode via http://hdfs-namenode.eu-central-1.compute.internal:50070/fsck?ugi=hdfs&path=%2Fuser%2Falluxio%2Fjournal%2FFileSystemMaster%2Fcompleted%2Flog.00000000000000000001
FSCK started by hdfs (auth:KERBEROS_SSL) from /10.16.13.73 for path /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001 at Mon May 14 03:53:11 UTC 2018
Status: HEALTHY
Total size: 0 B (Total open files size: 254 B)
Total dirs: 0
Total files: 0
Total symlinks: 0 (Files currently being written: 1)
Total blocks (validated): 0 (Total open file blocks (not validated): 1)
Minimally replicated blocks: 0
Over-replicated blocks: 0
Under-replicated blocks: 0
Mis-replicated blocks: 0
Default replication factor: 3
Average block replication: 0.0
Corrupt blocks: 0
Missing replicas: 0
Number of data-nodes: 41
Number of racks: 1
FSCK ended at Mon May 14 03:53:11 UTC 2018 in 1 milliseconds
The filesystem under path '/user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001' is HEALTHY

3. 将这个问题件mv走,再启动alluxio HA master,启动成功。

[hdfs@hdfs-namenode hdfs]$ hdfs dfs -mv /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001 /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001.bak
[hdfs@hdfs-namenode hdfs]$ hdfs dfs -ls /user/alluxio/journal/FileSystemMaster/completed/
Found 2 items
-rw-r--r-- 3 alluxio alluxio 254 2018-01-29 09:32 /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001.bak
-rw-r--r-- 3 alluxio alluxio 397 2018-05-14 03:03 /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000002

4. 其中尝试过,将文件再mv回来,但是alluxio依然启动失败,还是最开始的错误。

5. 直接cat这个文件,发现也不能访问。

hdfs dfs -cat /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000001.bak
cat: Cannot obtain block length for LocatedBlock{BP-1941630157-10.16.13.73-1486732586674:blk_1322900685_252817168; getBlockSize()=254; corrupt=false; offset=0; locs=[DatanodeInfoWithStorage[10.16.13.189:1019,DS-30126b4d-afdf-449a-8de1-e479c1abf33d,DISK], DatanodeInfoWithStorage[10.16.13.128:1019,DS-0e1946c8-dccb-4143-8d74-c11d8d429d02,DISK], DatanodeInfoWithStorage[10.16.13.84:1019,DS-ed2e905e-fa43-4f51-801f-3305da180d2a,DISK]]}

6. 而正常的文件,输出如下:

[hdfs@hdfs-namenode hdfs]$ hdfs dfs -cat /user/alluxio/journal/FileSystemMaster/completed/log.00000000000000000002
NOT_PERSISTED(0,@ HPXhdatadownloadz_20180510130731077.zip"
NOT_PERSISTED(0,@ HPXhdatadownloadzdatadownload Z 6Perrier_%3F%3F_20180101_20180104_20180510130731077.zip"
NOT_PERSISTED(0,@ HPXhdatadownloadzdatadownload Z 6Perrier_%3F%3F_20180101_20180104_20180510130731077.zip"
NOT_PERSISTED(0,@ HPXhdatadownloadzdatadownload Z 6Perrier_%3F%3F_20180101_20180104_20180510130731077.zip"
NOT_PERSISTED(0,@ HPXhdatadownloadz datadownload Z 6Perrier_%3F%3F_20180101_20180104_20180510130731077.zip"

7. Alluxio master是启动成功了,但是丢了一部分数据。

这个问题,有时间,还要继续研究一下,看是否能将数据找回。

记一次Alluxio HA master启动失败相关推荐

  1. Alluxio HA 写入文件失败

    Alluxio HA环境,今天发生,用户无法写入文件的情况. 创建文件夹,是正常的.但是最后copyFromLocal 文件的时候,就没有任何反应.最后可以看到这个新建的文件.但是文件size是0. ...

  2. 记一次.Net Core程序启动失败的排查过程

    阅文时长 | 2分钟 字数统计 | 3212字符 主要内容 | 1.引言&背景 2.排查.NetCore启动失败详细过程 3.声明与参考资料 『记一次.Net Core程序启动失败的排查过程』 ...

  3. 记一次spring boot项目启动失败

    最近在macos下启动spring boot 项目的时候启动失败,报错信息如下: org.postgresql.util.PSQLException: 尝试连线已失败.at org.postgresq ...

  4. hbase的master启动失败 master running as process 9400. Stop it first.

    出错信息: 1,查看日志,发现日志文件里面并没有什么错误. 2,百度搜索发现,一些博主说的问题都是配置文件的问题,因为上一次启动都没出现错误,这一次一开机启动HBase的master就出现错误了. 3 ...

  5. 记一次rocketmq消费者DefaultMQPushConsumer启动失败

    本人运行的springboot项目是在windows环境下; springboot版本是1.3.0 使用的是gradle构建项目 由于springboot版本比较低,使用的原生rocketmq 添加依 ...

  6. 记一次Eclipse上tomcat启动失败的解决方案

    可按照以下的步骤,依次排查: 1.先在eclipse上的server里面移除tomcat,然后重新加上. 2.修改Tomcat的overview 3.最后一种解决方发: 删除并重新配置tomcat环境 ...

  7. Hbase启动失败,查询日志后报错信息是master.HMasterCommandLine Master exiting

    Hbase启动失败,查询日志后报错信息是master.HMasterCommandLine: Master exiting 首先要设置时区 sudo tzconfig,如果命令不存在请使用 dpkg- ...

  8. 记一次磁盘挂载导致mysql服务启动失败的问题

    问题背景: 服务器某个目录(/data目录)磁盘空间已满,并且该目录下有个子目录还是mysql的数据存储目录(/data/mysql):采用额外新增一块数据盘,并将该数据盘挂载到/data目录下的方式 ...

  9. 记一次hadoop namenode 启动失败问题及解决过程(启动几秒钟后又挂了)

    这是个小问题,但如果新手接触的话可能会花费一番时间才能解决,甚至会不知所措.在此重点记录的还是解决问题的方式. 问题描述 在自己虚拟机上新安装了hadoop.在做单节点启动测试时发现namenode启 ...

  10. 记一次帮同学搭建项目Tomcat启动失败,至少有一个JAR被扫描用于TLD但尚未包含TLD。

    文章目录 1.Tomcat报的错误 2.我是直接换个Tomcat就成功了,建议大家以后不要只安装一个Tomcat,有的问题是版本问题(本问题应该不是版本问题),比较复杂,如果以后遇到其他问题搞了半天是 ...

最新文章

  1. Android Studio 第五十一期 - 自定义RecycleView Gallery
  2. 《Got Git》学习笔记(一)
  3. Django 无法添加新字段,django.db.utils.OperationalError: (1050, Table app already exists)
  4. 利用Minhash和LSH寻找相似的集合
  5. 【洛谷 P2303】 [SDOi2012]Longge的问题 (欧拉函数)
  6. python print return_对python中return和print的一些理解
  7. ql的python学习之路-day3
  8. gamma软件linux安装图示,[转载]linux下安装GAMMA软件
  9. mysql删除用户密码_MySQL 创建用户、授权用户、撤销用户权限、更改用户密码、删除用户(实用技巧)...
  10. mysql awk_awk 实用实例参考
  11. 【渗透测试】Sunlogin-RCE(向日葵)
  12. Spring Boot 项目集成Windows域账户认证
  13. C++实现字符串去掉前后的空格
  14. 手游测试人才稀缺,兼容性问题突出
  15. 微信小程序之添加文章功能
  16. iOS 程序 main 函数之前发生了什么
  17. ASP.NETt运行原理和运行机制
  18. 【工具】一款在线字数统计工具,统计单个字词组出现的频率
  19. 查看git当前tag_git 切换到tag或branch分支
  20. cad添加自己线性_如何自定义CAD线型(特殊CAD线型)-百度经验

热门文章

  1. mqtt 变为乱码 接受16进制字节流_常见乱码问题分析和总结
  2. 深度剖析阿里巴巴对Apache Flink的优化与改进
  3. 面试官问我“Java中的锁有哪些?以及区别”,我跪了
  4. python并发编程方法_一文了解Python并发编程的工程实现方法
  5. java在数组里面添加_java – 如何在数组中间添加?
  6. css3中插入地图,CSS3 地图展开动画
  7. python-gui-pyqt5的使用方法-4--自定义信号的初识--多参数的使用
  8. java 运动_java web 运动前端
  9. cmd echo写入shell_为什么说Shell脚本就是最好的教程和笔记呢?
  10. MySQL 聚合函数以及 优先级