昨天同事遇到一个hadoop故障,找了半天没看出问题,问到我这里,花了一会解决了一下,估计这是我给暴风的集群解决的最后的故障了,以后就不定给谁解决问题去了。

只截下来了Namenode的报错Log,Datanode的刷屏刷过去了,不过都差不多。

2013-09-03 18:11:44,021 WARN org.apache.hadoop.hdfs.StateChange: BLOCK* NameSystem.blockReceived: blk_8094241928859719036_2147969 is received from dead or unregistered node 192.168.1.99:50010
2013-09-03 18:11:44,022 ERROR org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hdfs cause:java.io.IOException: Got blockReceived message from unregistered or dead node blk_8094241928859719036_2147969
2013-09-03 18:11:44,022 INFO org.apache.hadoop.ipc.Server: IPC Server handler 2 on 9000, call blockReceived(DatanodeRegistration(192.168.1.99:50010, storageID=DS-1925877777-192.168.1.99-50010-1372745739682, infoPort=50075, ipcPort=50020), [Lorg.apache.hadoop.hdfs.protocol.Block;@4ec371c, [Ljava.lang.String;@301611ca) from 192.168.1.99:18853: error: java.io.IOException: Got blockReceived message from unregistered or dead node blk_8094241928859719036_2147969
java.io.IOException: Got blockReceived message from unregistered or dead node blk_8094241928859719036_2147969at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.blockReceived(FSNamesystem.java:4188)at org.apache.hadoop.hdfs.server.namenode.NameNode.blockReceived(NameNode.java:1069)at sun.reflect.GeneratedMethodAccessor13.invoke(Unknown Source)at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)at java.lang.reflect.Method.invoke(Unknown Source)at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:578)at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1393)at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1389)at java.security.AccessController.doPrivileged(Native Method)at javax.security.auth.Subject.doAs(Unknown Source)at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1149)at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1387)

看上去是个IPC的错误,从下往上看,都是报权限错误,然后无法注册Datanode,还有从未注册或死亡的Datanode上报了一个块已被接收的错误。同事就晕了,已经死亡的node怎么还上报啊。

然后重启datanode时间不长,就又挂掉了。

登录到datanode,先看了一下dfs的数据文件夹的权限,正确无误。然后看了一下df -h,发现/var文件夹满了,OPS很缺,只给分了20G的/var。结果Hadoop的log写不进去了,自然就挂了。删掉/var/log/hadoop/hdfs里面的历史日志,datanode启动正常。以后的解决办法只有两个,要么设置定时脚本每天删历史日志,要么就把/var/log/hadoop/hdfs文件夹软链到一个比较大的硬盘上。

马上要离开暴风影音了,心中有诸多槽点,以后慢慢吐了。

Hadoop运维记录系列(十)相关推荐

  1. Hadoop运维记录系列(十二)

    从公司离职有几天了,今天回去看同事,想一起吃饭,没成想摊上大事了.说下午hadoop集群的机房停电了,然后集群就启动不了了,几个人从下午4点多折腾到8点多还没搞定,有几台服务器找不到硬盘,还有内网pi ...

  2. Hadoop运维记录系列(十四)

    周末去了趟外地,受托给某省移动公司(经确认更正,是中国移动位置基地,不是省公司)做了一下Hadoop集群故障分析和性能调优,把一些问题点记录下来. 该系统用于运营商的信令数据,大约每天1T多数据量,2 ...

  3. Hadoop运维记录系列(十六)

    应了一个国内某电信运营商集群恢复的事,集群故障很严重,做了HA的集群Namenode挂掉了.具体过程不详,但是从受害者的只言片语中大概回顾一下历史的片段. Active的namenode元数据硬盘满了 ...

  4. Hadoop运维记录系列(二十二)

    今天下午写了一会代码,然后帮同事解决了一个hbase相关的故障分析,定位了问题根源,觉得比较有代表性,记录一下. 先说一下问题的发生与背景. 这个故障其实是分为两个故障的,第一个比较简单,第二个相对复 ...

  5. Hadoop运维记录系列(三)

    Hive 0.10发布了,修正了一些bug,搞了一些新特性,对提高工作效率很有帮助,于是尝试升级了一下,然后遇到了一些问题,记录一下. 主要是看上了下面几个feature,打算换上看看. 1. All ...

  6. Hadoop运维记录系列(十七)

    上个月通过email,帮朋友的朋友解决了一个Cloudera的Spark-SQL无法访问HBase做数据分析的问题,记录一下. 首先,对方已经做好了Hive访问HBase,所以spark-sql原则上 ...

  7. openstack运维实战系列(十)之nova指定compute节点和IP地址

    1. 背景需求 在openstack中,nova负责openstack虚拟机的生命周期的管理,neutron则负责虚拟机的网络管理工作,默认情况下,创建一台虚拟机,nova会根据nova-schedu ...

  8. 大数据运维工作(Linux,OGG,链路监控,Hadoop运维等)

    大数据运维工程师工作内容 Linux运维手册 1. 启动/关闭集群组件 1.1 负载均衡 1)Nginx 运维命令 Copy to clipboard cd /usr/nginx/sbin #进入 s ...

  9. 运维少年系列 python and cisco (1)

    运维少年系列 python and cisco (1) 预备知识 本系列文章需要各位具有CCNA/HCNA基础知识(知道命令怎么敲) python 本系列文章需要使用到的python版本为2.7,模块 ...

最新文章

  1. golang log4go 使用说明及丢失日志原因
  2. 2017年6月份学习总结,读书《5个高效工作习惯,让你跟「瞎忙」划清界限》
  3. 加工费采购订单批准后禁止更改订单数量
  4. Waymo 2020 | 2D/3D目标检测、跟踪和域自适应性冠军解决方案解析
  5. AngularJS的学习笔记(一)
  6. element实现动态路由+面包屑
  7. 新来的前端小姐姐问:Vue路由history模式刷新页面出现404问题
  8. 常用正则表达式知识点解读及判读有效数字、手机号邮箱正则表达式
  9. 三目运算符的空指针问题
  10. 这个世界最贵的奢侈品永远是事业
  11. 数学建模——蒙特卡罗算法(Monte Carlo Method)
  12. 鼠标滑轮成了页面缩放的解决方法
  13. 《老爸老妈浪漫史》Barney和Robin终于。。。
  14. android 加载第三方so文件,Uni-app 以Module方式开发Android插件,引入第三方资源包so文件,但无法读取...
  15. OC block的回环引用
  16. java如何读取ic卡_java读取IC卡设备
  17. Matlab从细胞型转换为矩阵From cell to matrix
  18. 神经网络与傅立叶变换到底有没有关系?
  19. 在使用开源IOT平台Thingsboard时,遇到的编译问题一initial exceeded maximum budget
  20. iOS应用安全读书笔记之Safari书签

热门文章

  1. Css相对定位和绝对定位实现CSDN标题栏
  2. 新华三,定义服务器虚拟化市场新格局
  3. 全球移动SaaS市场规模5年将增170亿美元
  4. SQL 中的 AND OR
  5. malloc()参数为0的情况
  6. iOS开发UI 篇—CAlayer层的属性
  7. yum安装zlib出错
  8. Android App自适应draw9patch不失真背景
  9. PandaOCR中文版+使用教程
  10. P1091 合唱队形(LIS)