Hadoop运维记录系列(十)
昨天同事遇到一个hadoop故障,找了半天没看出问题,问到我这里,花了一会解决了一下,估计这是我给暴风的集群解决的最后的故障了,以后就不定给谁解决问题去了。
只截下来了Namenode的报错Log,Datanode的刷屏刷过去了,不过都差不多。
2013-09-03 18:11:44,021 WARN org.apache.hadoop.hdfs.StateChange: BLOCK* NameSystem.blockReceived: blk_8094241928859719036_2147969 is received from dead or unregistered node 192.168.1.99:50010 2013-09-03 18:11:44,022 ERROR org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hdfs cause:java.io.IOException: Got blockReceived message from unregistered or dead node blk_8094241928859719036_2147969 2013-09-03 18:11:44,022 INFO org.apache.hadoop.ipc.Server: IPC Server handler 2 on 9000, call blockReceived(DatanodeRegistration(192.168.1.99:50010, storageID=DS-1925877777-192.168.1.99-50010-1372745739682, infoPort=50075, ipcPort=50020), [Lorg.apache.hadoop.hdfs.protocol.Block;@4ec371c, [Ljava.lang.String;@301611ca) from 192.168.1.99:18853: error: java.io.IOException: Got blockReceived message from unregistered or dead node blk_8094241928859719036_2147969 java.io.IOException: Got blockReceived message from unregistered or dead node blk_8094241928859719036_2147969at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.blockReceived(FSNamesystem.java:4188)at org.apache.hadoop.hdfs.server.namenode.NameNode.blockReceived(NameNode.java:1069)at sun.reflect.GeneratedMethodAccessor13.invoke(Unknown Source)at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)at java.lang.reflect.Method.invoke(Unknown Source)at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:578)at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1393)at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1389)at java.security.AccessController.doPrivileged(Native Method)at javax.security.auth.Subject.doAs(Unknown Source)at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1149)at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1387)
看上去是个IPC的错误,从下往上看,都是报权限错误,然后无法注册Datanode,还有从未注册或死亡的Datanode上报了一个块已被接收的错误。同事就晕了,已经死亡的node怎么还上报啊。
然后重启datanode时间不长,就又挂掉了。
登录到datanode,先看了一下dfs的数据文件夹的权限,正确无误。然后看了一下df -h,发现/var文件夹满了,OPS很缺,只给分了20G的/var。结果Hadoop的log写不进去了,自然就挂了。删掉/var/log/hadoop/hdfs里面的历史日志,datanode启动正常。以后的解决办法只有两个,要么设置定时脚本每天删历史日志,要么就把/var/log/hadoop/hdfs文件夹软链到一个比较大的硬盘上。
马上要离开暴风影音了,心中有诸多槽点,以后慢慢吐了。
Hadoop运维记录系列(十)相关推荐
- Hadoop运维记录系列(十二)
从公司离职有几天了,今天回去看同事,想一起吃饭,没成想摊上大事了.说下午hadoop集群的机房停电了,然后集群就启动不了了,几个人从下午4点多折腾到8点多还没搞定,有几台服务器找不到硬盘,还有内网pi ...
- Hadoop运维记录系列(十四)
周末去了趟外地,受托给某省移动公司(经确认更正,是中国移动位置基地,不是省公司)做了一下Hadoop集群故障分析和性能调优,把一些问题点记录下来. 该系统用于运营商的信令数据,大约每天1T多数据量,2 ...
- Hadoop运维记录系列(十六)
应了一个国内某电信运营商集群恢复的事,集群故障很严重,做了HA的集群Namenode挂掉了.具体过程不详,但是从受害者的只言片语中大概回顾一下历史的片段. Active的namenode元数据硬盘满了 ...
- Hadoop运维记录系列(二十二)
今天下午写了一会代码,然后帮同事解决了一个hbase相关的故障分析,定位了问题根源,觉得比较有代表性,记录一下. 先说一下问题的发生与背景. 这个故障其实是分为两个故障的,第一个比较简单,第二个相对复 ...
- Hadoop运维记录系列(三)
Hive 0.10发布了,修正了一些bug,搞了一些新特性,对提高工作效率很有帮助,于是尝试升级了一下,然后遇到了一些问题,记录一下. 主要是看上了下面几个feature,打算换上看看. 1. All ...
- Hadoop运维记录系列(十七)
上个月通过email,帮朋友的朋友解决了一个Cloudera的Spark-SQL无法访问HBase做数据分析的问题,记录一下. 首先,对方已经做好了Hive访问HBase,所以spark-sql原则上 ...
- openstack运维实战系列(十)之nova指定compute节点和IP地址
1. 背景需求 在openstack中,nova负责openstack虚拟机的生命周期的管理,neutron则负责虚拟机的网络管理工作,默认情况下,创建一台虚拟机,nova会根据nova-schedu ...
- 大数据运维工作(Linux,OGG,链路监控,Hadoop运维等)
大数据运维工程师工作内容 Linux运维手册 1. 启动/关闭集群组件 1.1 负载均衡 1)Nginx 运维命令 Copy to clipboard cd /usr/nginx/sbin #进入 s ...
- 运维少年系列 python and cisco (1)
运维少年系列 python and cisco (1) 预备知识 本系列文章需要各位具有CCNA/HCNA基础知识(知道命令怎么敲) python 本系列文章需要使用到的python版本为2.7,模块 ...
最新文章
- golang log4go 使用说明及丢失日志原因
- 2017年6月份学习总结,读书《5个高效工作习惯,让你跟「瞎忙」划清界限》
- 加工费采购订单批准后禁止更改订单数量
- Waymo 2020 | 2D/3D目标检测、跟踪和域自适应性冠军解决方案解析
- AngularJS的学习笔记(一)
- element实现动态路由+面包屑
- 新来的前端小姐姐问:Vue路由history模式刷新页面出现404问题
- 常用正则表达式知识点解读及判读有效数字、手机号邮箱正则表达式
- 三目运算符的空指针问题
- 这个世界最贵的奢侈品永远是事业
- 数学建模——蒙特卡罗算法(Monte Carlo Method)
- 鼠标滑轮成了页面缩放的解决方法
- 《老爸老妈浪漫史》Barney和Robin终于。。。
- android 加载第三方so文件,Uni-app 以Module方式开发Android插件,引入第三方资源包so文件,但无法读取...
- OC block的回环引用
- java如何读取ic卡_java读取IC卡设备
- Matlab从细胞型转换为矩阵From cell to matrix
- 神经网络与傅立叶变换到底有没有关系?
- 在使用开源IOT平台Thingsboard时,遇到的编译问题一initial exceeded maximum budget
- iOS应用安全读书笔记之Safari书签