hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE

程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。
修改办法：
修改2个文件。
/etc/security/limits.conf
vi /etc/security/limits.conf
加上：
* soft nofile 102400
* hard nofile 409600

$cd /etc/pam.d/
$sudo vi login
添加 session required /lib/security/pam_limits.so

针对第一个问题我纠正下答案：
这是reduce预处理阶段shuffle时获取已完成的map的输出失败次数超过上限造成的，上限默认为5。引起此问题的方式可能会有很多种，比如网络连接不正常，连接超时，带宽较差以及端口阻塞等。。。通常框架内网络情况较好是不会出现此错误的。

2：Too many fetch-failures
Answer:
出现这个问题主要是结点间的连通不够全面。
1) 检查、/etc/hosts
要求本机ip 对应服务器名
要求要包含所有的服务器ip + 服务器名
2) 检查 .ssh/authorized_keys
要求包含所有服务器（包括其自身）的public key

3：处理速度特别的慢出现map很快但是reduce很慢而且反复出现 reduce=0%
Answer:
结合第二点，然后
修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000

4：能够启动datanode，但无法访问，也无法结束的错误
在重新格式化一个新的分布式文件时，需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除，同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData，在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时，每个存储的名字空间都对应了建立时间的那个版本（可以查看/home/hadoop /NameData/current目录下的VERSION文件，上面记录了版本信息），在重新格式化新的分布式系统文件时，最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。
注意：删除是个很危险的动作，不能确认的情况下不能删除！！做好删除的文件等通通备份！！

5：java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log
出现这种情况大多是结点断了，没有连接上。

6：java.lang.OutOfMemoryError: Java heap space
出现这种异常，明显是jvm内存不够得原因，要修改所有的datanode的jvm内存大小。
Java -Xms1024m -Xmx4096m
一般jvm的最大内存使用应该为总内存大小的一半，我们使用的8G内存，所以设置为4096m，这一值可能依旧不是最优的值。

转载于:https://www.cnblogs.com/mfryf/archive/2013/06/07/3125127.html

hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out相关推荐

YARN执行作业报错Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out.
执行了一个简单的官方提供的作业: iie4bu@swarm-worker1:~/app/hadoop-2.6.0-cdh5.15.1/share/hadoop/mapreduce$ hadoop ja ...
解决 Hadoop 启动 ERROR: Attempting to operate on hdfs namenode as root 的方法
解决 Hadoop 启动 ERROR: Attempting to operate on hdfs namenode as root 的方法 1.问题 hadoop-3.1.0启动hadoop集群时会 ...
【大数据哔哔集20210108】Spark Shuffle 和 Hadoop Shuffle有什么异同？
Shuffle的本意是洗牌.混洗的意思,把一组有规则的数据尽量打乱成无规则的数据.而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则"打乱& ...
YARN 任务执行报错：Caused by: java.io.IOException: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out
使用YARN运行一个wordcount时报错: 20/03/25 00:10:45 INFO mapreduce.Job: Task Id : attempt_1585065643305_0001_r ...
hadoop: Shuffle过程详解 (转载)
原文地址:http://langyu.iteye.com/blog/992916 另一篇博文:http://www.cnblogs.com/gwgyk/p/3997849.html Shuffle过程 ...
hadoop shuffle 学习
hadoop的核心就是shuffle,最好的学习方式就是看源代码但是编译hadoop的源代码成本太大,而且由于maven中的有些资源被天草屏蔽的关系,不推荐. 建立一个项目,引用最简单的wordco ...
python部署到hadoop上_python实现mapreduce（2）——在hadoop中执行
目的:将python实现mapreduce(1)中的python脚本部署到hadoop上,实现mapreduce. 1. 修改脚本执行权限 [tianyc@TeletekHbase ~]$ which ...
一步步教你Hadoop多节点集群安装配置
一步步教你Hadoop多节点集群安装配置 1.集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.以Hadoop分布式文件系统HDFS(Hado ...
Hadoop使用常见问题以及解决方法
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer: 程序里面需要打开多个文件,进行分析,系统一般默认数量是 ...

hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out相关推荐

最新文章

热门文章