hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out
程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。
修改办法:
修改2个文件。
/etc/security/limits.conf
vi /etc/security/limits.conf
加上:
* soft nofile 102400
* hard nofile 409600
$cd /etc/pam.d/
$sudo vi login
添加 session required /lib/security/pam_limits.so
针对第一个问题我纠正下答案:
这是reduce预处理阶段shuffle时获取已完成的map的输出失败次数超过上限造成的,上限默认为5。引起此问题的方式可能会有很多种,比如网络连接不正常,连接超时,带宽较差以及端口阻塞等。。。通常框架内网络情况较好是不会出现此错误的。
2:Too many fetch-failures
Answer:
出现这个问题主要是结点间的连通不够全面。
1) 检查 、/etc/hosts
要求本机ip 对应 服务器名
要求要包含所有的服务器ip + 服务器名
2) 检查 .ssh/authorized_keys
要求包含所有服务器(包括其自身)的public key
3:处理速度特别的慢 出现map很快 但是reduce很慢 而且反复出现 reduce=0%
Answer:
结合第二点,然后
修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000
4:能够启动datanode,但无法访问,也无法结束的错误
在重新格式化一个新的分布式文件时,需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除,同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData,在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时,每个存储的名字空间都对应了建立时间的那个版本(可以查看/home/hadoop /NameData/current目录下的VERSION文件,上面记录了版本信息),在重新格式化新的分布式系统文件时,最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。
注意:删除是个很危险的动作,不能确认的情况下不能删除!!做好删除的文件等通通备份!!
5:java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log
出现这种情况大多是结点断了,没有连接上。
6:java.lang.OutOfMemoryError: Java heap space
出现这种异常,明显是jvm内存不够得原因,要修改所有的datanode的jvm内存大小。
Java -Xms1024m -Xmx4096m
一般jvm的最大内存使用应该为总内存大小的一半,我们使用的8G内存,所以设置为4096m,这一值可能依旧不是最优的值。
转载于:https://www.cnblogs.com/mfryf/archive/2013/06/07/3125127.html
hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out相关推荐
- YARN执行作业报错Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out.
执行了一个简单的官方提供的作业: iie4bu@swarm-worker1:~/app/hadoop-2.6.0-cdh5.15.1/share/hadoop/mapreduce$ hadoop ja ...
- 解决 Hadoop 启动 ERROR: Attempting to operate on hdfs namenode as root 的方法
解决 Hadoop 启动 ERROR: Attempting to operate on hdfs namenode as root 的方法 1.问题 hadoop-3.1.0启动hadoop集群时会 ...
- 【大数据哔哔集20210108】Spark Shuffle 和 Hadoop Shuffle有什么异同?
Shuffle的本意是洗牌.混洗的意思,把一组有规则的数据尽量打乱成无规则的数据.而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则"打乱& ...
- YARN 任务执行报错:Caused by: java.io.IOException: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out
使用YARN运行一个wordcount时报错: 20/03/25 00:10:45 INFO mapreduce.Job: Task Id : attempt_1585065643305_0001_r ...
- hadoop: Shuffle过程详解 (转载)
原文地址:http://langyu.iteye.com/blog/992916 另一篇博文:http://www.cnblogs.com/gwgyk/p/3997849.html Shuffle过程 ...
- hadoop shuffle 学习
hadoop的核心就是shuffle,最好的学习方式就是看源代码 但是编译hadoop的源代码成本太大,而且由于maven中的有些资源被天草屏蔽的关系,不推荐. 建立一个项目,引用最简单的wordco ...
- python部署到hadoop上_python实现mapreduce(2)——在hadoop中执行
目的:将python实现mapreduce(1)中的python脚本部署到hadoop上,实现mapreduce. 1. 修改脚本执行权限 [tianyc@TeletekHbase ~]$ which ...
- 一步步教你Hadoop多节点集群安装配置
一步步教你Hadoop多节点集群安装配置 1.集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.以Hadoop分布式文件系统HDFS(Hado ...
- Hadoop使用常见问题以及解决方法
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer: 程序里面需要打开多个文件,进行分析,系统一般默认数量是 ...
最新文章
- C 语言中 void* 详解及应用介绍
- YYCache 源码分析(一)
- 【转】常用数据结构及复杂度
- 每次都能遇到的莫名其妙问题,谨记,速查手册
- BASH Shell 简易进度条小函数
- sql 中N'的作用
- Flutter进阶—质感设计之表单输入
- 第 45 届国际大学生程序设计竞赛(ICPC)亚洲区域赛(上海),签到题G	Fibonacci
- 读取SD卡文件夹下的MP3文件和播放MP3文件
- java - 操作系统 Linux
- 全面解析特斯拉自动驾驶体系
- 漫画解读软件开发模式
- 你的才艺怎样变现?--Rarible平台
- 在线数据图表制作-FineReport文本控件
- 并发编程中你需要知道的基础概念
- ROS的四种通信架构
- Java汉语转拼音首字母并大写利用Pinyin4j(多音字识别)(中午括号识别)
- postgresql数据库操作
- 瀑布流代码PHP,JS代码实现瀑布流插件
- yeezy350灰橙_yeezy新灰橙会氧化吗 椰子350新灰橙氧化怎么办
热门文章
- leetcode 好的博客汇总
- leetcode —— 面试题60. n个骰子的点数
- leetcode —— 17. 电话号码的字母组合
- python编程高手之路——函数调用
- SQL避免IN 和 NOT IN
- simulink 快捷键 运行_【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证...
- python timer 死掉_Python定时事件 Timer sched
- ha linux 设置虚拟ip_如何在虚拟机中设置CentOS静态IP?
- wxpython textctrl_wxPython TextCtrl类
- linux系统下集群共享磁盘sdb分区,Linux下的两种磁盘分区工具的使用