Hadoop平台作业参数设置关于mapreduce.job.split.metainfo.maxsize的说明
Hadoop平台作业参数设置关于mapreduce.job.split.metainfo.maxsize的说明
1、MR程序时执行时报错:
YarnRuntimeException: java.io.IOException:Split metadata size exceeded 10000000.
2、原因分析:
输入文件包括大量小文件或者文件目录,造成Splitmetainfo文件超过默认上限。
3、解决办法:
在mapred-site.xml配置文件中:
修改默认作业参数mapreduce.jobtracker.split.metainfo.maxsize =100000000
或者mapreduce.jobtracker.split.metainfo.maxsize = -1 (默认值是1000000)
<property>
<name>mapreduce.job.split.metainfo.maxsize</name>
<value>10000000</value>
</property>
4、深入分析:
job.splitmetainfo该文件记录split的元数据信息,如input文件过多,记录的文件结构信息超出默认设置就会报错;
这个机制也是Hadoop集群要求文件大小不能过小或目录过多,避免namenode出现元数据加载处理瓶颈,这种业务一般会出现在存储图片上。
如block默认128M,则文件应大于这个,尽量合并小文件。
5、源码分析:
org.apache.hadoop.mapreduce.split.JobSplit
可以看出splitmetainfo存储的文件结构信息内容:
@Override
public String toString() {
StringBuffer buf = new StringBuffer();
buf.append("data-size : " + inputDataLength + "\n");
buf.append("start-offset : " + startOffset + "\n");
buf.append("locations : " + "\n");
for (String loc : locations) {
buf.append(" " + loc + "\n");
}
return buf.toString();
}
}
Hadoop平台作业参数设置关于mapreduce.job.split.metainfo.maxsize的说明相关推荐
- Hadoop精华问答 | 如何设置单个任务占用的内存量和CPU数目?
我们很荣幸能够见证Hadoop十年从无到有,再到称王.感动于技术的日新月异时,让我们再来看看关于Hadoop的精华问答. 1 Q:默认情况下,各个节点的负载不均衡(任务数目不同),有的节点很多任务在跑 ...
- Appium中Desired Capabilities参数设置
参考: Appium(五):Desired Capabilities Appium Desired Capabilities 1. 平台通用参数设置 Desired Capabilities简单来说就 ...
- Hadoop MapReduce Job 相关参数设置 概念介绍与理解
Hadoop MapReduce Job 相关参数设置 概念介绍与理解 InputFormat: 作用:将输入的文件分成 一个个split,并且将split 拆分成一个个<key,value& ...
- Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解
Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解 在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下: 输入:参数0--存储样本数据的文本文件inpu ...
- python hadoop streaming_Hadoop Streaming 使用及参数设置
1. MapReduce 与 HDFS 简介 什么是 Hadoop ? Google 为自己的业务需要提出了编程模型 MapReduce 和分布式文件系统 Google File System,并发布 ...
- 2021年大数据Hadoop(二十九):关于YARN常用参数设置
全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 关于yarn常用参数设置 设置container分配最小内 ...
- Hadoop streaming 排序、分桶参数设置
编写hadoop任务经常需要用到partition和排序.这里记录一下几个参数. 1. 概念 Partition:分桶过程,用户输出的key经过partition分发到不同的reduce里,因而par ...
- DolphiScheduler平台上运行spark程序时,外部参数设置
DolphiScheduler平台上运行spark程序时,外部参数设置 近期使用DS平台执行spark程序,遇到了部分参数设置的问题,代码中需要外部传入一个参数procDate(处理日期),具体设置如 ...
- 在win7上的eclipse向hadoop提交作业异常-权限/设置调度器
第一个问题,在win7上的eclipse向hadoop提交作业时,没有权限,异常信息如下: Java代码 Caused by: org.apache.hadoop.ipc.RemoteExcept ...
最新文章
- php vs lua,解析LUA与PHP在WEB应用的性能对比
- 【增强】FI行项目报表增强任意字段
- 使用CURL调用接口[*示例*]
- c++ 二分查找的函数 lower_bound upper_bound binary_search
- 基类数组存放派生类_永远不要将派生类数组赋值给基类类型指针
- TigerGraph持续产品创新,发布最新的“全民图”版本
- 计算机上课创意互动游戏初中,16个课前热身小游戏:让每一堂课都充满新鲜感...
- Apache默认端口80被占用无法启动服务问题
- python3什么意思_python3是什么意思啊
- SpringBoot中.properties文件中配置项显示到页面中文乱码解决
- MSSQL中Case语句的用法
- 【带权二分】bzoj2654 tree
- OpenCV-车牌号检测
- 移动创业者,这么多免费资源,你不要?
- Hexo在博客中插入图片
- ipv4-only网络环境下访问ipv6站点的三种方式
- 洛谷 P2888 [USACO07NOV] 牛栏Cow Hurdles
- html删除图片效果,html+css实现图片右上角加删除叉、图片删除按钮
- BUUCTF:秘密文件
- 设置response相应头用于浏览器下载文件
热门文章
- Java高并发编程(一):并发编程的挑战
- MySQL实战面试题_Mysql实战面试题
- c++求矩阵的秩_一篇文章搞定矩阵相关概念及意义通俗解释汇总
- QT-QT简介,QT环境与工具链(day1)
- Git 撤销中间某次的提交记录
- Python3基础-分数运算
- Linear Algebra lecture6 note
- Wince 隐藏TASKBAR的方法
- python find函数 和index的区别_【全网最简单Python教程】--10.列表元素的索引和返回索引值(Index函数使用)...
- ARTS打卡计划第三周-Tips