Hadoop平台作业参数设置关于mapreduce.job.split.metainfo.maxsize的说明

1、MR程序时执行时报错:
   YarnRuntimeException: java.io.IOException:Split metadata size exceeded 10000000.

2、原因分析:
   输入文件包括大量小文件或者文件目录,造成Splitmetainfo文件超过默认上限。

3、解决办法:

在mapred-site.xml配置文件中:
   修改默认作业参数mapreduce.jobtracker.split.metainfo.maxsize =100000000 
   或者mapreduce.jobtracker.split.metainfo.maxsize = -1 (默认值是1000000)
   
  <property>
    <name>mapreduce.job.split.metainfo.maxsize</name>
    <value>10000000</value>
  </property>

4、深入分析:
   job.splitmetainfo该文件记录split的元数据信息,如input文件过多,记录的文件结构信息超出默认设置就会报错;
   这个机制也是Hadoop集群要求文件大小不能过小或目录过多,避免namenode出现元数据加载处理瓶颈,这种业务一般会出现在存储图片上。
   如block默认128M,则文件应大于这个,尽量合并小文件。

5、源码分析:
   org.apache.hadoop.mapreduce.split.JobSplit
   可以看出splitmetainfo存储的文件结构信息内容:
   @Override
    public String toString() {
      StringBuffer buf = new StringBuffer();
      buf.append("data-size : " + inputDataLength + "\n");
      buf.append("start-offset : " + startOffset + "\n");
      buf.append("locations : " + "\n");
      for (String loc : locations) {
        buf.append("  " + loc + "\n");
      }
      return buf.toString();
    }
  }

Hadoop平台作业参数设置关于mapreduce.job.split.metainfo.maxsize的说明相关推荐

  1. Hadoop精华问答 | 如何设置单个任务占用的内存量和CPU数目?

    我们很荣幸能够见证Hadoop十年从无到有,再到称王.感动于技术的日新月异时,让我们再来看看关于Hadoop的精华问答. 1 Q:默认情况下,各个节点的负载不均衡(任务数目不同),有的节点很多任务在跑 ...

  2. Appium中Desired Capabilities参数设置

    参考: Appium(五):Desired Capabilities Appium Desired Capabilities 1. 平台通用参数设置 Desired Capabilities简单来说就 ...

  3. Hadoop MapReduce Job 相关参数设置 概念介绍与理解

    Hadoop MapReduce  Job 相关参数设置 概念介绍与理解 InputFormat: 作用:将输入的文件分成 一个个split,并且将split 拆分成一个个<key,value& ...

  4. Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解

        Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解 在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下: 输入:参数0--存储样本数据的文本文件inpu ...

  5. python hadoop streaming_Hadoop Streaming 使用及参数设置

    1. MapReduce 与 HDFS 简介 什么是 Hadoop ? Google 为自己的业务需要提出了编程模型 MapReduce 和分布式文件系统 Google File System,并发布 ...

  6. 2021年大数据Hadoop(二十九):​​​​​​​关于YARN常用参数设置

    全网最详细的Hadoop文章系列,强烈建议收藏加关注! 后面更新文章都会列出历史文章目录,帮助大家回顾知识重点. 目录 本系列历史文章 前言 关于yarn常用参数设置 设置container分配最小内 ...

  7. Hadoop streaming 排序、分桶参数设置

    编写hadoop任务经常需要用到partition和排序.这里记录一下几个参数. 1. 概念 Partition:分桶过程,用户输出的key经过partition分发到不同的reduce里,因而par ...

  8. DolphiScheduler平台上运行spark程序时,外部参数设置

    DolphiScheduler平台上运行spark程序时,外部参数设置 近期使用DS平台执行spark程序,遇到了部分参数设置的问题,代码中需要外部传入一个参数procDate(处理日期),具体设置如 ...

  9. 在win7上的eclipse向hadoop提交作业异常-权限/设置调度器

    第一个问题,在win7上的eclipse向hadoop提交作业时,没有权限,异常信息如下: Java代码   Caused by: org.apache.hadoop.ipc.RemoteExcept ...

最新文章

  1. php vs lua,解析LUA与PHP在WEB应用的性能对比
  2. 【增强】FI行项目报表增强任意字段
  3. 使用CURL调用接口[*示例*]
  4. c++ 二分查找的函数 lower_bound upper_bound binary_search
  5. 基类数组存放派生类_永远不要将派生类数组赋值给基类类型指针
  6. TigerGraph持续产品创新,发布最新的“全民图”版本
  7. 计算机上课创意互动游戏初中,16个课前热身小游戏:让每一堂课都充满新鲜感...
  8. Apache默认端口80被占用无法启动服务问题
  9. python3什么意思_python3是什么意思啊
  10. SpringBoot中.properties文件中配置项显示到页面中文乱码解决
  11. MSSQL中Case语句的用法
  12. 【带权二分】bzoj2654 tree
  13. OpenCV-车牌号检测
  14. 移动创业者,这么多免费资源,你不要?
  15. Hexo在博客中插入图片
  16. ipv4-only网络环境下访问ipv6站点的三种方式
  17. 洛谷 P2888 [USACO07NOV] 牛栏Cow Hurdles
  18. html删除图片效果,html+css实现图片右上角加删除叉、图片删除按钮
  19. BUUCTF:秘密文件
  20. 设置response相应头用于浏览器下载文件

热门文章

  1. Java高并发编程(一):并发编程的挑战
  2. MySQL实战面试题_Mysql实战面试题
  3. c++求矩阵的秩_一篇文章搞定矩阵相关概念及意义通俗解释汇总
  4. QT-QT简介,QT环境与工具链(day1)
  5. Git 撤销中间某次的提交记录
  6. Python3基础-分数运算
  7. Linear Algebra lecture6 note
  8. Wince 隐藏TASKBAR的方法
  9. python find函数 和index的区别_【全网最简单Python教程】--10.列表元素的索引和返回索引值(Index函数使用)...
  10. ARTS打卡计划第三周-Tips