之前遇到的问题是,整个集群的资源非常多,但是执行hive sql就是很慢,然后到yarn资源管理页面一看,发现整个任务只启动了一个container执行,集群资源完全没有利用起来。于是通过调整了以下相关参数,提高了任务执行的并发。调整参数后,任务从原来执行几个小时甚至直接卡死无法执行的下降到10分钟左右就执行完毕。

yarn.nodemanager.resource.memory-mb    65536   --设置nodemanager分配给yarn的可用内存
yarn.nodemanager.resource.cpu-vcores   40      --设置nodemanager分配给yarn的可用虚拟CPU
yarn.nodemanager.vmem-pmem-ratio       2.1     --虚拟内存比例
yarn.scheduler.maximum-allocation-mb   65536   --设置每个container可用最大内存
yarn.scheduler.minimum-allocation-mb   2048    --设置每个container可用最小内存
yarn.scheduler.maximum-allocation-vcores  2    --设置每个container可用最大虚拟CPU
yarn.scheduler.minimum-allocation-vcores=1     --设置每个container可用最小虚拟CPUmapreduce.map.memory.mb=2048     --设置每个map可用内存
mapreduce.reduce.memory.mb=4096  --设置每个reducer可用内存
mapreduce.map.cpu.vcores=4       --设置每个map使用虚拟CPU
mapreduce.reduce.cpu.vcores=2    --设置每个reducer使用虚拟CPUset hive.exec.reducers.bytes.per.reducer=1073741824
set mapred.job.reuse.jvm.num.tasks=40;
set hive.exec.parallel=true;
set hive.exec.parallel.thread.number=40;
set mapred.max.split.size=1073741824;
set mapred.min.split.size.per.node=1073741824;
set mapred.min.split.size.per.rack=1073741824;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
错误信息:
MAP capability required is more than the supported max container capability in the cluster. Killing the Job. mapResourceRequest: <memory:12288, vCores:8> maxContainerCapability:<memory:65536, vCores:2>
Job received Kill while in RUNNING state.
REDUCE capability required is more than the supported max container capability in the cluster. Killing the Job. reduceResourceRequest: <memory:24576, vCores:4> maxContainerCapability:<memory:65536, vCores:2>

Hive参数性能调优相关推荐

  1. 【JVM】JVM参数性能调优 -Xms -Xmx -Xmn -XX:NewRatio -XX:SurvivorRatio

    原文链接: http://unixboy.iteye.com/blog/174173/ 上图来自:https://blog.csdn.net/jakeswang/article/details/105 ...

  2. 【Hive】性能调优 - EXPLAIN

    Hive版本: hive-1.1.0-cdh5.14.2 用户提交HiveQL查询后,Hive会把查询语句转换为MapReduce作业.Hive会自动完成整个执行过程,一般情况下,我们并不用知道内部是 ...

  3. 【Hive】性能调优 - map-side JOIN

    Hive版本: hive-1.1.0-cdh5.14.2 概述 如果表关联时,有一张表很小,那么可以在大表通过mapper时将小表完全加载到内存中,Hive可以在map端完成关联过程,这就是所谓的ma ...

  4. 真正让你明白Hive参数调优系列1:控制map个数与性能调优参数

    本系列几章系统地介绍了开发中Hive常见的用户配置属性(有时称为参数,变量或选项),并说明了哪些版本引入了哪些属性,常见有哪些属性的使用,哪些属性可以进行Hive调优,以及如何使用的问题.以及日常Hi ...

  5. 【大数据开发】SparkSQL——Spark对接Hive、Row类、SparkSQL函数、UDF函数(用户自定义函数)、UDAF函数、性能调优、SparkSQL解决数据倾斜

    文章目录 一.Spark对接Hive准备工作 1.1 集群文件下载 1.2 导入依赖 1.3 打开集群metastore服务 二.Spark对接Hive 2.1 查询Hive 2.2 读取MySQL中 ...

  6. 大数据培训:Spark性能调优与参数配置

    Spark性能调优-基础篇 众所周知,正确的参数配置对提升Spark的使用效率具有极大助力,帮助相关数据开发.分析人员更高效地使用Spark进行离线批处理和SQL报表分析等作业. 推荐参数配置模板如下 ...

  7. 3万字史诗级 Hive 性能调优(建议收藏)

    前言 Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询的时候要特别注意效率 .影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜.数据冗余.Job或I/O过多.MapReduce 分 ...

  8. hive性能调优实战pdf_Nginx 性能调优实战

    来自:Linux社区 1.Nginx运行工作进程数量 Nginx运行工作进程个数一般设置CPU的核心或者核心数x2.如果不了解cpu的核数,可以top命令之后按1看出来,也可以查看/proc/cpui ...

  9. 优化Linux内核参数/etc/sysctl.conf sysctl 《高性能Linux服务器构建实战:运维监控、性能调优与集群应用》...

    优化Linux内核参数/etc/sysctl.conf  sysctl  <高性能Linux服务器构建实战:运维监控.性能调优与集群应用> http://book.51cto.com/ar ...

最新文章

  1. Excel常用公式记录
  2. 这是一份非常全面的开源数据集!
  3. layer.js弹窗组件layer.prompt无法调用解决
  4. World of Darkraft(codeforces 138D)
  5. struts2的OGNL表达式理解(一)
  6. 2.数据湖DeltaLake之DDL操作
  7. 导出EXCEL遇到问题
  8. NanUI文档 - 如何实现C#与Javascript的相互通信
  9. 【高斯消元】bzoj1013 [JSOI2008]球形空间产生器sphere
  10. java.net.NoRouteToHostException: No route to host解决方法
  11. python应用系列教程——python使用SocketServer实现网络服务器,socket实现客户端
  12. 如何将运维的报警做成运营的报警--Java后端架构
  13. 免费网络视频监控软件cmsclient
  14. 梦三国2进去显示服务器未连接失败,梦三国手游无法登陆 无法登陆原因分析
  15. 大胖子走迷宫(bfs)
  16. mach3 丝杠的步进电机参数设置
  17. Unity 中的4X4矩阵
  18. 大学生必备的十大网站有哪些?
  19. pythonttf字体反爬虫_利用Python采集起点中文网小说,并解决字体反爬的问题
  20. arm poky linux,交叉编译iMX6 contex-A9 arm-poky 一些坑

热门文章

  1. bzoj1046(HAOI2007)上升序列
  2. CSS可见区域全局居中
  3. Struts2之文件上传(单文件/多文件)
  4. Web程序中将Cell华表的修改 保存到数据库或服务器端文件夹内
  5. 用css3和jquery实现的渐变的动态进度条
  6. 三分钟让你掌握JavaScript中值传递和引用传递的区别
  7. VS2005 解决应用程序配置不正确,程序无法启动问题(小问题,大思想)
  8. java 字符串倍_java字符串拼接与性能分析详解
  9. L1-069 胎压监测 (15 分)
  10. Git -- 如何删除本地仓库