Hive参数性能调优

之前遇到的问题是，整个集群的资源非常多，但是执行hive sql就是很慢，然后到yarn资源管理页面一看，发现整个任务只启动了一个container执行，集群资源完全没有利用起来。于是通过调整了以下相关参数，提高了任务执行的并发。调整参数后，任务从原来执行几个小时甚至直接卡死无法执行的下降到10分钟左右就执行完毕。

yarn.nodemanager.resource.memory-mb    65536   --设置nodemanager分配给yarn的可用内存
yarn.nodemanager.resource.cpu-vcores   40      --设置nodemanager分配给yarn的可用虚拟CPU
yarn.nodemanager.vmem-pmem-ratio       2.1     --虚拟内存比例
yarn.scheduler.maximum-allocation-mb   65536   --设置每个container可用最大内存
yarn.scheduler.minimum-allocation-mb   2048    --设置每个container可用最小内存
yarn.scheduler.maximum-allocation-vcores  2    --设置每个container可用最大虚拟CPU
yarn.scheduler.minimum-allocation-vcores=1     --设置每个container可用最小虚拟CPUmapreduce.map.memory.mb=2048     --设置每个map可用内存
mapreduce.reduce.memory.mb=4096  --设置每个reducer可用内存
mapreduce.map.cpu.vcores=4       --设置每个map使用虚拟CPU
mapreduce.reduce.cpu.vcores=2    --设置每个reducer使用虚拟CPUset hive.exec.reducers.bytes.per.reducer=1073741824
set mapred.job.reuse.jvm.num.tasks=40;
set hive.exec.parallel=true;
set hive.exec.parallel.thread.number=40;
set mapred.max.split.size=1073741824;
set mapred.min.split.size.per.node=1073741824;
set mapred.min.split.size.per.rack=1073741824;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

错误信息：
MAP capability required is more than the supported max container capability in the cluster. Killing the Job. mapResourceRequest: <memory:12288, vCores:8> maxContainerCapability:<memory:65536, vCores:2>
Job received Kill while in RUNNING state.
REDUCE capability required is more than the supported max container capability in the cluster. Killing the Job. reduceResourceRequest: <memory:24576, vCores:4> maxContainerCapability:<memory:65536, vCores:2>

Hive参数性能调优相关推荐

【JVM】JVM参数性能调优 -Xms -Xmx -Xmn -XX:NewRatio -XX:SurvivorRatio
原文链接: http://unixboy.iteye.com/blog/174173/ 上图来自:https://blog.csdn.net/jakeswang/article/details/105 ...
【Hive】性能调优 - EXPLAIN
Hive版本: hive-1.1.0-cdh5.14.2 用户提交HiveQL查询后,Hive会把查询语句转换为MapReduce作业.Hive会自动完成整个执行过程,一般情况下,我们并不用知道内部是 ...
【Hive】性能调优 - map-side JOIN
Hive版本: hive-1.1.0-cdh5.14.2 概述如果表关联时,有一张表很小,那么可以在大表通过mapper时将小表完全加载到内存中,Hive可以在map端完成关联过程,这就是所谓的ma ...
真正让你明白Hive参数调优系列1：控制map个数与性能调优参数
本系列几章系统地介绍了开发中Hive常见的用户配置属性(有时称为参数,变量或选项),并说明了哪些版本引入了哪些属性,常见有哪些属性的使用,哪些属性可以进行Hive调优,以及如何使用的问题.以及日常Hi ...
【大数据开发】SparkSQL——Spark对接Hive、Row类、SparkSQL函数、UDF函数（用户自定义函数）、UDAF函数、性能调优、SparkSQL解决数据倾斜
文章目录一.Spark对接Hive准备工作 1.1 集群文件下载 1.2 导入依赖 1.3 打开集群metastore服务二.Spark对接Hive 2.1 查询Hive 2.2 读取MySQL中 ...
大数据培训：Spark性能调优与参数配置
Spark性能调优-基础篇众所周知,正确的参数配置对提升Spark的使用效率具有极大助力,帮助相关数据开发.分析人员更高效地使用Spark进行离线批处理和SQL报表分析等作业. 推荐参数配置模板如下 ...
3万字史诗级 Hive 性能调优(建议收藏)
前言 Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询的时候要特别注意效率 .影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜.数据冗余.Job或I/O过多.MapReduce 分 ...
hive性能调优实战pdf_Nginx 性能调优实战
来自:Linux社区 1.Nginx运行工作进程数量 Nginx运行工作进程个数一般设置CPU的核心或者核心数x2.如果不了解cpu的核数,可以top命令之后按1看出来,也可以查看/proc/cpui ...
优化Linux内核参数/etc/sysctl.conf sysctl 《高性能Linux服务器构建实战：运维监控、性能调优与集群应用》...
优化Linux内核参数/etc/sysctl.conf sysctl <高性能Linux服务器构建实战:运维监控.性能调优与集群应用> http://book.51cto.com/ar ...

Hive参数性能调优

Hive参数性能调优相关推荐

最新文章

热门文章