Hive参数性能调优
之前遇到的问题是,整个集群的资源非常多,但是执行hive sql就是很慢,然后到yarn资源管理页面一看,发现整个任务只启动了一个container执行,集群资源完全没有利用起来。于是通过调整了以下相关参数,提高了任务执行的并发。调整参数后,任务从原来执行几个小时甚至直接卡死无法执行的下降到10分钟左右就执行完毕。
yarn.nodemanager.resource.memory-mb 65536 --设置nodemanager分配给yarn的可用内存
yarn.nodemanager.resource.cpu-vcores 40 --设置nodemanager分配给yarn的可用虚拟CPU
yarn.nodemanager.vmem-pmem-ratio 2.1 --虚拟内存比例
yarn.scheduler.maximum-allocation-mb 65536 --设置每个container可用最大内存
yarn.scheduler.minimum-allocation-mb 2048 --设置每个container可用最小内存
yarn.scheduler.maximum-allocation-vcores 2 --设置每个container可用最大虚拟CPU
yarn.scheduler.minimum-allocation-vcores=1 --设置每个container可用最小虚拟CPUmapreduce.map.memory.mb=2048 --设置每个map可用内存
mapreduce.reduce.memory.mb=4096 --设置每个reducer可用内存
mapreduce.map.cpu.vcores=4 --设置每个map使用虚拟CPU
mapreduce.reduce.cpu.vcores=2 --设置每个reducer使用虚拟CPUset hive.exec.reducers.bytes.per.reducer=1073741824
set mapred.job.reuse.jvm.num.tasks=40;
set hive.exec.parallel=true;
set hive.exec.parallel.thread.number=40;
set mapred.max.split.size=1073741824;
set mapred.min.split.size.per.node=1073741824;
set mapred.min.split.size.per.rack=1073741824;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
错误信息:
MAP capability required is more than the supported max container capability in the cluster. Killing the Job. mapResourceRequest: <memory:12288, vCores:8> maxContainerCapability:<memory:65536, vCores:2>
Job received Kill while in RUNNING state.
REDUCE capability required is more than the supported max container capability in the cluster. Killing the Job. reduceResourceRequest: <memory:24576, vCores:4> maxContainerCapability:<memory:65536, vCores:2>
Hive参数性能调优相关推荐
- 【JVM】JVM参数性能调优 -Xms -Xmx -Xmn -XX:NewRatio -XX:SurvivorRatio
原文链接: http://unixboy.iteye.com/blog/174173/ 上图来自:https://blog.csdn.net/jakeswang/article/details/105 ...
- 【Hive】性能调优 - EXPLAIN
Hive版本: hive-1.1.0-cdh5.14.2 用户提交HiveQL查询后,Hive会把查询语句转换为MapReduce作业.Hive会自动完成整个执行过程,一般情况下,我们并不用知道内部是 ...
- 【Hive】性能调优 - map-side JOIN
Hive版本: hive-1.1.0-cdh5.14.2 概述 如果表关联时,有一张表很小,那么可以在大表通过mapper时将小表完全加载到内存中,Hive可以在map端完成关联过程,这就是所谓的ma ...
- 真正让你明白Hive参数调优系列1:控制map个数与性能调优参数
本系列几章系统地介绍了开发中Hive常见的用户配置属性(有时称为参数,变量或选项),并说明了哪些版本引入了哪些属性,常见有哪些属性的使用,哪些属性可以进行Hive调优,以及如何使用的问题.以及日常Hi ...
- 【大数据开发】SparkSQL——Spark对接Hive、Row类、SparkSQL函数、UDF函数(用户自定义函数)、UDAF函数、性能调优、SparkSQL解决数据倾斜
文章目录 一.Spark对接Hive准备工作 1.1 集群文件下载 1.2 导入依赖 1.3 打开集群metastore服务 二.Spark对接Hive 2.1 查询Hive 2.2 读取MySQL中 ...
- 大数据培训:Spark性能调优与参数配置
Spark性能调优-基础篇 众所周知,正确的参数配置对提升Spark的使用效率具有极大助力,帮助相关数据开发.分析人员更高效地使用Spark进行离线批处理和SQL报表分析等作业. 推荐参数配置模板如下 ...
- 3万字史诗级 Hive 性能调优(建议收藏)
前言 Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询的时候要特别注意效率 .影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜.数据冗余.Job或I/O过多.MapReduce 分 ...
- hive性能调优实战pdf_Nginx 性能调优实战
来自:Linux社区 1.Nginx运行工作进程数量 Nginx运行工作进程个数一般设置CPU的核心或者核心数x2.如果不了解cpu的核数,可以top命令之后按1看出来,也可以查看/proc/cpui ...
- 优化Linux内核参数/etc/sysctl.conf sysctl 《高性能Linux服务器构建实战:运维监控、性能调优与集群应用》...
优化Linux内核参数/etc/sysctl.conf sysctl <高性能Linux服务器构建实战:运维监控.性能调优与集群应用> http://book.51cto.com/ar ...
最新文章
- Excel常用公式记录
- 这是一份非常全面的开源数据集!
- layer.js弹窗组件layer.prompt无法调用解决
- World of Darkraft(codeforces 138D)
- struts2的OGNL表达式理解(一)
- 2.数据湖DeltaLake之DDL操作
- 导出EXCEL遇到问题
- NanUI文档 - 如何实现C#与Javascript的相互通信
- 【高斯消元】bzoj1013 [JSOI2008]球形空间产生器sphere
- java.net.NoRouteToHostException: No route to host解决方法
- python应用系列教程——python使用SocketServer实现网络服务器,socket实现客户端
- 如何将运维的报警做成运营的报警--Java后端架构
- 免费网络视频监控软件cmsclient
- 梦三国2进去显示服务器未连接失败,梦三国手游无法登陆 无法登陆原因分析
- 大胖子走迷宫(bfs)
- mach3 丝杠的步进电机参数设置
- Unity 中的4X4矩阵
- 大学生必备的十大网站有哪些?
- pythonttf字体反爬虫_利用Python采集起点中文网小说,并解决字体反爬的问题
- arm poky linux,交叉编译iMX6 contex-A9 arm-poky 一些坑