-- 开启动态分区,写入数据时需要
set hive.optimize.sort.dynamic.partition=true;
-- 默认值是strict,默认要求分区字段必须有一个是静态的分区值
set hive.exec.dynamic.partition.mode=nonstrict;-- 控制在同一个sql中的不同的job是否可以同时运行。默认是False
set hive.exec.parallel=true;
-- 同一个sql允许并行任务的最大线程数。默认是8
set hive.exec.parallel.thread.number=16;-- 大小表join自动优化中小表大小的定义。默认25000000(25m)
set hive.mapjoin.smalltable.filesize = 100000000;-- 【Map阶段】
-- 环形缓冲区大小。默认100
set mapreduce.task.io.sort.mb = 200;
-- 并行处理并行处理spill的个数,默认10
set mapreduce.task.io.sort.factor = 20;
-- 环形缓冲区溢写阈值。默认0.8
set mapreduce.map.sort.spill.percent = 0.9;-- matask的CPU核数,默认1。如果是计算密集型任务可以增加
set mapreduce.map.cpu.vcores = 1;-- matask异常重试次数,默认4次
set mapreduce.map.maxattempts = 16;-- 开启 hive 中间传输数据压缩功能,默认false
set hive.exec.compress.intermediate=true;
-- 开启map阶段的输出压缩功能,默认false
set mapreduce.map.output.compress=true;
-- 设置map阶段输出数据的压缩方式
set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;-- 【Reduce阶段】
-- mapred代表的是hadoop旧API,而mapreduce代表的是hadoop新的API
-- 每个Reduce去Map中拉取数据的并行数。默认值是5
set mapreduce.reduce.shuffle.parallelcopies = 10;-- 配置JVM堆内存的多少比例可以用于存放map任务的输出结果,默认值0.7
-- Reduce在shuffle阶段对下载来的map数据,并不是立刻就写入磁盘的,
-- 而是会先缓存在内存中,然后当使用内存达到一定量的时候才刷入磁盘
set mapreduce.reduce.shuffle.input.buffer.percent = 0.8;
-- 当缓冲中数据达到配置的阈值时,这些数据在内存中被合并、写入机器磁盘,默认值0.66。
set mapreduce.reduce.shuffle.merge.percent =0.8;-- reducetask的CPU核数,默认1个
set mapreduce.reduce.cpu.vcores= 2;-- 当MapTask完成的比例达到该值后才会为ReduceTask申请资源。默认是0.05
set mapreduce.job.reduce.slowstart.completedmaps =0.05;-- reducetask失败重试次数,默认4次
set mapreduce.reduce.maxattempts = 16;
-- 如果程序在规定的时间内没有读到数据,将强制超时退出。默认300s
-- 如果集群环境的网络本身是瓶颈,那么用户可以通过调大这个参数来避免reduce下载线程被误判为失败的情况
set mapreduce.task.timeout= 6000;-- 开启hive最终输出数据压缩功能,默认false
set hive.exec.compress.output=true;
-- 开启reduce最终输出数据压缩,默认false
set mapreduce.output.fileoutputformat.compress=true;
-- 设置reduce最终数据输出压缩方式
set mapreduce.output.fileoutputformat.compress.codec =org.apache.hadoop.io.compress.SnappyCodec;
--设置reduce最终数据输出压缩为块压缩,默认RECORD
set mapreduce.output.fileoutputformat.compress.type=BLOCK;-- 【内存溢出】
-- Map阶段可使用的jvm堆内存上限
set mapreduce.map.java.opts = -Xmx20480m;
-- 一个Map Task可使用的内存上限,默认1024。可根据128M数据对应1G内存的原则提高该值
set mapreduce.map.memory.mb = 30720;
-- Reduce阶段可使用的jvm堆内存上限
set mapreduce.map.java.opts = -Xmx20480m;
-- 一个ReduceTask 可使用的资源上限,默认1024。
set mapreduce.reduce.memory.mb = 30720;
-- yarn container这种模式下,map/reduce task是运行在Container之中的,
-- 所以上面提到的mapreduce.map(reduce).memory.mb大小都大于mapreduce.map(reduce).java.opts值的大小。
-- mapreduce.{map|reduce}.java.opts能够通过Xmx设置JVM最大的heap的使用,一般设置为0.75倍的memory.mb,
-- 因为需要为java code等预留些空间
-- 当集群上的任务比较多时,可设置如下参数
-- 默认是2
set tez.am.max.app.attempts = 128;
-- 默认是4
set tez.am.task.max.failed.attempts = 128;
-- 默认是10
set tez.am.maxtaskfailures.per.node = 3;
-- 默认是33
set tez.am.node-blacklisting.ignore-threshold-node-percent=66;-- tez队列不能正常启动时,可以加这个参数
set yarn.timeline-service.enabled=false;

Hive 实战调优参数大全相关推荐

  1. JVM调优参数大全及G1GC调优

    一.JVM常见参数 1.标准参数 -verbose:class 打印每个class信息 -verbose:gc 打印每次gc信息 2.非标参数 -X -Xlog:gc:filename 设置GC lo ...

  2. hive的一些调优参数

    hive的一些调优参数 set hive.exec.dynamic.partition.mode=nonstrict; 使用动态分区 set hive.exec.max.dynamic.partiti ...

  3. 第5课:实战演示jvm三大性能调优参数:-xms -xmx -xss

    内容: 1.实战演示-Xss性能调优参数 2.实战演示-Xms.-Xmx性能调优参数 一.实战演示-Xss性能调优参数 Java每个线程的Stack大小.JDK5.0以后每个线程堆栈大小为1M,以前每 ...

  4. Hive性能调优实战 分享

    获取方式 链接:https://pan.baidu.com/s/1TmkWssL1K45af7GDrj2QWw 提取码:26uv 关注我的公众号[宝哥大数据],更多干货 目录 第1章 举例感受Hive ...

  5. 3万字史诗级 Hive 性能调优(建议收藏)

    前言 Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询的时候要特别注意效率 .影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜.数据冗余.Job或I/O过多.MapReduce 分 ...

  6. 面试官:你会哪些JVM调优参数?

    关注公众号"Java后端技术全栈" 回复"000"获取程序员必备电子书 <Java 面试辅导>来啦!田哥和你面对面,一对一 规划如何准备面试.模拟真 ...

  7. 深入理解JVM虚拟机14:JVM性能调优的6大步骤,及关键调优参数详解

    JVM内存调优 对JVM内存的系统级的调优主要的目的是减少GC的频率和Full GC的次数. 1.Full GC 会对整个堆进行整理,包括Young.Tenured和Perm.Full GC因为需要对 ...

  8. 全方位揭秘!大数据从0到1的完美落地之Hive企业级调优

    Hive企业级调优 调优原则已经在MR优化阶段已经有核心描述,优化Hive可以按照MR的优化思路来执行 优化的主要考虑方面: 环境方面:服务器的配置.容器的配置.环境搭建 具体软件配置参数: 代码级别 ...

  9. pyspark性能调优参数

    20220311 参数调节 把executor数量调小,其他参数值调大,不容易报错 一.指定spark executor 数量的公式 executor 数量 = spark.cores.max/spa ...

最新文章

  1. linux查进程ps和top,Linux中几个进程查看命令总结 ps, top, htop, vmstat
  2. webmin远程命令执行漏洞(cve-2019-15107)深入分析
  3. CF911F Tree Destruction (树的直径,贪心)
  4. int max+1小于0_INT_MAX常数,C ++中的示例
  5. dotnet若干说明图片
  6. Echarts自定义折线图例,增加选中功能
  7. 重写RadGrid及其注意事项
  8. it专员职责_【IT专员工作内容|工作职责|IT专员做什么】-看准网
  9. Rust Async: Pin概念解析
  10. ABAP新手基础入门知识
  11. 解决Appium-windows安装时无法自动下载Appium-Desktop
  12. matlab help函数用法,MATLAB函数用法
  13. IOS视频播放器的使用(MPMoviePlayerController)
  14. 【Java】soap协议发送webservice请求工具类
  15. 常用计算机病毒防治办法,常见的计算机病毒防治措施有哪些
  16. 计算机硬件开关打开无线网络,如何打开电脑无线网络_如何打开无线网络连接...
  17. 施耐德PLC与西门子PLC以太网通讯
  18. gpedit.msc 打不开
  19. Hystrix服务降级的两种处理方式@HystrixCommand注解和定义统一fallback接口
  20. ESL4.3 线性判别分析(LDAQDA)学习笔记

热门文章

  1. 薪酬管理系统的作用是什么?
  2. 对象储存防止被搬运恶意盗刷流量解决方法
  3. 程序员上班打酱油的方法
  4. 企业人力资源管理师(四级)题集(理论+实操(计算题)+职业道德)
  5. Ubuntu18.04 ROS-Melodic安装Moveit
  6. Wireshark——过滤器使用
  7. element-ui中的表格与表单混用方法及表单校验
  8. c# wpf 单选字体_WPF中的字体改善
  9. GMIC秒拍移动视频峰会|行业大咖齐聚,畅谈短视频平台力量
  10. MuMu模拟器12开发者操作指南 | MuMuManager、adb常用命令汇总