Hive 实战调优参数大全

-- 开启动态分区，写入数据时需要
set hive.optimize.sort.dynamic.partition=true;
-- 默认值是strict，默认要求分区字段必须有一个是静态的分区值
set hive.exec.dynamic.partition.mode=nonstrict;-- 控制在同一个sql中的不同的job是否可以同时运行。默认是False
set hive.exec.parallel=true;
-- 同一个sql允许并行任务的最大线程数。默认是8
set hive.exec.parallel.thread.number=16;-- 大小表join自动优化中小表大小的定义。默认25000000（25m）
set hive.mapjoin.smalltable.filesize = 100000000;-- 【Map阶段】
-- 环形缓冲区大小。默认100
set mapreduce.task.io.sort.mb = 200;
-- 并行处理并行处理spill的个数，默认10
set mapreduce.task.io.sort.factor = 20；
-- 环形缓冲区溢写阈值。默认0.8
set mapreduce.map.sort.spill.percent = 0.9;-- matask的CPU核数，默认1。如果是计算密集型任务可以增加
set mapreduce.map.cpu.vcores = 1;-- matask异常重试次数，默认4次
set mapreduce.map.maxattempts = 16;-- 开启 hive 中间传输数据压缩功能，默认false
set hive.exec.compress.intermediate=true;
-- 开启map阶段的输出压缩功能，默认false
set mapreduce.map.output.compress=true;
-- 设置map阶段输出数据的压缩方式
set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;-- 【Reduce阶段】
-- mapred代表的是hadoop旧API，而mapreduce代表的是hadoop新的API
-- 每个Reduce去Map中拉取数据的并行数。默认值是5
set mapreduce.reduce.shuffle.parallelcopies = 10;-- 配置JVM堆内存的多少比例可以用于存放map任务的输出结果，默认值0.7
-- Reduce在shuffle阶段对下载来的map数据，并不是立刻就写入磁盘的，
-- 而是会先缓存在内存中，然后当使用内存达到一定量的时候才刷入磁盘
set mapreduce.reduce.shuffle.input.buffer.percent = 0.8;
-- 当缓冲中数据达到配置的阈值时，这些数据在内存中被合并、写入机器磁盘，默认值0.66。
set mapreduce.reduce.shuffle.merge.percent =0.8;-- reducetask的CPU核数，默认1个
set mapreduce.reduce.cpu.vcores= 2;-- 当MapTask完成的比例达到该值后才会为ReduceTask申请资源。默认是0.05
set mapreduce.job.reduce.slowstart.completedmaps =0.05;-- reducetask失败重试次数，默认4次
set mapreduce.reduce.maxattempts = 16;
-- 如果程序在规定的时间内没有读到数据，将强制超时退出。默认300s
-- 如果集群环境的网络本身是瓶颈，那么用户可以通过调大这个参数来避免reduce下载线程被误判为失败的情况
set mapreduce.task.timeout= 6000;-- 开启hive最终输出数据压缩功能，默认false
set hive.exec.compress.output=true;
-- 开启reduce最终输出数据压缩，默认false
set mapreduce.output.fileoutputformat.compress=true;
-- 设置reduce最终数据输出压缩方式
set mapreduce.output.fileoutputformat.compress.codec =org.apache.hadoop.io.compress.SnappyCodec;
--设置reduce最终数据输出压缩为块压缩，默认RECORD
set mapreduce.output.fileoutputformat.compress.type=BLOCK;-- 【内存溢出】
-- Map阶段可使用的jvm堆内存上限
set mapreduce.map.java.opts = -Xmx20480m;
-- 一个Map Task可使用的内存上限，默认1024。可根据128M数据对应1G内存的原则提高该值
set mapreduce.map.memory.mb = 30720;
-- Reduce阶段可使用的jvm堆内存上限
set mapreduce.map.java.opts = -Xmx20480m;
-- 一个ReduceTask 可使用的资源上限，默认1024。
set mapreduce.reduce.memory.mb = 30720;
-- yarn container这种模式下，map/reduce task是运行在Container之中的，
-- 所以上面提到的mapreduce.map(reduce).memory.mb大小都大于mapreduce.map(reduce).java.opts值的大小。
-- mapreduce.{map|reduce}.java.opts能够通过Xmx设置JVM最大的heap的使用，一般设置为0.75倍的memory.mb，
-- 因为需要为java code等预留些空间

-- 当集群上的任务比较多时，可设置如下参数
-- 默认是2
set tez.am.max.app.attempts = 128;
-- 默认是4
set tez.am.task.max.failed.attempts = 128;
-- 默认是10
set tez.am.maxtaskfailures.per.node = 3;
-- 默认是33
set tez.am.node-blacklisting.ignore-threshold-node-percent=66;-- tez队列不能正常启动时，可以加这个参数
set yarn.timeline-service.enabled=false;

Hive 实战调优参数大全相关推荐

JVM调优参数大全及G1GC调优
一.JVM常见参数 1.标准参数 -verbose:class 打印每个class信息 -verbose:gc 打印每次gc信息 2.非标参数 -X -Xlog:gc:filename 设置GC lo ...
hive的一些调优参数
hive的一些调优参数 set hive.exec.dynamic.partition.mode=nonstrict; 使用动态分区 set hive.exec.max.dynamic.partiti ...
第5课：实战演示jvm三大性能调优参数：-xms -xmx -xss
内容: 1.实战演示-Xss性能调优参数 2.实战演示-Xms.-Xmx性能调优参数一.实战演示-Xss性能调优参数 Java每个线程的Stack大小.JDK5.0以后每个线程堆栈大小为1M,以前每 ...
Hive性能调优实战分享
获取方式链接:https://pan.baidu.com/s/1TmkWssL1K45af7GDrj2QWw 提取码:26uv 关注我的公众号[宝哥大数据],更多干货目录第1章举例感受Hive ...
3万字史诗级 Hive 性能调优(建议收藏)
前言 Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询的时候要特别注意效率 .影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜.数据冗余.Job或I/O过多.MapReduce 分 ...
面试官：你会哪些JVM调优参数？
关注公众号"Java后端技术全栈" 回复"000"获取程序员必备电子书 <Java 面试辅导>来啦!田哥和你面对面,一对一规划如何准备面试.模拟真 ...
深入理解JVM虚拟机14：JVM性能调优的6大步骤，及关键调优参数详解
JVM内存调优对JVM内存的系统级的调优主要的目的是减少GC的频率和Full GC的次数. 1.Full GC 会对整个堆进行整理,包括Young.Tenured和Perm.Full GC因为需要对 ...
全方位揭秘！大数据从0到1的完美落地之Hive企业级调优
Hive企业级调优调优原则已经在MR优化阶段已经有核心描述,优化Hive可以按照MR的优化思路来执行优化的主要考虑方面: 环境方面:服务器的配置.容器的配置.环境搭建具体软件配置参数: 代码级别 ...
pyspark性能调优参数
20220311 参数调节把executor数量调小,其他参数值调大,不容易报错一.指定spark executor 数量的公式 executor 数量 = spark.cores.max/spa ...

Hive 实战调优参数大全

Hive 实战调优参数大全相关推荐

最新文章

热门文章