hive的一些调优参数

set hive.exec.dynamic.partition.mode=nonstrict; 使用动态分区
set hive.exec.max.dynamic.partitions=100000;自动分区数最大值
set hive.exec.max.dynamic.partitions.pernode=100000;
set hive.hadoop.supports.splittable.combineinputformat=true;支持切分
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set mapred.max.split.size=256000000;
set mapred.min.split.size.per.node=256000000;
set mapred.min.split.size.per.rack=256000000;
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.size.per.task=256000000;
set hive.merge.smallfiles.avgsize=160000000;
set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.type=BLOCK;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;
set hive.map.aggr=true;
set hive.optimize.skewjoin=true;
set hive.groupby.skewindata=true; 解决数据倾斜,不适用多字段去重统计
set hive.auto.convert.join=false;
set hive.groupby.skewindata=false;
set hive.new.job.grouping.set.cardinality = 200;添加额外job
set hive.fetch.task.conversion=more;简单查询不用mapreduce
set hive.exec.mode.local.auto=true;  //开启本地mr
set hive.exec.mode.local.auto.inputbytes.max=50000000;小于时用local mr
set hive.exec.mode.local.auto.input.files.max=5;默认4文件个数用local mr
set hive.auto.convert.join = true;默认开启,map join
set hive.mapjoin.smalltable.filesize=25000000;小表
set hive.map.aggr = true;默认map聚合
set hive.groupby.mapaggr.checkinterval = 100000;map聚合条数
set hive.groupby.skewindata = true;数据倾斜的时候进行负载均衡(默认是false)
set hive.exec.reducers.bytes.per.reducer=32123456;reduce任务处理量默认256000000
set hive.exec.parallel=true;并行执行
set hive.exec.parallel.thread.number=16;同一SQL最大并行度
set hive.mapred.mode=nonstrict;非严格模式
set mapred.job.reuse.jvm.num.tasks=5;jvm重用个数
set hive.mapred.reduce.tasks.speculative.execution=true;推测执行
set hive.exec.compress.intermediate=true;压缩算法
set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec;#设置中间数据的压缩算法
set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;小文件合并
set mapreduce.input.fileinputformat.split.maxsize=10485760;一个block块大小
set hive.exec.reducers.bytes.per.reducer=256000000;每个Reduce处理的数据量默认是256MB
set hive.exec.reducers.max=1009;每个任务最大的reduce数,默认为1009
set mapreduce.job.reduces=3;设置每一个job中reduce个数

hive的一些调优参数相关推荐

  1. Hive ETL 任务调优(参数篇)

    Hive 调优-参数篇 图片来源网络,点赞 工作中常用的 hive 参数调优,整理如下. 原则: 最少数据 最少字段 最少Job数 最少读取次数 避免数据倾斜 整体最优而不是局部最优 JVM 内存 文 ...

  2. pyspark性能调优参数

    20220311 参数调节 把executor数量调小,其他参数值调大,不容易报错 一.指定spark executor 数量的公式 executor 数量 = spark.cores.max/spa ...

  3. Spring Cloud 各组件调优参数

    Spring Cloud整合了各种组件,每个组件往往还有各种参数.本文来详细探讨Spring Cloud各组件的调优参数. Tomcat配置参数 1 server: 2 tomcat: 3 max-c ...

  4. 直通BAT必考题系列:JVM性能调优的6大步骤,及关键调优参数详解

    JVM系列 直通BAT必考题系列:7种JVM垃圾收集器特点,优劣势.及使用场景 直通BAT必考题系列:JVM的4种垃圾回收算法.垃圾回收机制与总结 直通BAT必考题系列:深入详解JVM内存模型与JVM ...

  5. JVM优化系列-详解常用的虚拟机调优参数

    导语   需要对虚拟机进行诊断,首先需要了解如何进行虚拟机的配合和跟踪,这里就来说说有那些虚拟机配置参数,通过它们来对虚拟机进行跟踪和配置. 文章目录 虚拟机跟踪调试参数 如何读懂虚拟机日志 GC基本 ...

  6. 如何开启jvm日志_直通BAT必考题系列:JVM性能调优的6大步骤,及关键调优参数详解...

    JVM系列 直通BAT必考题系列:7种JVM垃圾收集器特点,优劣势.及使用场景 直通BAT必考题系列:JVM的4种垃圾回收算法.垃圾回收机制与总结 直通BAT必考题系列:深入详解JVM内存模型与JVM ...

  7. JVM-常用内存调优参数总结

    一.内存调整参数 -Xmx2g 设置堆内存最大值为2g -Xmx512m 设置堆内存最大值为512m -Xms1g 设置堆内存最小值1g(ps:-Xms和-Xmx实际上是 -XX:InitialHea ...

  8. 面试官:你会哪些JVM调优参数?

    关注公众号"Java后端技术全栈" 回复"000"获取程序员必备电子书 <Java 面试辅导>来啦!田哥和你面对面,一对一 规划如何准备面试.模拟真 ...

  9. 美团面试:熟悉哪些JVM调优参数,幸好我准备过!

    关注公众号"Java后端技术全栈" 回复"000"获取程序员必备电子书 大家好,我是田维常,江湖人称老田.田哥.田神,今天来和大家分享JVM调优参数. 之前,我 ...

最新文章

  1. 汇编语言:实验一 查看CPU和内存,用汇编指令和机器指令编程
  2. Android开发工具新接触
  3. 干货收藏 | 如何优化前端性能?
  4. 常用于评价回归模型优劣的统计量包括( )。_第四十一讲 R-判断回归模型性能的指标...
  5. 浅谈操作系统是如何工作的及简单的进程调度的linux实现
  6. 反向传播算法(backpropagation)
  7. Rust: flat_map、filter_map、for_each
  8. sqlserver还原数据库时失败因为 当前没有数据库备份
  9. 【C语言】动态内存开辟
  10. 【网络相关】curl可以访问浏览器打不开,无法访问此网站,ERR_UNSAFE_PORT。10080端口
  11. 怎么把一副图片用PS调成简笔画?
  12. Excel里如何显示“开发工具”?
  13. 爬虫之BeautifulSoup
  14. mysql 表名 复数_数据库表名,应该用复数还是单数
  15. pragma warning
  16. 2P4M-ASEMI代理伟达原装单向可控硅2P4M
  17. 历年安徽省二计算机考试题库,计算机应用基础理论题(安徽省二)
  18. 海康威视WEB3.0控件开发包提供的demo 调试
  19. 负载均衡集群 [ 1 ] ---集群的认识,四层负载,七层负载 ,LVS 实现四层负载均衡
  20. 计算机电子与网络技术,电子信息工程与计算机网络技术探析

热门文章

  1. java 配置嵌套事务_Spring 事务嵌套的配置
  2. python 二分法调试代码,Python实现二分法
  3. python获取钉钉日志数据_python3实现zabbix告警推送钉钉的示例
  4. <input type=“text“ name=““ id=““/>中的name和id有什么区别?
  5. python哪个文字转语音好用_【python3】Python十行代码搞定文字转语音
  6. 零基础学习java必须要了解的学习路线
  7. go 连接服务器 并存放图片_基于 Go 语言开发在线论坛(二):通过模型类与MySQL数据库交互...
  8. 零基础初学c语言常见的10个错误
  9. 【LeetCode笔记】剑指Offer 41. 数据流中的中位数(Java、堆、优先队列、知识点)
  10. 安卓软件错误log_Android编程实现捕获程序异常退出时的错误log信息功能详解