Hive 优化之推测执行

2024-05-15 10:12:40

1. 为什么需要推测执行？

MapReduce将作业分解成多个任务并行运行的机制，决定了作业运行的总体时间对运行缓慢的任务比较敏感。为了尽量避免运行缓慢的任务对作业运行时间“托后腿”的情况，需要启动作业的推测执行。

2. 什么是推测执行？

在分布式集群环境下，因为程序Bug（包括Hadoop本身的bug），负载不均衡或者资源分布不均等原因，会造成同一个作业的多个任务之间运行速度不一致，有些任务的运行速度可能明显慢于其他任务（比如一个作业的某个任务进度只有50%，而其他所有任务已经运行完毕），则这些任务会拖慢作业的整体执行进度。为了避免这种情况发生，Hadoop采用了推测执行（Speculative Execution）机制，它根据一定的法则推测出“拖后腿”的任务，并为这样的任务启动一个备份任务，让该任务与原始任务同时处理同一份数据，并最终选用最先成功运行完成任务的计算结果作为最终结果。

3. 推测执行配置

设置开启推测执行参数：Hadoop的mapred-site.xml文件中进行配置

<property><name>mapreduce.map.speculative</name><value>true</value><description>如果任务运行较慢，决定是否运行相应Map任务的推测执行</description>
</property><property><name>mapreduce.reduce.speculative</name><value>true</value><description>如果任务运行较慢，决定是否运行相应Reduce任务的推测执行</description>
</property>

hive本身也提供了配置项来控制reduce-side的推测执行

<property><name>hive.mapred.reduce.tasks.speculative.execution</name><value>true</value><description>Whether speculative execution for reducers should be turned on.     </description>
</property>

4. 总结

关于调优这些推测执行变量，还很难给一个具体的建议。如果用户对于运行时的偏差非常敏感的话，那么可以将这些功能关闭掉。如果用户因为输入数据量很大而需要执行长时间的map或者Reduce task的话，那么启动推测执行造成的浪费是非常巨大。

任务运行缓慢的原因有多种，可能是硬件老化，也可能是软件问题。若是软件问题，需优化程序，推测执行不能从根本上解决问题。
推测执行是利用资源来优化时间的一种策略。若资源本来就紧张的情况下，是无法通过推测执行来优化系统性能的。

Hive 优化之推测执行相关推荐

大数据笔记30—Hadoop基础篇13(Hive优化及数据倾斜)
Hive优化及数据倾斜知识点01:回顾知识点02:目标知识点03:Hive函数:多行转多列知识点04:Hive函数:多行转单列知识点05:Hive函数:多列转多行知识点06:Hive函数: ...
hive sql 报错后继续执行_Hive优化之Spark执行引擎参数调优（二）
Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能.影响Hive效率的主要有数据 ...
智慧出行/spark Streaming-Dstream流优化:1.消费并行度,2.序列化,3.限流,压背,冷启4.cpu空转时间,5.不要在代码中判断这个表是否存在,6.推测执行7.开启动态资源分配
1.设置合理的消费并行度最优的方案是:kafka分区数:broker *3/6/9 kafka分区能不能增加,能不能减少? kafka分区数是可以增加的,但是不能减少 2.序列化 java的序列化, ...
CC00027.hadoop——|HadoopHive.V27|——|Hive.v27|Hive优化策略|实战.v03|
一.SQL优化 ### --- SQL优化~~~ 列裁剪和分区裁剪 ~~~ 列裁剪是在查询时只读取需要的列:分区裁剪就是只读取需要的分区. ~~~ 简单的说:select 中不要有多余的列,坚决避免 ...
[hive]hive优化
1.fetch抓取 1)什么是fetch抓取 fetch抓取是指hive对select 所有字段.select 指定字段.limit可以不必使用MapReduce计算,在这种情况下,hive可以简单地 ...
Hive优化笔记（1 - 非数据倾斜）
目录列裁剪和分区裁剪谓词下推本地模式(local mode) 并行执行严格模式 Map端聚合调整mapper数调整reducer数小文件合并优化设置jvm重用引擎选择输出结果压缩 ...
一篇文章让你通透Hive优化
Hive优化一.hive参数优化 1.map数优化 2.reduce数优化 3.Fetch抓取(Hive可以避免进行MapReduce) 4 .模式选择 1)本地模式 2)并行模式 3)严格模 ...
hive优化之参数调优
hive优化之参数调优 1.hive参数优化之默认启用本地模式启动hive本地模式参数,一般建议将其设置为true,即时刻启用: hive (chavin)> set hive.exec.mo ...
Forerunner：首个面向“多未来”的推测执行技术
来源:微软研究院AI头条编者按:10月26-29日,系统领域的全球顶会 SOSP 2021 在线上举办.在本届大会上,微软亚洲研究院研究员陈洋.郭众鑫.李润怀(实习生,浙江大学).陈硕.周礼栋.张宪 ...
hive 行转列和列转行的方法_读离线和实时大数据开发实战，为你揭开 Hive 优化实践的神秘面纱...
前言「1024,1GB,一级棒!程序仔们节日快乐!」 ❝ 指尖流动的 1024 行代码,到底是什么? ❞ ❝ 是10行的迷茫?是101行的叛逆?是202行的理性思考?是307行对渴望的冲动?还是40 ...

最新文章

热门文章