3.11-3.14 Hive 企业使用优化2

一、查看HQL执行计划explain

1、explain

hive在执行的时候会把所对应的SQL语句都会转换成mapreduce代码执行，但是具体的MR执行信息我们怎样才能看出来呢？
这里就用到了explain的关键字，他可详细的表示出在执行所对应的语句所对应的MR代码。
语法格式如下。extended关键字可以更加详细的列举出代码的执行过程。Hive提供了一个EXPLAIN显示查询执行计划的命令。该语句的语法如下：
EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] queryexplain会把查询语句转化成阶段组成的序列，主要由三方面组成：
*查询的抽象语法树
*计划的不同阶段之间的依赖关系
*每个阶段的描述

2、使用

#explain基本使用
hive (default)> explain select * from emp;
OK
Explain
STAGE DEPENDENCIES:Stage-0 is a root stageSTAGE PLANS:Stage: Stage-0Fetch Operatorlimit: -1Processor Tree:TableScanalias: empStatistics: Num rows: 2 Data size: 659 Basic stats: COMPLETE Column stats: NONESelect Operatorexpressions: empno (type: int), ename (type: string), job (type: string), mgr (type: int), hiredate (type: string), sal (type: double), comm (type: double), deptno (type: int)outputColumnNames: _col0, _col1, _col2, _col3, _col4, _col5, _col6, _col7Statistics: Num rows: 2 Data size: 659 Basic stats: COMPLETE Column stats: NONEListSinkTime taken: 0.063 seconds, Fetched: 17 row(s)

二、并行执行

1、

hive会将一个查询转化为一个或多个阶段，包括：MapReduce阶段、抽样阶段、合并阶段、limit阶段等。
默认情况下，一次只执行一个阶段。 不过，如果某些阶段不是互相依赖，是可以并行执行的。set hive.exec.parallel=true,可以开启并发执行。
set hive.exec.parallel.thread.number=15;     //同一个sql允许最大并行度，默认为8，一般10-20之间。并行执行是在系统资源比较空闲的时候才有优势，否则，没资源，并行也起不来。

三、JVM重用

JVM重用是hadoop调优参数的内容，对hive的性能具有非常大的影响，特别是对于很难避免小文件的场景或者task特别多的场景，
这类场景大多数执行时间都很短。hadoop默认配置是使用派生JVM来执行map和reduce任务的，这是jvm的启动过程可能会造成相当大的开销，
尤其是执行的job包含有成千上万个task任务的情况。     JVM重用可以使得JVM实例在同一个JOB中重新使用N次，N的值可以在Hadoop的mapre-site.xml文件中进行设置      mapred.job.reuse.jvm.num.tasks   也可在hive的执行设置：     set  mapred.job.reuse.jvm.num.tasks=8;  #此值一般不超过9    JVM的一个缺点是，开启JVM重用将会一直占用使用到的task插槽，以便进行重用，直到任务完成后才能释放。
如果某个“不平衡“的job中有几个reduce task 执行的时间要比其他reduce task消耗的时间多得多的话，那么保留的插槽
就会一直空闲着却无法被其他的job使用，直到所有的task都结束了才会释放。

四、map、Reduce数目

1、map数目

map数量：算法MapTask的个数=输入文件总大小/分片尺寸，个人理解就是输出的文件数量原因：系统对输入的源文件依照Block的尺寸分片，并在执行Job时安排一个Map Task处理一个Block的或者由mapred.map.task数量决定，但是如果这个参数不合理的话，会失效小文件不分片压缩文件无法被切分######优化建议########优化原因
：map数量过少则导致并发度减小，job过长；若大量作业，则会堵塞；减小map数量：合并小文件（hive0.7之后会自动合并） ，是优化的策略map阶段会输出过多小文件，而初始化和创建map的开销很大，在 block 数据量偏少的情况下，单个任务运行的时间就少，
那么任务开启的开销很可 能占据总开销的大量比例
；如果已知数据源中小文件过多，用户最好在向新表导入数据之前就打开automerge 开关，使一个 Task 处理多个 block。
因为同属一个 Task 的结果将被返回在同一个文件中，因此导入数据时做任务的合并处理可达到小文件合并效果。
然后关闭automerge 开关，今后都不用再对该表开启
；除了检查 block 的大小，还可以通过在 4040 端口查看任务第一阶段 Tasks 的数量和每Task 的运行时间判断是否
需要 automerge第一阶段的 Task 负责 Map 端任务，默认每个Task 对应一个 block，所以如果第一阶段 Task 过多而且单个执行时间短，
表示小体积 block 多，Task 运行效率低，需要启用 automerge。注意，不建议为每个线程安排过多的 block。
在调整相关参数时注意，所设计的下限要尽量保证单个 Task 的处理时间不要低于 2s，调 整的上线不能使对应的；合并之后的大小最好控制在 256M以内，能实现较好的性能（这只是个参 考值，具体情况需根据实际数据量和列数而定）查看实际运行时 GC的状况，如果大部分 Tasks的 GC时间占Task运行时间的 15%以内，可以合并的更多一些。
GC时间可以在 4040界面观察  ；查看每个Task的执行时间，最好不要超过２分钟。如果太长，很可能 会产生 GC问题和拖尾效应，
即某个 Task过长而导致的整体运行时间 过长。这时应适当增加 Task
；选取 automerge参数时，在设计下限的时候，尽量保证单个 Task 的处理时间不要低于 2s增加map数量：上一个job的reduce

2、reduce数目

##reduce数量
过少：如果数据量很大，会导致这个reduce异常的慢，从而导致这个任务不能结束，也有可能会OOM过多：产生的小文件太多，合并起来代价太高，namenode的内存占用也会增大。如果我们不指定mapred.reduce.tasks，
hive会自动计算需要多少个reducer
；由map端数据复制到Reduce端的数据大小决定；有很多任务是没有reduce的过程的
；可以通过设置mapred.reduce.task来控制reduce数
；Hive的估计机制很弱，不指定reducer个数的情况下，Hive会猜测确定一个reducer个数，基于以下两个设定：1. hive.exec.reducers.bytes.per.reducer（默认为1000^3）这个参数控制一个job会有多少个reducer来处理，依据的是输入文件的总大小。默认1GB2. hive.exec.reducers.max（默认为999）如果 input / bytes per reduce > max  则会启动这个参数所指定的reduce个数。  这个并不会影响mapre.reduce.tasks参数的设置计算reducer数的公式很简单：N=min(参数2，总输入数据量/参数1)通常情况下，有必要手动指定reducer个数。考虑到map阶段的输出数据量通常会比输入有大幅减少，因此即使不设定reducer个数，重设参数2还是必要的。依据Hadoop的经验，可以将参数2设定为0.95*(集群中TaskTracker个数)通常(不是绝对)，大表 JOIN或者 GROUPBY后，产生的数据量相对原始数据小很多。这时可以减少后面 ReduceTask的数目，使 Reduce Task的启动 更有价值针对 GROUP BY、JOIN、INRTERSACT、EXCEPT、EXTRACT 这五个操作，改变两个 Task数目比例分别对应的语句：SEThive.groupby.aggregateratio=0.6;SEThive.join.aggregateratio=1.0;SEThive.intersect.aggregateratio=1.0;SEThive.except.aggregateratio=1.0;SEThive.extract.aggregateratio=1.0;小文件过多时参数设置：set ngmr.partition.automerge=true;
set ngmr.partition.mergesize.mb=-1合并以后每个task最多处理的数据量大小，-1表示关闭该参数默认8M；优先级大于ngmr.partition;mergesize设置一个Block大小，单位MB，-1默认不执行可以根据任务设置大小，比如200、300等set ngmr.partition.mergesize=3;表示将 n 个 block 安排给单个线程处理
；参数3代表当前3个tasks合并成一个task
；可以根据需要仅设置这两个参数（mergesize.mb）其中之一，默认使用方法 mergesize.mb来控制
；如果需要使用方法 mergesize，需要将 mergesize.mb 设为-1。

五、推测执行

在分布式集群环境下，因为程序Bug（包括Hadoop本身的bug），负载不均衡或者资源分布不均等原因，会造成同一个作业的多个任务之间运行速度不一致，
有些任务的运行速度可能明显慢于其他任务（比如一个作业的某个任务进度只有50%，而其他所有任务已经运行完毕），则这些任务会拖慢作业的整体执行进度。
为了避免这种情况发生，Hadoop采用了推测执行（Speculative Execution）机制，它根据一定的法则推测出“拖后腿”的任务，并为这样的任务启动一个备份任务，
让该任务与原始任务同时处理同一份数据，并最终选用最先成功运行完成任务的计算结果作为最终结果。

关于调优这些推测执行变量，还很难给一个具体的建议。如果用户对于运行时的偏差非常敏感的话，那么可以将这些功能开启。

如果用户因为输入数据量很大而需要执行长时间的map或者Reduce task的话，那么启动推测执行造成的浪费是非常巨大大。

mapreduce.map.speculative        true
hive.mapred.reduce.tasks.speculative.execution        true
mapreduce.reduce.speculative    true

六、动态分区调整

往hive分区表中插入数据时，如果需要创建的分区很多，比如以表中某个字段进行分区存储，则需要复制粘贴修改很多sql去执行，效率低。
(比如按天进行分区，一天一个，......太多了)
因为hive是批处理系统，所以hive提供了一个动态分区功能，其可以基于查询参数的位置去推断分区的名称，从而建立分区。-动态分区属性：设置为true表示开启动态分区功能（默认为false）
hive.exec.dynamic.partition=true;-动态分区属性：设置为nonstrict，表示允许所有分区都是动态的（默认为strict）
-设置为strict，表示必须保证至少有一个分区是静态的
hive.exec.dynamic.partition.mode=strict;-动态分区属性；每个mapper 或reducer可以创建的最大动态分区个数
hive.exec.max.dynamic.partitions.pernode=100;-动态分区属性：一个动态分区创建语句可以创建的最大动态分区个数
hive.exec.max.dynamic.partitions=1000;-动态分区属性：全局可以创建的最大文件个数
hive.exec.max.created.files=100000;尽量不要用动态分区，因为动态分区的时候，将会为每一个分区分配reducer数量，当分区数量多的时候，
reducer数量将会增加，对服务器是一种灾难。

七、严格模式(strict mode)

对分区表进行查询，在where子句中没有加分区过滤的话，将禁止提交任务（默认：nonstrict）set hive.mapred.mode=strict;注：使用严格模式可以禁止3种类型的查询：
（1）对于分区表，不加分区字段过滤条件，不能执行
（2）对于order by 语句，必须使用limit语句。
（3）限制笛卡尔积的查询（join的时候不使用on，而使用where的）。

转载于:https://www.cnblogs.com/weiyiming007/p/10784675.html

3.11-3.14 Hive 企业使用优化2相关推荐

分享Silverlight/WPF/Windows Phone一周学习导读(11月14日-11月20日)
分享Silverlight/WPF/Windows Phone一周学习导读(11月14日-11月20日) 本周Silverlight学习资源更新 Silverlight App.xaml用途 Jaso ...
[一起学Hive]之十二-Hive SQL的优化
十一.Hive SQL的优化本章只是从HQL层面介绍一下,日常开发HQL中需要注意的一些优化点,不涉及Hadoop层面的参数.配置等优化. 其中大部分是我之前发过的博客文章,这里整理了下. 11.1 ...
工业机器人扬州江都_扬州市14家企业获批2019年江苏省示范智能车间
近日,我省正式发布2019年江苏省示范智能车间名单,所谓智能车间,是指将机器人.智能设备.信息技术三者在制造过程中全流程融合,实现自动决策.精确执行命令.精益管理. 2019年,扬州市潍柴扬柴.新联汽 ...
11月14日，西安，听说有一节百度AI快车道课程在等你上车
他们拥有比其他人更坚韧的耐力,他们对技术充满激情,他们可雷打不动同一坐姿保持整天,他们技能值与发量常常成反比,他们最讨厌的人是八阿哥(bug).他们可不是什么新物种,而是代码世界的"挑战者& ...
江苏省消保委约谈14家企业，要求确保弹窗一键关闭无障碍实现
9月15日消息,互联网弹窗相关问题一直以来倍受广大用户诟病,成为恼人的"牛皮癣".为促进行业健康发展,督促相关企业落实主体责任,切实维护消费者合法权益,江苏省消保委开展了PC端应用 ...
HDP Hive StorageHandler 下推优化的坑
关键词:hdp , hive , StorageHandler 了解Hive StorageHandler的同学都知道,StorageHandler作为Hive适配不同存储的拓展类,同时肩负着Hive ...
2021.11.8-11.14 AI行业周刊（第71期）：AI行业经验
篇章一:行业经验不同的AI公司,对于AI产品的场景定位不同. 有的公司是面向C端产品.有的公司专门做B端用户. 当然大白所在的公司,也有具体的定位,主要面向智慧金融.智慧机场.智慧城市. 之前,一直 ...
阿里巴巴并购雅虎中国[北京时间8月11日14时]
北京时间 8 月 11 日 14 时 ,阿里巴巴(中国)网络技术有限公司在北京宣布,全面收购雅虎中国全部资产 ,其中包括雅虎中国门户网站( www.yahoo.com.cn ).搜索门户 " ...
【财经期刊FM-Radio｜2020年11月14日】
title: [财经期刊FM-Radio|2020年11月14日] 微信公众号: 张良信息咨询服务工作室 [今日热点新闻一览↓↓] 能源股创最大周涨幅,欧美股市反弹连涨两周,中概新能源车盘中大逆转跌落 ...

3.11-3.14 Hive 企业使用优化2

3.11-3.14 Hive 企业使用优化2相关推荐

最新文章

热门文章