Hive Fetch Task

为什么80%的码农都做不了架构师？>>>

show tables; metastore->>mysql;
select * from bi.dpods_dp_unsubscribe where hp_statdate = '2015-03-22' limit 10; -》不起job
select dpid from bi.dpods_dp_unsubscribe where hp_statdate = '2015-03-22' limit 10; ->起job，需要resource manager

如果你想查询某个表的某一列，Hive默认是会启用MapReduce Job来完成这个任务，如下：我们都知道，启用MapReduce Job是会消耗系统开销的。对于这个问题，从Hive0.10.0版本开始，对于简单的不需要聚合的类似（SELECT columns from table_name）不需要起MapReduce job，直接通过Fetch task获取数据，可以通过设置如下属性实现：

set hive.fetch.task.conversion=more; // 简单查询就不走map/reduce了,直接读取hdfs文件进行filter过滤。但是有数据量大时要等很长时间，且没有任何返回。
set hive.fetch.task.conversion=minimal; // 任何简单select都会走map/reduce;

开启了Fetch任务，所以对于上述简单的列查询不在启用MapReduce job。上面的两种方法都可以开启了Fetch任务，但是都是临时起作用的；如果你想一直启用这个功能，可以在${HIVE_HOME}/conf/hive-site.xml里面加入以下配置：

<property><name>hive.fetch.task.conversion</name><value>more</value><description>Some select queries can be converted to single FETCH task minimizing latency.Currently the query should be single sourced not having any subquery and should not haveany aggregations or distincts (which incurrs RS), lateral views and joins.1. minimal : SELECT STAR, FILTER on partition columns, LIMIT only2. more    : SELECT, FILTER, LIMIT only (+TABLESAMPLE, virtual columns)</description>
</property>

meta store查询：

show tables;
desc database finance;

PS:

发现hive就可以启动起来了，其实我们只需要把hive理解为几个部分即可：metastore、thrift server和剩下的hive，这几个部分都是可以分开部署的，放在不同的服务器上，这样的设计增加了hive的ha和可扩展性但是分开部署会牺牲很大的可维护性，也增加了运维的复杂性，所以一般还是把元数据留着mysql中其他的部分放在一个jvm中。 hive也是个cs结构的东西 thrift是负责client和server通信的。

转载于:https://my.oschina.net/rathan/blog/603415

Hive Fetch Task相关推荐

Hive： Task failed task_ Job failed as tasks failed. failedMaps:1 failedReob failed as tasks failed
beeline在插入大批量的数据时报错,但是hive能插入改为插入之前先查询一下,报出错误:GC overhead limit exceeded 这就好多了,不就是jvm内存溢出了嘛,因为hive能 ...
hive 表的常用操作
使用load 方式加载数据到Hive 表中,注意分区表加载数据的特殊性如何保存HiveQL 查询结果:保存到表中,保存到本地文件(注意指定列分隔符) 常见查询练习,如group by.having. ...
hive 字段不包含某个字符_hive之面试必问 hive调优
1.Fetch抓取(Hive可以避免进行MapReduce) Hive中对某些情况的查询可以不必使用MapReduce计算.例如:SELECT * FROM employees;在这种情况下,Hive ...
hive表信息查询：查看表结构、表操作等--转
原文地址:http://www.aboutyun.com/forum.PHP?mod=viewthread&tid=8590&highlight=Hive 问题导读: 1.如何查看hi ...
hive整合phoenix
2019独角兽企业重金招聘Python工程师标准>>> 版本: hbase-0.98.21-hadoop2-bin.tar.gz phoenix-4.8.0-HBase-0.98-b ...
apache hive 使用概述
2019独角兽企业重金招聘Python工程师标准>>> 1 产品概述 1.1 产品功能 Apache Hive数据仓库软件提供对存储在分布式中的大型数据集的查询和管 ...
数据仓库中的SQL性能优化 - Hive篇
一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针 ...
如何优化Hive SQL ？？
Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一. 但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓,所以Hi ...
hive的一些调优参数
hive的一些调优参数 set hive.exec.dynamic.partition.mode=nonstrict; 使用动态分区 set hive.exec.max.dynamic.partiti ...

Hive Fetch Task

Hive Fetch Task相关推荐

最新文章

热门文章