为什么80%的码农都做不了架构师?>>>   

show tables; metastore->>mysql;
select * from bi.dpods_dp_unsubscribe where hp_statdate = '2015-03-22' limit 10; -》不起job
select dpid from bi.dpods_dp_unsubscribe where hp_statdate = '2015-03-22' limit 10; ->起job,需要resource manager

如果你想查询某个表的某一列,Hive默认是会启用MapReduce Job来完成这个任务,如下: 我们都知道,启用MapReduce Job是会消耗系统开销的。对于这个问题,从Hive0.10.0版本开始,对于简单的不需要聚合的类似(SELECT columns from table_name)不需要起MapReduce job,直接通过Fetch task获取数据,可以通过设置如下属性实现:

set hive.fetch.task.conversion=more; // 简单查询就不走map/reduce了,直接读取hdfs文件进行filter过滤。但是有数据量大时要等很长时间,且没有任何返回。
set hive.fetch.task.conversion=minimal; // 任何简单select都会走map/reduce;

开启了Fetch任务,所以对于上述简单的列查询不在启用MapReduce job。上面的两种方法都可以开启了Fetch任务,但是都是临时起作用的;如果你想一直启用这个功能,可以在${HIVE_HOME}/conf/hive-site.xml里面加入以下配置:

<property><name>hive.fetch.task.conversion</name><value>more</value><description>Some select queries can be converted to single FETCH task minimizing latency.Currently the query should be single sourced not having any subquery and should not haveany aggregations or distincts (which incurrs RS), lateral views and joins.1. minimal : SELECT STAR, FILTER on partition columns, LIMIT only2. more    : SELECT, FILTER, LIMIT only (+TABLESAMPLE, virtual columns)</description>
</property>

meta store查询:

show tables;
desc database finance;

PS:

发现hive就可以启动起来了,其实我们只需要把hive理解为几个部分即可:metastore、thrift server和剩下的hive,这几个部分都是可以分开部署的,放在不同的服务器上,这样的设计增加了hive的ha和可扩展性 但是分开部署会牺牲很大的可维护性,也增加了运维的复杂性,所以一般还是把元数据留着mysql中其他的部分放在一个jvm中。 hive也是个cs结构的东西 thrift是负责client和server通信的。

转载于:https://my.oschina.net/rathan/blog/603415

Hive Fetch Task相关推荐

  1. Hive: Task failed task_ Job failed as tasks failed. failedMaps:1 failedReob failed as tasks failed

    beeline在插入大批量的数据时报错,但是hive能插入 改为插入之前先查询一下,报出错误:GC overhead limit exceeded 这就好多了,不就是jvm内存溢出了嘛,因为hive能 ...

  2. hive 表的常用操作

    使用load 方式加载数据到Hive 表中,注意分区表加载数据的特殊性 如何保存HiveQL 查询结果:保存到表中,保存到本地文件(注意指定列分隔符) 常见查询练习,如group by.having. ...

  3. hive 字段不包含某个字符_hive之面试必问 hive调优

    1.Fetch抓取(Hive可以避免进行MapReduce) Hive中对某些情况的查询可以不必使用MapReduce计算.例如:SELECT * FROM employees;在这种情况下,Hive ...

  4. hive表信息查询:查看表结构、表操作等--转

    原文地址:http://www.aboutyun.com/forum.PHP?mod=viewthread&tid=8590&highlight=Hive 问题导读: 1.如何查看hi ...

  5. hive整合phoenix

    2019独角兽企业重金招聘Python工程师标准>>> 版本: hbase-0.98.21-hadoop2-bin.tar.gz phoenix-4.8.0-HBase-0.98-b ...

  6. apache hive 使用概述

    2019独角兽企业重金招聘Python工程师标准>>> 1         产品概述 1.1  产品功能 Apache Hive数据仓库软件提供对存储在分布式中的大型数据集的查询和管 ...

  7. 数据仓库中的SQL性能优化 - Hive篇

    一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针 ...

  8. 如何优化Hive SQL ??

    Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一. 但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓,所以Hi ...

  9. hive的一些调优参数

    hive的一些调优参数 set hive.exec.dynamic.partition.mode=nonstrict; 使用动态分区 set hive.exec.max.dynamic.partiti ...

最新文章

  1. CMakeLists.txt学习记录
  2. linux下apache服务器的配置和管理(启动、重启、中断服务)
  3. 安装autoit libary失败问题解决
  4. 面向对象的程序设计之原型模式
  5. spring coud feign
  6. hdu 1106 排序
  7. proxy error: could not proxy request解决方案
  8. SpringMVC的请求-获得请求参数-获得集合类型参数2
  9. Java中的Selenium / WebDriver示例
  10. LeetCode 490. 迷宫(BFS/DFS)
  11. Linux四种共享内存技术(附源码):SystemV、POSIX mmap、memfd_create、dma-buf
  12. Filecoin网络目前总质押量约为4018万枚FIL
  13. 计算机科学的鼻祖,现代计算机科学的鼻祖,编程界的上帝
  14. HiveQL学习笔记(四):Hive窗口函数
  15. Web项目(四)————异步队列的实现
  16. python爬关键词百度指数_Python爬虫爬取百度指数的关键词搜索指数教程
  17. 在全志平台调试博通的wifi驱动(类似ap6212)
  18. 【FOC控制】英飞凌TC264无刷驱动方案simplefoc移植(1)-霍尔编码器移植
  19. JavaScript之时间线(代码解释)
  20. 2021年茶艺师(初级)报名考试及茶艺师(初级)实操考试视频

热门文章

  1. LightOJ 1084 Winter(记忆化搜索)
  2. RAC常见命令检查状态
  3. 各个系统下以及VS2017、Qt十分常用的快捷键
  4. Intellij IDEA 远程debug、远程tomcat部署项目
  5. 并发,std::thread
  6. Docker是个啥?
  7. Java Servlet关键点详解
  8. Tornado 学习笔记
  9. 计算机类专业要不要练打字,计算机专业学生有必要专门花时间练习打字吗?
  10. 暖通专业标准规范大全_中高级职称专业分类改革 机械类十大热门专业分享