下面是这几天来我对于hive on mr/hive on spark /impala / presto/ spark-sql 做的调研之后做的总结,见以下矩阵:

武器库

优点

缺点

Hive Sql支持度

UDF支持

hive on mr

~

全部

支持

hive on spark

~

较慢

全部

支持

impala

对于大表需事先对表COMPUTE

对于多count(distinct)语句需要改写

支持

presto

数据量小的表可以秒查

对于数据量大的表基本上跑不了

支持主流Hive Sql

不支持

spark-sql

较快

可能会不稳定

全部

支持

其他总结:
1.presto在执行执行简单sql、无关联表、表不是很大的情况下有秒查优势;
目前看来若要处理实时统计任务/在线查询采用presto是比较合适的;
  在有多个大表关联的sql中不建议采用presto执行。
2.impala不可以在一条语句中执行 count distinct,如需要务必将其拆开成多条语句;
  impala在并行执行多条sql的时候延迟会大;
impala处理连续任务或者大表任务依旧是我们现在采用的impala比较合适;

3.hive/hive on spark/spark sql 批量查询;
   hive/hive on spark 使用方便;
   spark sql 可以继续调优参数,而hive on spark的参数设置没有前者灵活 。

大数据SQL执行工具调研总结相关推荐

  1. SuperSQL:跨数据源、跨DC、跨执行引擎的高性能大数据SQL中间件

    导语:SuperSQL是腾讯数据平台部自研的跨数据源.跨数据中心.跨执行引擎的统一大数据SQL分析平台/中间件,支持对接适配多类外部开源SQL执行引擎,如Spark.Hive等. 背景 SuperSQ ...

  2. 荐六十款针对Hadoop和大数据顶级开源工具

    为什么80%的码农都做不了架构师?>>>    荐六十款针对Hadoop和大数据顶级开源工具 2015-08-10 10:37 布加迪编译 51CTO 字号: T |  T 说到处理 ...

  3. 大数据使用及现状调研报告

    大数据使用及现状调研报告 大数据,指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. ...

  4. 30个mysql千万级大数据SQL查询优化技巧详解

    点击上方关注 "终端研发部" 设为"星标",和你一起掌握更多数据库知识 文章来自:脚本之家 http://www.jb51.net/article/136701 ...

  5. 【大数据】大数据 Hadoop 管理工具 Apache Ambari(HDP)

    文章目录 一.概述 二. Ambari 与 HDP 关系 三.Ambari 与 Cloudera manager 的对比 1)开源性 2)支持的发行版 3)用户界面 4)功能和扩展性 5)社区支持和生 ...

  6. 大数据SQL优化之数据倾斜解决案例全集

    1 什么是数据倾斜 数据倾斜即指在大数据计算任务中某个处理任务的进程(通常是一个JVM进程)被分配到的任务量过多,导致任务运行时间超长甚至最终失败,进而导致整个大任务超长时间运行或者失败.外部表现的话 ...

  7. mysql千万级大数据SQL查询优化

    1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引.2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引 ...

  8. 如何利用大数据思维进行用户调研?

    爱数据学习社 welcome 传统的产品调研,通常需要先行选定用户样本,之后耗费大量人力物力采用不同的调研方法,进行用户调研. 如果把大数据应用到用户调研当中,凭借着海量的历史数据样本,对于调研问题, ...

  9. 【分享】小工具大智慧之Sql执行工具

    [分享]小工具大智慧之Sql执行工具 原文:[分享]小工具大智慧之Sql执行工具 工具概况 情况是这样的,以前我们公司有很多Sql用于完成一些很不起眼但又不得不完成的业务,出于方便就直接在Sql查询分 ...

最新文章

  1. linux + ffmpeg + eclipse 调试
  2. Linux 4.18 内核新补丁移除了Lustre 文件系统
  3. 大数据之---Yarn伪分布式部署和MapReduce案例
  4. Oracle中不同条件的日期查询
  5. 算法每日练习之判断完数
  6. 四因素三水平正交试验表_案例 | 螺栓装配失效试验研究
  7. 网络设计分层设计的原理
  8. python之配置日志的几种方式
  9. springboot对应springcloud各个版本和官网查询地址
  10. matlab中离散化傅里叶变换,Matlab模拟傅里叶变换
  11. 怎么将计算机的触摸鼠标锁定,这4种方法可以轻松关闭笔记本锁定触控板
  12. Redis热点Key发现及常见解决方案总结
  13. MATLAB基础图像处理算法
  14. 使用伪类实现划掉字体
  15. XP计算机里改单核,如何将双核CPU改成单核CPU 双核改单核教程
  16. java 图像特效之黑白 浮雕和底片
  17. 四旋翼飞行器13——欧拉中的俯仰、横滚、偏航角
  18. i 春秋CTF题目 百度杯 9月场 再见CMS Upload 复现
  19. Android音乐播放器(三)轮播图
  20. Ubuntu在中国的展望

热门文章

  1. 锐动多媒体工具sub错误处理办法
  2. Android App保护用户隐私————禁止应用截屏或录屏
  3. VLAN应用篇系列:(8)Cisco交换机 PVLAN技术应用(高级的隔离技术)
  4. Some information of LSTM
  5. 睿尔曼超轻量仿人机械臂--Realsense D435手眼标定
  6. 微信小程序-页面间如何进行传递数据(通信)
  7. linux权限命令chgrp,Linux常用命令之用户权限管理chmod、chown、chgrp、umask命令讲解...
  8. editText限制字数并提示
  9. Hadoop-Apache Hadoop大数据解决方案的整体介绍
  10. 测试开发常考的面试题+答案汇总(持续更新)