Hive-之即席查询引擎选型考量
Hive-之即席查询引擎选型
1 背景
为什么需要使用到即席查询的数据表,这个取决于数仓的上层应用于数仓的规模,通常如果需要给Hive的上层服务提供快速响应,那么即席查询是必不可少的数仓组件,常见的即席查询组件有以下。
- Druid
- Kylin
- Presto
- Impala
- Spark SQL
- ES
2 各种即席查询引擎的功能对比
对比点 | Duird | Kylin | Presto | Impala | SparkSQL | ES |
---|---|---|---|---|---|---|
亚秒级响应 | Y | Y | N | N | N | N |
百亿级数据集 | Y | Y | Y | Y | Y | Y |
SQL支持 | N(ing) | Y | Y | Y | N | N |
离线 | Y | Y | Y | Y | Y | Y |
实时 | Y | N(ing) | N | N | N | Y |
精确去重 | N | Y | Y | Y | N | N |
多表join | N | Y | Y | Y | N | N |
JDBC for BI Report支持 | N | Y | Y | Y | N | N |
1、Druid:是一个实时处理时序数据的OLAP数据库,因为索引首先按照时间分片,查询的时候也是按照时间路线去路由索引。
2、Kylin:核心是cube,cube是一种预计算技术,基本思路是预先对数据作多维的索引,查询时只扫描索引而不访问原始数据从而提速。
3、Presto:它没有使用MR,大部分场景下比Hive快一个量级,其中的关键是所有的处理都在内存中完成,支。
4、Impala:基于内存运算,速度快,支持的数据源没有presto多。
5、SparkSQL:基于Spark平台的OLAP框架,基本思路是增加机器并行计算,从而提高查询速度。
6、ES:使用分词和倒排索引实现快速查询,ES在资源获取和聚集用的资源比Druid高。
3 框架选型
3.1 从超大量数据集查询效率
Druid > Kylin > Presto > SparkSQL
3.2 数据源多样性支持
Presto > SparkSQL > Kylin > Druid
Hive-之即席查询引擎选型考量相关推荐
- OLTP、OLAP、即席查询(ad hoc query)区别与联系
对于目前来讲,对数据的处理主要集中在两个方面,一种是联机事务处理 OLTP(on-line transaction processing),另一种是联机分析处理 OLAP(On-Line Analyt ...
- OLTP, OLAP, 即席查询(ad hoc query)区别与联系
对于目前来讲,对数据的处理主要集中在两个方面,一种是联机事务处理OLTP(on-line transaction processing),另一种是联机分析处理OLAP(On-Line Analytic ...
- #数据技术选型#即席查询Shib+Presto,集群任务调度HUE+Oozie
郑昀 创建于2014/10/30 最后更新于2014/10/31 一)选型:Shib+Presto 应用场景:即席查询(Ad-hoc Query) 1.1.即席查询的目标 使用者是产品/运营/销售运营 ...
- 金融数据查询增速三倍,服务器成本减半,海尔云链的 OLAP 引擎选型之路
重庆海尔云链科技有限公司成立于 2006 年,作为行业领先的科技场景生态平台,以科技为第一生产力,以消费金融场景为着力点,形成了具备统一支付.数据交换.动态 AI 定价.智能作业及云服务等核心能力. ...
- 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)...
不多说,直接上干货! 这个很简单,在集群机器里,选择就是了,本来自带就有Impala的. 扩展博客 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解) 欢迎大 ...
- 全方位测评Hive、SparkSQL、Presto 等七个大数据查询引擎,最快的竟是……| 程序员硬核测评...
现在大数据组件非常多,众说不一,那么每个企业在不同的使用场景里究竟应该使用哪个引擎呢?易观Spark实战营团队选取了Hive.SparkSQL.Presto.Impala.HAWQ.ClickHous ...
- Presto、Spark 和 Hive 即席查询性能对比
Presto.Spark 和 Hive 是三个非常流行的大数据处理框架,它们都有着各自的优缺点.在本篇博客文章中,我们将对这三个框架进行详细的对比,以便读者更好地了解它们的异同点. Presto 是一 ...
- 数据仓库(六)---分布式SQL查询引擎---presto介绍
我们在之前的文章中已经学习了数据仓库hive,如果要对数据仓库进行交互查询,则需要交互查询的引擎用于提高查询效率.本章介绍presto. 简介 Presto是一个开源的分布式SQL查询引擎,适用于实时 ...
- 易观CTO郭炜:如何构建企业级大数据Ad-hoc查询引擎
凭借多年大数据平台建设经验,易观 CTO郭炜为大家分享了易观在大数据实时查询引擎建设过程所获经验与挑战,以及大数据人员如何快速建立自己的大数据查询引擎套件,让自己的数据人员不再是"表哥表妹& ...
- Shib+Presto 即席查询
1.1.即席查询的目标 使用者是产品/运营/销售运营的数据分析师: 要求数据分析师掌握查询SQL查询脚本编写技巧,掌握不同业务的数据存储在不同的数据集市里: 不管他们的计算任务是提交给 数据库 还是 ...
最新文章
- Java 8 的 JVM 有多快?Fork-Join 性能基准测试
- Linux备份压缩命令
- 怎么下载php源文件,设计了一个php下载当前文件,却把php源文件下载下来了,为何?...
- 生产环境频繁内存溢出,原来就是因为这个“String类”
- Intra Chroma Prediction
- Eclipse调试Java的10个技巧
- linux嵌入式gdb调试指南,建立嵌入式gdb调试环境
- C4-Squid-Purge
- PHP两文件嵌套循环引用,php的循环与引用的一个坑,php循环引用_PHP教程
- 微信小程序跳过第三方的_微信小程序工具 第三方平台
- 手工打造迅雷9超精简版
- Linux下手机驱动安装
- Qt在Mac环境下制作dmg安装包
- C++复习笔记3——类与对象(赋值重载、临时对象、const、static)
- C/C++编程学习 - 第20周 ⑩ 量身高
- 消息中间件MQ与RabbitMQ面试题
- rstp 小米网络摄像头_小米哪个家庭摄像头好用?
- 2015年京胜杯删数!删数
- Premier Bob的算法模板库(II)
- Kafka概述-什么是Kafka?