Hadoop生态圈之即席查询工具Presto
一、Presto概念
- presto是一个开源的分布式sql查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询场景。
- 注意:虽然presto可以解析SQL,但他不是一个标准的数据库。不是mysql,oracle的替代品,也不能用来处理在线事务(OLTP),同时presto用的是一套自己的SQL语言,程序员的学习成本高,所以市场占有率并不高。
二、Presto架构
presto由一个coordinator和多个worker组成。
三、Presto优缺点
1)优点
- (1)presto基于内存运算,减少了硬盘IO,计算更快
- (2)能够连接多个数据源(对比于同类产品的impala),跨数据源连表查。如从hive查询大量网站访问记录,然后从mysql中匹配出设备信息。
2)缺点
- presto能够处理PB级别的海量数据分析,但presto并不是把PB级数据都放在内存中计算的。而是根据场景,如count,avg等聚合运算是边读数据边运算,再清内存,再读数据再计算,这种消耗内存并不高。但是连表查,就可能产生大量的临时数据,因此数据会变慢。
四、Presto、Impala性能比较
https://blog.csdn.net/u012551524/article/details/79124532
测试结论:Impala性能稍领先于Presto,但是Presto在数据源支持上非常丰富,包括Hive、图数据库、传统关系型数据库、Redis等。
Hadoop生态圈之即席查询工具Presto相关推荐
- #数据技术选型#即席查询Shib+Presto,集群任务调度HUE+Oozie
郑昀 创建于2014/10/30 最后更新于2014/10/31 一)选型:Shib+Presto 应用场景:即席查询(Ad-hoc Query) 1.1.即席查询的目标 使用者是产品/运营/销售运营 ...
- 大数据即席查询工具——秒级响应
报表是企业管理的基本措施和途径,是企业的基本业务要求,也是实施 BI战略的基础.报表可以帮助企业访问.格式化数据,并把数据信息以可靠和安全的方式呈现给使用者.在企业管理过程中,报表往往都会通过一些简洁 ...
- 【电商数仓】数仓即席查询之Presto简介,安装,Presto优化之数据存储、查询SQL、一些注意事项
文章目录 一 Presto简介 1 Presto概念 2 Presto架构 3 Presto优缺点 4 Presto.Impala性能比较 二 Presto安装 1 Presto Server安装 2 ...
- 数据仓库(六)---分布式SQL查询引擎---presto介绍
我们在之前的文章中已经学习了数据仓库hive,如果要对数据仓库进行交互查询,则需要交互查询的引擎用于提高查询效率.本章介绍presto. 简介 Presto是一个开源的分布式SQL查询引擎,适用于实时 ...
- 本地数仓项目(四)—— 即席查询
1 背景 本文描述本地数仓项目即席查询相关内容,主要涉及即席查询工具包括Presto.Druid.Kylin. 本文基于文章<本地数据仓库项目(一) -- 本地数仓搭建详细流程> 和< ...
- Hadoop生态圈一览
根据Hadoop官网的相关介绍和实际使用中的软件集,将Hadoop生态圈的主要软件工具简单介绍下,拓展对整个Hadoop生态圈的了解. 这是Hadoop生态从Google的三篇论文开始的发展历程,现已 ...
- 数据库必知词汇:即席查询(Ad Hoc)
即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表.即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条 ...
- 大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之5.即席查询Impala介绍及入门使用
文章目录 前言 1.Impala概述 (1)Impala的概念和优势 (2)Impala的缺点及适用场景 2.Impala的安装与入门 (1)准备工作 (2)制作本地yum源 (3)安装Impala ...
- Kylin、druid、presto、impala四种即席查询对比--(转载)
一.什么是即席查询 即席查询是用户根据自己的需求,灵活的选择查询条件,系统根据用户的选择生成相应的统计报表.普通查应用查询是定制开发的,即席查询是用户自定义查询条件 理解:快速的执行自定义SQL(可能 ...
- 是选impala还是presto_Kylin、druid、presto、impala四种即席查询对比
一.什么是即席查询 即席查询是用户根据自己的需求,灵活的选择查询条件,系统根据用户的选择生成相应的统计报表.普通查应用查询是定制开发的,即席查询是用户自定义查询条件 理解:快速的执行自定义SQL(可能 ...
最新文章
- jemter接口并发数怎么算_JMeter学习使用(1) - 接口GET请求并发测试
- 皮一皮:真的是方法不对吗?
- python 网站文件下载-python从网站上下载东西
- Kafka文件存储机制那些事
- Redis实战(五):Redis的持久化RDB、fork、copyonwrite、AOF、RDBAOF混合使用
- react --- render持续调用解决方案
- 图像基本处理算法的简单实现(二)
- Batch Normalization批量归一化
- 如何使新站得到高权重技巧
- Spotlight监控Oracle--Spotlight On Oracle安装和使用
- 线性时间选择——寻找第k小的数
- 智能毫米波雷达人体感应器,实时检测静止存在,智能化控制方案
- 如何在linux下观看需vodplayer播放的电影
- 计算机面试 OA 试题及答案,办公自动化题库OA(附答案)
- 0-简单工厂模式类图
- 粒子滤波(Particle filter)算法简介及MATLAB实现
- Chrome浏览器书签手动同步
- chr python用法_使用Python内建chr, ord实现的简单的加/解密
- WKWebView 和UIWebView userAgent 全局设置和局部设置 9.0 12.0 兼容性问题
- 数学基础:和式极限(可爱因子理解) 连续,极限定义: 导数: 微积分: 推荐数学电影
热门文章
- API网关之-协议转换原理
- Python 自动化 30 个实用案例
- 录像机输入几次错误密码后被锁定
- ppt编写一个抽奖系统_人人都能写的基于PPT的抽奖程序 篇三:为2019年制作一个优雅且功能全面的年会抽奖PPT...
- 【DP算法篇之初学】LIS\LCS\二维DP\带条件DP
- linux addr2line 用法,addr2line的用法
- 关于用KMS的时候手欠把原装正版win11的激活卸载了怎么办
- 第 11 章 Harddisk
- 医惠护理系统服务器错误,医惠智能云随访系统
- java emf 转jpg_JAVA读取EMF文件并转化为PNG,JPG,GIF格式