presto使用初探
前言 presto使用第一感觉: 真是快啊,百万数据秒级出结果
presto 文档: https://prestodb.io/docs/current/
参考文章https://blog.csdn.net/zhangmary/article/details/80287530
1 presto是什么:
是Facebook的开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎
是一种大规模并行处理(MPP)架构,多节点管道式执行
⽀持任意数据源(通过扩展式连接器组件),数据规模GB〜PB级
使用的技术,如向量计算,动态编译执行计划,优化的ORC和Parquet Reader等
presto不太支持存储过程,支持部分标准SQL
presto的查询速度比hive快5-10倍
适合:PB级海量数据复杂分析,交互式SQL查询,⽀持跨数据源查询
不适合:多个大表的连接操作,因为急是基于内存的,多张大表在内存里可能放不下
2 presto和hive的对比
参考文章https://blog.csdn.net/zhangmary/article/details/80287530
hive是一个数据仓库,是一个交互式比较弱一点的查询引擎,交互式没有似的那么强,而且只能访问HDFS的数据
Presto是一个交互式查询引擎,可以在很短的时间内返回查询结果,秒级,分钟级,能访问很多数据源
Presto是一个分布式SQL查询引擎,它被设计为用来专门进行高速,实时的数据分析。
hive在查询的100Gb的级别的数据时,消耗时间已经是分钟级了
但是presto是取代不了hive的,因为p全部的数据都是在内存中,限制了在内存中的数据集大小,比如多个大表的连接,这些大表是不能完全放进内存的,实际应用中,对于在Presto的查询是有一定规定条件的,比比如说一个查询在急查询超过30分钟,那就杀掉吧,说明不适合在Presto上使用,主要原因是,查询过大的话,会占用整个集群的资源,这会导致你后续的查询是没有资源进行查询的,这跟Presto的设计理念是冲突的,就像是你进行一个查询,但是要等个5分钟才有资源继续查询,这是很不合理的,交互式就变得弱了很多
Presto的实现和Hive有着本质的不同:
Hive是把一个查询转化成多个stage的MapReduce的任务,然后一个接一个执行。执行的中间结果通过对磁盘的读写来同步。然而,Presto没有使用MapReduce,它是通过一个定制的查询和执行引擎来完成的。它的所有的查询处理是在内存中,这也是它的性能很高的一个主要原因。所以在日常使用中,如果有大量的连接偶尔会发生内存不足的报错,一个常见的解决方法是生成中间表的方式来减少加入的次数。
3 presto使用注意
(1) apply_no as “申请编号” ,其中别名使用的是双引号
(2) 数据类型不会隐式转换,需要手动cast( nums as int)
(3) SQL脚本最后不能使用分号
(4) SQL脚本不能使用tab键
presto使用初探相关推荐
- 初探Scrapy爬虫框架之百度网页爬取
初探Scrapy爬虫框架之百度网页爬取 scrapy框架及百度网页爬取与保存 一.scrapy框架简介 二.自己初使用的心得体会 1.爬虫之前明确目标 2.scrapy框架的简单使用流程 3.scra ...
- 2021年大数据Flink(九):Flink原理初探
Flink原理初探 Flink角色分工 在实际生产中,Flink 都是以集群在运行,在运行的过程中包含了两类进程. JobManager: 它扮演的是集群管理者的角色,负责调度任务.协调 checkp ...
- 从壹开始微服务 [ DDD ] 之一 ║ D3模式设计初探 与 我的计划书
缘起 哈喽大家周四好!又是开心的一天,时间过的真快,我们的 <从壹开始 .net core 2.1 + vue 2.5 >前后端分离系列共 34 篇已经完结了,当然以后肯定还会有更新和修改 ...
- 经典算法研究系列:二、Dijkstra 算法初探
经典算法研究系列:二.Dijkstra 算法初探 July 二零一一年一月 ====================== 本文主要参考:算法导论 第二版.维基百科. 写的不好之处,还望见谅. 本 ...
- presto能连接mysql和hive吗_Presto连接Hive
接前一篇文章,这里只说怎样连接Hive. 配置 Hive Connector etc/catalog/hive.properties connector.name=hive-hadoop2 hive. ...
- 浏览器内核Trident/Gecko/WebKit/Presto
"浏览器内核"主要指渲染引擎(Rendering Engine),负责解析网页语法(如HTML.JavaScript)并渲染.展示网页.因此,所谓的浏览器内核通常也就是指浏览器所采 ...
- las格式测井曲线_邹榕,等:顺北和托甫台区块奥陶系断裂结构单元测井响应特征初探...
引用格式:邹榕,徐中祥,张晓明,等.顺北和托甫台区块奥陶系断裂结构单测井响应特征初探[J].油气藏评价与开发,2020,10(2):18-23.ZOUR, XU Z X, ZHANG X M, et ...
- 2018-4-15摘录笔记,《网络表征学习前沿与实践》 崔鹏以及《网络表征学习中的基本问题初探》 王啸 崔鹏 朱文武
1.来源:<网络表征学习前沿与实践> 崔鹏 (1)随着数据的增加以及计算机计算速度的增加,想当然的以为速度快了,数据再多也是可以自己算的,但是若是数据之间存在着复杂的关系,那么处理一个样 ...
- 深入理解Presto(1) : Presto的架构
简介 Presto是一个facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节.presto的架构由关系型数据库的架构演化而来.presto之所以能在各个内存计算型 ...
最新文章
- PHP高级编程SPL
- 使用VS2015远程GDB调试
- 典型数据中心能耗分析,空调系统选择很重要,想节能可以这样设计
- 老板和用户你听谁的——手机网站改版踩坑记
- netty springmvc_springmvc源码架构解析之HandlerMapping
- linux 负载进程,Linux 中 D 状态的进程与平均负载
- 电子相册系统(三)使用技术
- 获取本地ip地址 C#
- linux dhcp服务器配置及小实验
- 使用原生javaScript创建ul和li对象以及操作
- [C/C++] C++笔试常见问题
- SpringNet整合NHibernate相关配置
- 计算机专业代码qian,专业分类号及学科代码对照表.doc
- C语言的32个关键字怎么背,谁知道c语言的32个关键字怎么读,还有语法。
- JSZip的简单使用
- XTU OJ 1395
- Microsoft store 提示检查网络(Error :0x80072EFD),总有一种方法适合你!
- 网易游戏AI Lab 招聘CV日常实习生
- SpringBoot整合Flowable工作流引擎框架
- SharpSCADA - 工控网关, 轻量级组态软件(笔记)