presto 使用 部署_探秘Presto+Alluxio高效云端SQL查询
我们很高兴宣布与Starburst Data建立OEM战略合作伙伴关系。Startburst Data是Presto背后的公司,另一方面Presto是一个增长速度最快的SQL查询引擎。通过这种合作关系, Startburst Data将提供一个捆绑的解决方案,将我们的两种开源技术结合在一起,并为交互式分析工作提供出色的性能和跨云功能。在详细介绍Alluxio+Starburst方案之前,让我们先退一步,看看为什么这些技术本身是现代数据栈的基本元素。
常用链接
- Alluxio项目官网
- Alluxio在各大厂用例
- 关注Alluxio微信公众号:Alluxio_China
让我们回到45年前的1974年,当时IBM实验室正在构建System R—SEQUEL (Structured English Query Language,结构化英文查询语言)的第一个实现。该架构包括一个解析器、编译器、基本优化器、系统缓存池和RSS研究存储系统。随着时间的推移演进,这个架构栈被称为关系数据库。
自1974年以来,数据世界发生了很多变化,从系统变得更加分布式,到硬件变得比以前快了无数倍,需要管理的数据也多了很多,但用于管理数据的核心概念实际上并没有改变。历史上,数据库与所有核心组件都被紧密集成在一起。Hadoop改变了这一点。计算和存储仍然是同置的,但是整个系统是高度分布式的,而不是在一个或几个盒子里。
进一步地,云计算改变了Hadoop数据栈模式。如今,优步(Uber)、推特(Twitter)、京东(http://JD.com)等一批最具创新力的公司正在构建的数据栈是一个完全不同的数据栈。原始关系数据库管理系统的每个核心元素现在都是一个独立层。存储引擎的选择范围很广,从HDFS到云对象存储,再到本地对象存储。表格目录的选择从集群的Hive Metastore到AWS的AWS Glue。对于正逐渐被称为数据编排层(Data Orchestration)的数据缓冲池,Alluxio是一个主要的实现。。另外,对于查询引擎Presto,Alluxio也是使用增加最快的配合选项。
这让我回到了令我兴奋的地方:Starburst Data和Alluxio的合作伙伴关系。当Alluxio的数据编排层和Presto一起部署时,可以优化整体的数据栈,使得数据栈在每个工作节点上具有更紧密的数据本地性。首先,用户可以使用Alluxio来对Presto缓存数据。这意味着计算驱动着数据需要从底层数据竖井和存储系统中取出。数据根据查询行为存储到缓冲区中,而查询行为又意味着最终用户行为,而最终用户行为又意味着最热的数据。I/O的操作从底层的慢速存储系统交给了Alluxio中一个非常快的数据访问层来进行。
为了扩展到超过Presto缓存,用户可以利用数据编排将数据从任何位置(本地集群、跨数据中心、云对象存储)移动到查询处理层附近。从技术上讲,这并不局限于查询引擎,计算也可以是ETL框架或基于Python的机器学习框架,例如像Tensorflow这样的深度学习框架。
Starbrust + Alluxio = 在一起更好
和Alluxio一起的Starbrust Presto是一个真正独立的数据栈,支持任何文件或对象存储进行交互式大数据分析。Starbrust Presto和Alluxio整合后能够共同帮助作业运行速度提高10倍,使重要数据本地化,并连接到各种存储系统和云。
通过这种合作方式,用户可以从Starbrust Data购买到Alluxio相应的产品和服务。我们很高兴能将这种伙伴关系带到我们的社区,并期待着您的参与!我们当然希望你也很感兴趣!
用户现在可以将他们遗留的数据仓库构建方法改为来使用现代云数据栈,在Presto、Alluxio和任何文件或对象存储上构建真正不同的数据栈。今天是与Presto绑定的数据编排(Data Orchestration),明天将是与另一个框架绑定的数据编排。数据编排才刚刚开始。
更多的资源
资源1:Starbrust Data和Alluxio
资源2:用Presto和Alluxio进行交互式分析
资源3:发布新闻稿
资源4:Presto + Alluxio数据表
presto 使用 部署_探秘Presto+Alluxio高效云端SQL查询相关推荐
- 如何编写快速高效的SQL查询(一)——MySQL8.0优化器查询优化处理与样例
当希望MySQL能够以更高的性能运行查询时,最好的办法就是弄清楚MySQL是如何优化和执行查询的.一旦理解了这一点,很多查询优化工作实际上就是遵循一些原则让优化器能够按照预想的合理的方式运行. MyS ...
- presto 使用 部署_部署PrestoDB on Cassandra
1.准备一个5节点的cassandra集群 略 node1,node2,node3,node4,node5 2.在node1上下载presto wget https://repo1.maven.org ...
- SqlServer2005高效分页sql查询语句汇总
http://blog.sina.com.cn/s/blog_669129380100lpmp.html 转载于:https://www.cnblogs.com/Mblog/p/3500788.htm ...
- java批量执行查询sql语句_详解MyBatis直接执行SQL查询及数据批量插入
一.直接执行SQL查询: 1.mappers文件节选 ${paramSQL} 2.DAO类节选 public interface SomeDAO{ List getInstanceModel(@Par ...
- mysql 查询执行过程_深入浅出Mysql(一)——sql查询执行过程
一.sql查询执行过程概括 下面给出的mysql基本架构示意图,从中你可以清楚的mysql的各个模块和执行过程. 大体来说可以分为两部分Server层和储存引擎层.Server层包括连接器.查询缓存. ...
- mysql 索引未命中_联合索引命中率问题导致SQL查询效率慢的问题
执行 MySQL DumpSlow 结果是:Count: 1358 Time=0.33s (448s) Lock=0.00s (0s) Rows=2.5 (3343) Count:出现次数 Ti ...
- python 查询sqlserver 视图_在Python中,将SQL查询的输出显示为表,就像在SQL中一样...
这似乎是一个基本的函数,但我对Python还不熟悉,所以也许我没有正确地搜索这个函数. 在Microsoft SQL Server中,当SELECT top 100 * FROM dbo.Patien ...
- mysql 查询一个订单下多个商品_如何商品信息多个sql查询搜索
重点sql语句的处理 $sql= "select * from ht_order o,tb_user u where o.BuyerId=u.UserID ";//sql语句,这是 ...
- java sql查询空内容_返回null值而不是sql查询中的空集
比方说,有两个表: select * from users; +-------+------+ | login | type | +-------+------+ | test1 | A | | te ...
- mysql产品型号_三:MySQL系列之SQL查询
INSERT INTO `areas` VALUES ('110000', '北京市', NULL);INSERT INTO `areas` VALUES ('110100', '北京市', '110 ...
最新文章
- Sql Server 调用DLL
- USB基础---OHCI、UHCI、EHCI和XHCI控制器简介
- 知乎推荐页Ranking构建历程和经验分享
- ML之DT:基于简单回归问题训练决策树(DIY数据集+三种深度的二元DT性能比较)
- [architecture]-DBG、DMB、DSB 和 ISB指令介绍
- pytorch adagrad_【学习笔记】Pytorch深度学习—优化器(二)
- [C# 基础知识系列]专题十五:全面解析扩展方法
- Django文件上传***
- centos7 jenkins 安装
- 通用无线公共接口cpri学习笔记_11/24
- latch:cbc等待
- 计算机英特尔显卡在哪找,Win10英特尔显卡设置在哪里 英特尔核芯显卡控制面板六大功能详解...
- [COGS2287][HZOI 2015]疯狂的机器人(NTT)
- 离散数学——哈斯图,最大最小值,极大极小值,上界和下界
- 浅析Kafka实时数据处理系统
- go语言JSON验证器
- 开车遇暴雨请戴墨镜!快转起,很多人会感激你的!
- 经典设计原则:单一职责原则(SRP)
- 通往智慧之路:IBM认知计算课程体系
- 笔记本电池如何做寿命才能更长久